Preciso de arquivos texto para extração de dados

87 views
Skip to first unread message

Fernando Macedo

unread,
Sep 30, 2013, 2:03:49 PM9/30/13
to thac...@googlegroups.com
Pessoal, 

Estou abrindo os fontes de uma biblioteca em Python para extração de dados em documentos semi-estruturados, o raspador [1].

Farei alguns exemplos, e gostaria de aproveitar este esforço para já extrair alguma coisa útil.

Então... você tem algum arquivo texto semi-estruturado que precisa extrair informações? Me avise que te ajudo! Você ganha os dados extraídos e eu ganho um exemplo real e útil.

O raspador se destaca em arquivos que não possuem uma estrutura formal e estejam em texto simples (ou que seja fácil converter para texto, como arquivos PDF), pois para XML, CSV, e HTML já existem excelentes alternativas. 

Farei uma apresentação do raspador na PythonBrasil 9 [2].

Atenciosamente,
Fernando Macedo

Daniel Bramatti

unread,
Sep 30, 2013, 2:19:02 PM9/30/13
to thac...@googlegroups.com

Olá, Fernando, tudo bem? Nós aqui do Estadão Dados estamos precisando montar uma planilha com todas as cidades onde Dilma esteve desde a posse, com a respectiva data. Não sei se é exatamente isso que você está tentando testar, mas seu raspador poderia capturar esses dados da agenda da presidente? http://www2.planalto.gov.br/imprensa/agenda/agenda-da-presidenta-1

Obrigado e abraço!



.

.

Daniel Bramatti | Editoria Nacional - Estadão Dados - Blog Públicos | O Estado de S. Paulo

Av. Eng. Caetano Álvares, 55 - Limão - São Paulo - SP - 02598-900

+ 55 11 3856-4592

estadoQuer  Blog Públicos Estadão Dados



2013/9/30 Fernando Macedo <fgma...@gmail.com>

--
Você está recebendo esta mensagem porque se inscreveu no grupo "Transparência Hacker" dos Grupos do Google.
Para cancelar a inscrição neste grupo e parar de receber seus e-mails, envie um e-mail para thackday+u...@googlegroups.com.
Para postar neste grupo, envie um e-mail para thac...@googlegroups.com.
Visite este grupo em http://groups.google.com/group/thackday.
Para ver esta discussão na web, acesse https://groups.google.com/d/msgid/thackday/cf809179-f9c0-4a85-9d2b-25c6a52f5e1c%40googlegroups.com.
Para obter mais opções, acesse https://groups.google.com/groups/opt_out.

image002.jpg

decko

unread,
Sep 30, 2013, 2:22:13 PM9/30/13
to thac...@googlegroups.com
Niiiiiiiice!
Fala o horário da palestra ai pra gente comparecer Fernando!

2013/9/30 Fernando Macedo <fgma...@gmail.com>:
> --
> Você está recebendo esta mensagem porque se inscreveu no grupo
> "Transparência Hacker" dos Grupos do Google.
> Para cancelar a inscrição neste grupo e parar de receber seus e-mails, envie
> um e-mail para thackday+u...@googlegroups.com.
> Para postar neste grupo, envie um e-mail para thac...@googlegroups.com.
> Visite este grupo em http://groups.google.com/group/thackday.
> Para ver esta discussão na web, acesse
> https://groups.google.com/d/msgid/thackday/cf809179-f9c0-4a85-9d2b-25c6a52f5e1c%40googlegroups.com.
> Para obter mais opções, acesse https://groups.google.com/groups/opt_out.



--
@decko
André F. A. Brito

Fernando Macedo

unread,
Sep 30, 2013, 2:33:17 PM9/30/13
to thac...@googlegroups.com, danielb...@gmail.com
Olá Daniel, obrigado pela resposta rápida!

Acredito que dentre as ferramentas que conheço, a melhor para esta tarefa seja o Scrapy [1].

Com ele você pode fazer um crawler para percorrer as páginas da agenda, e utilizar XPath (biblioteca lxml que já vem com o Scrapy) para extrair os dados de cada página.

Páginas em geral não são um bom exemplo para o raspador, pois elas possuem naturalmente uma estrutura forte (em árvore), e existem excelentes bibliotecas para percorrer árvores (Em Python: lxml, htm5lib, BeautifulSoup, PyQuery...).


Se precisar de alguma ajuda com o Scrapy podemos conversar, porém só terei possibilidade de fazer alguma coisa a partir da semana que vem, esta semana a prioridade é o raspador e PythonBrasil!

Um abraço,
Fernando Macedo

Daniel Bramatti

unread,
Sep 30, 2013, 2:45:41 PM9/30/13
to Fernando Macedo, thac...@googlegroups.com

Beleza, Fernando, obrigado pela dica. Eu também estou enrolado e só poderei tocar isso no futuro próximo. Vou testar o scrapy e te deu um retorno. Valeu e boa sorte aí com o projeto! (depois vou olhar com mais calma, pode ser bem útil aqui para a gente)


image002.jpg

Marcelo Costa

unread,
Sep 30, 2013, 2:48:05 PM9/30/13
to thac...@googlegroups.com, Fernando Macedo
Olá Daniel,

Vou tentar fazer, assim que concluir te aviso.

Abraço,

Marcelo Costa





2013/9/30 Daniel Bramatti <danielb...@gmail.com>
image002.jpg

Fernando Macedo

unread,
Sep 30, 2013, 2:54:56 PM9/30/13
to thac...@googlegroups.com
Olá André, obrigado!

(no site está com o horário errado,  17:20)

Um abraço,

Daniel Bramatti

unread,
Sep 30, 2013, 2:57:46 PM9/30/13
to thac...@googlegroups.com
Opa, agradecemos de antemão! Abraço!



.

.

Daniel Bramatti | Editoria Nacional - Estadão Dados - Blog Públicos | O Estado de S. Paulo

Av. Eng. Caetano Álvares, 55 - Limão - São Paulo - SP - 02598-900

+ 55 11 3856-4592

estadoQuer  Blog Públicos Estadão Dados



2013/9/30 Marcelo Costa <marcelo...@gmail.com>
image002.jpg
image002.jpg

Tiago Cardieri

unread,
Oct 1, 2013, 11:42:18 PM10/1/13
to thac...@googlegroups.com
Decisão judicial?

Posso chamar de "semi-estruturado" se tiver regex de termos que costumam separar elementos comuns nos textos jurisprudências?

Partes, juiz, data do julgamento etc

Sent from IPad 
--

Fernando Macedo

unread,
Oct 3, 2013, 9:20:04 AM10/3/13
to thac...@googlegroups.com
Creio que sim. Você poderia me passar um exemplo de uma decisão (link, pdf), e como seriam os dados que gostaria de extrair?

Um abraço,

"Somos o que repetidamente fazemos; a excelência, portanto, não é um feito, mas sim um hábito!" - Aristóteles


2013/10/2 Tiago Cardieri <tha...@tiago.adm.br>

--
Você recebeu esta mensagem porque está inscrito em um tópico do grupo "Transparência Hacker" dos Grupos do Google.
Para cancelar a inscrição neste tópico, acesse https://groups.google.com/d/topic/thackday/lXTtG53o-8k/unsubscribe.
Para cancelar a inscrição neste grupo e todos os seus tópicos, envie um e-mail para thackday+u...@googlegroups.com.

Para postar neste grupo, envie um e-mail para thac...@googlegroups.com.
Visite este grupo em http://groups.google.com/group/thackday.

Capi Etheriel

unread,
Oct 4, 2013, 7:47:38 AM10/4/13
to thac...@googlegroups.com
Seu projeto parece interessante para encontrar endereços, já que eles costumam estar em blocos de texto (mesmo na web).

Tiago Cardieri

unread,
Oct 4, 2013, 12:27:40 AM10/4/13
to thac...@googlegroups.com
Oi Fernando!

Segue:

http://esaj.tjsp.jus.br/cjsg/getArquivo.do?cdAcordao=6818074

(…) autos de [Apelação] [0038119-22.2010.8.26.0053], da Comarca de [São Paulo], em que são apelantes (*$1) [HUMBERTO CÉSAR LOPES (JUSTIÇA GRATUITA), RAQUEL ABDIAS M. DE LIMA (JUSTIÇA GRATUITA), JUDITH MEYER CAMARGO DA FONSECA (JUSTIÇA GRATUITA), JOVINO FRANCISCO DE PAULA (…)] é apelado [PREFEITURA MUNICIPAL DE SÃO PAULO]

Isso naquele primeiro parágrafo. Poderia indicar mais ao resto, mas não sei se tornaria muito trabalhoso para um protótipo.

Obrigado!

Abraço



Reply all
Reply to author
Forward
0 new messages