Preciso de arquivos texto para extração de dados

Fernando Macedo

unread,

Sep 30, 2013, 2:03:49 PM9/30/13

to thac...@googlegroups.com

Pessoal,

Estou abrindo os fontes de uma biblioteca em Python para extração de dados em documentos semi-estruturados, o raspador [1].

Farei alguns exemplos, e gostaria de aproveitar este esforço para já extrair alguma coisa útil.

Então... você tem algum arquivo texto semi-estruturado que precisa extrair informações? Me avise que te ajudo! Você ganha os dados extraídos e eu ganho um exemplo real e útil.

O raspador se destaca em arquivos que não possuem uma estrutura formal e estejam em texto simples (ou que seja fácil converter para texto, como arquivos PDF), pois para XML, CSV, e HTML já existem excelentes alternativas.

Farei uma apresentação do raspador na PythonBrasil 9 [2].

Atenciosamente,

Fernando Macedo

[1] https://github.com/fgmacedo/raspador

[2] http://2013.pythonbrasil.org.br/program/pb/other/raspador-uma-mini-biblioteca-tupiniquim-para-extracao-de-dados

Daniel Bramatti

unread,

Sep 30, 2013, 2:19:02 PM9/30/13

to thac...@googlegroups.com

Olá, Fernando, tudo bem? Nós aqui do Estadão Dados estamos precisando montar uma planilha com todas as cidades onde Dilma esteve desde a posse, com a respectiva data. Não sei se é exatamente isso que você está tentando testar, mas seu raspador poderia capturar esses dados da agenda da presidente? http://www2.planalto.gov.br/imprensa/agenda/agenda-da-presidenta-1

Obrigado e abraço!

.

Daniel Bramatti | Editoria Nacional - Estadão Dados - Blog Públicos | O Estado de S. Paulo

Av. Eng. Caetano Álvares, 55 - Limão - São Paulo - SP - 02598-900

+ 55 11 3856-4592

2013/9/30 Fernando Macedo <fgma...@gmail.com>

--
Você está recebendo esta mensagem porque se inscreveu no grupo "Transparência Hacker" dos Grupos do Google.
Para cancelar a inscrição neste grupo e parar de receber seus e-mails, envie um e-mail para thackday+u...@googlegroups.com.
Para postar neste grupo, envie um e-mail para thac...@googlegroups.com.
Visite este grupo em http://groups.google.com/group/thackday.
Para ver esta discussão na web, acesse https://groups.google.com/d/msgid/thackday/cf809179-f9c0-4a85-9d2b-25c6a52f5e1c%40googlegroups.com.
Para obter mais opções, acesse https://groups.google.com/groups/opt_out.

image002.jpg

decko

unread,

Sep 30, 2013, 2:22:13 PM9/30/13

to thac...@googlegroups.com

Niiiiiiiice!
Fala o horário da palestra ai pra gente comparecer Fernando!

2013/9/30 Fernando Macedo <fgma...@gmail.com>:

> --
> Você está recebendo esta mensagem porque se inscreveu no grupo
> "Transparência Hacker" dos Grupos do Google.
> Para cancelar a inscrição neste grupo e parar de receber seus e-mails, envie
> um e-mail para thackday+u...@googlegroups.com.
> Para postar neste grupo, envie um e-mail para thac...@googlegroups.com.
> Visite este grupo em http://groups.google.com/group/thackday.
> Para ver esta discussão na web, acesse
> https://groups.google.com/d/msgid/thackday/cf809179-f9c0-4a85-9d2b-25c6a52f5e1c%40googlegroups.com.
> Para obter mais opções, acesse https://groups.google.com/groups/opt_out.

--
@decko
André F. A. Brito

Fernando Macedo

unread,

Sep 30, 2013, 2:33:17 PM9/30/13

to thac...@googlegroups.com, danielb...@gmail.com

Olá Daniel, obrigado pela resposta rápida!

Acredito que dentre as ferramentas que conheço, a melhor para esta tarefa seja o Scrapy [1].

Com ele você pode fazer um crawler para percorrer as páginas da agenda, e utilizar XPath (biblioteca lxml que já vem com o Scrapy) para extrair os dados de cada página.

Páginas em geral não são um bom exemplo para o raspador, pois elas possuem naturalmente uma estrutura forte (em árvore), e existem excelentes bibliotecas para percorrer árvores (Em Python: lxml, htm5lib, BeautifulSoup, PyQuery...).

[1] http://scrapy.org/

Se precisar de alguma ajuda com o Scrapy podemos conversar, porém só terei possibilidade de fazer alguma coisa a partir da semana que vem, esta semana a prioridade é o raspador e PythonBrasil!

Um abraço,

Fernando Macedo

Daniel Bramatti

unread,

Sep 30, 2013, 2:45:41 PM9/30/13

to Fernando Macedo, thac...@googlegroups.com

Beleza, Fernando, obrigado pela dica. Eu também estou enrolado e só poderei tocar isso no futuro próximo. Vou testar o scrapy e te deu um retorno. Valeu e boa sorte aí com o projeto! (depois vou olhar com mais calma, pode ser bem útil aqui para a gente)

image002.jpg

Marcelo Costa

unread,

Sep 30, 2013, 2:48:05 PM9/30/13

to thac...@googlegroups.com, Fernando Macedo

Olá Daniel,

Vou tentar fazer, assim que concluir te aviso.

Abraço,

Marcelo Costa

2013/9/30 Daniel Bramatti <danielb...@gmail.com>

Para ver esta discussão na web, acesse https://groups.google.com/d/msgid/thackday/CALBh%2BkAjZ1QY4EhiunwdCoM_O2No_Fe%3D3anhaCFGua6EDxzsbQ%40mail.gmail.com.

image002.jpg

Fernando Macedo

unread,

Sep 30, 2013, 2:54:56 PM9/30/13

to thac...@googlegroups.com

Olá André, obrigado!

Será sexta-feira 04/10 às 16:40 na sala Terry Jones (http://2013.pythonbrasil.org.br/pythonbrasil/programacao/grade-python-brasil/grade-4-10)

(no site está com o horário errado, 17:20)

Um abraço,

Daniel Bramatti

unread,

Sep 30, 2013, 2:57:46 PM9/30/13

to thac...@googlegroups.com

Opa, agradecemos de antemão! Abraço!

.

Daniel Bramatti | Editoria Nacional - Estadão Dados - Blog Públicos | O Estado de S. Paulo

Av. Eng. Caetano Álvares, 55 - Limão - São Paulo - SP - 02598-900

+ 55 11 3856-4592

2013/9/30 Marcelo Costa <marcelo...@gmail.com>

Para ver esta discussão na web, acesse https://groups.google.com/d/msgid/thackday/CADRQPSdjwH-J7in7g9zmwiedUo2EL-PsfwarCStc11yX3-ZoPw%40mail.gmail.com.

image002.jpg

Tiago Cardieri

unread,

Oct 1, 2013, 11:42:18 PM10/1/13

to thac...@googlegroups.com

Decisão judicial?

Posso chamar de "semi-estruturado" se tiver regex de termos que costumam separar elementos comuns nos textos jurisprudências?

Partes, juiz, data do julgamento etc

Sent from IPad

--

Fernando Macedo

unread,

Oct 3, 2013, 9:20:04 AM10/3/13

to thac...@googlegroups.com

Creio que sim. Você poderia me passar um exemplo de uma decisão (link, pdf), e como seriam os dados que gostaria de extrair?

Um abraço,

"Somos o que repetidamente fazemos; a excelência, portanto, não é um feito, mas sim um hábito!" - Aristóteles

2013/10/2 Tiago Cardieri <tha...@tiago.adm.br>

--
Você recebeu esta mensagem porque está inscrito em um tópico do grupo "Transparência Hacker" dos Grupos do Google.
Para cancelar a inscrição neste tópico, acesse https://groups.google.com/d/topic/thackday/lXTtG53o-8k/unsubscribe.
Para cancelar a inscrição neste grupo e todos os seus tópicos, envie um e-mail para thackday+u...@googlegroups.com.

Para postar neste grupo, envie um e-mail para thac...@googlegroups.com.
Visite este grupo em http://groups.google.com/group/thackday.

Para ver esta discussão na web, acesse https://groups.google.com/d/msgid/thackday/92CA21AB-E704-4259-AA53-D0F71291DC33%40tiago.adm.br.

Capi Etheriel

unread,

Oct 4, 2013, 7:47:38 AM10/4/13

to thac...@googlegroups.com

Seu projeto parece interessante para encontrar endereços, já que eles costumam estar em blocos de texto (mesmo na web).

Tiago Cardieri

unread,

Oct 4, 2013, 12:27:40 AM10/4/13

to thac...@googlegroups.com

Oi Fernando!

Segue:

http://esaj.tjsp.jus.br/cjsg/getArquivo.do?cdAcordao=6818074

(…) autos de [Apelação] nº [0038119-22.2010.8.26.0053], da Comarca de [São Paulo], em que são apelantes (*$1) [HUMBERTO CÉSAR LOPES (JUSTIÇA GRATUITA), RAQUEL ABDIAS M. DE LIMA (JUSTIÇA GRATUITA), JUDITH MEYER CAMARGO DA FONSECA (JUSTIÇA GRATUITA), JOVINO FRANCISCO DE PAULA (…)] é apelado [PREFEITURA MUNICIPAL DE SÃO PAULO]

Isso naquele primeiro parágrafo. Poderia indicar mais ao resto, mas não sei se tornaria muito trabalhoso para um protótipo.

Obrigado!

Abraço

Para ver esta discussão na web, acesse https://groups.google.com/d/msgid/thackday/CANVzd7MkVDEmyrHag7FGxmjjx%2B%3DEyJq1f9LvWQYsip0eYL_vAg%40mail.gmail.com.

Reply all

Reply to author

Forward