Scrap em PDF com Python

1,161 views
Skip to first unread message

Régis Silva

unread,
Jan 4, 2017, 9:00:46 PM1/4/17
to Python Brasil
Que lib vcs usam para pegar dados de PDF com Python?
Ou seja, pra fazer scrap em PDF?

Avraham Serour

unread,
Jan 5, 2017, 9:36:07 AM1/5/17
to python...@googlegroups.com
Eu já tive que fazer isso na minha vida e depois de tentar varias coisa eu decidi converter para html e usar o beautifoulsoup, o html gerado pode ser feio mas as informações estão lá

2017-01-05 4:00 GMT+02:00 Régis Silva <regis.sa...@gmail.com>:
Que lib vcs usam para pegar dados de PDF com Python?
Ou seja, pra fazer scrap em PDF?

--
--
------------------------------------
Grupo Python-Brasil
http://www.python.org.br/wiki/AntesDePerguntar
 
<*> Para visitar o site do grupo na web, acesse:
http://groups.google.com/group/python-brasil
 
<*> Para sair deste grupo, envie um e-mail para:
python-brasil+unsubscribe@googlegroups.com

---
Você recebeu essa mensagem porque está inscrito no grupo "Python Brasil" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para python-brasil+unsubscribe@googlegroups.com.
Para mais opções, acesse https://groups.google.com/d/optout.

Wellington Castro

unread,
Jan 5, 2017, 10:51:40 AM1/5/17
to Python Brasil
Regis, olha este link: http://stackoverflow.com/questions/17098675/searching-text-in-a-pdf-using-python

Tem um resposta que é o que foi sugerido aqui, converter para HTML e dps ler com o beautifoulsoup, o código que indicaram está funcionando.

Abs.

JJ

unread,
Jan 6, 2017, 4:38:27 AM1/6/17
to Python Brasil
Regis, não sei exatamente qual a sua necessidade, mas uma boa biblioteca em python para extrair textos de pdf é a pdfminer[1].

Felipe Rodrigues

unread,
Jan 6, 2017, 9:20:05 AM1/6/17
to Python Brasil
Fala Regis, acho que o caminho mais fácil é converter para html (eu fiz assim quando precisei), mas agora fiquei com uma duvida como ficam arquivos pdf's protegidos? No meu caso não peguei nenhum assim pra parsear pra HTML ai bateu a duvida...rs


Em quinta-feira, 5 de janeiro de 2017 00:00:46 UTC-2, Régis Silva escreveu:
Reply all
Reply to author
Forward
0 new messages