Pesquisar por palavras dentro de um arquivo PDF.

762 views
Skip to first unread message

Julio Enz

unread,
Aug 6, 2015, 10:23:46 AM8/6/15
to Python Brasil
Olá pessoal;
Estou precisando desenvolver um programa que faça a busca de palavras chaves dentro de um PDF e retorne o número das páginas que essas palavras ocorrem. Os PDF's que uso são em formato de texto. Fiz vasta pesquisa pela web e alguns testes com pyPDF, mas não consegui nada. Alguém tem alguma dica de site, biblioteca que possa me ajudar?

Obrigado...

Fabio C. Barrionuevo da Luz

unread,
Aug 6, 2015, 10:25:18 AM8/6/15
to python...@googlegroups.com

--
--
------------------------------------
Grupo Python-Brasil
http://www.python.org.br/wiki/AntesDePerguntar
 
<*> Para visitar o site do grupo na web, acesse:
http://groups.google.com/group/python-brasil
 
<*> Para sair deste grupo, envie um e-mail para:
python-brasi...@googlegroups.com

---
Você recebeu essa mensagem porque está inscrito no grupo "Python Brasil" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para python-brasi...@googlegroups.com.
Para mais opções, acesse https://groups.google.com/d/optout.



--
Fábio C. Barrionuevo da Luz
Acadêmico de Sistemas de Informação na Faculdade Católica do Tocantins - FACTO
Palmas - Tocantins - Brasil - América do Sul


Blog colaborativo sobre Python e tecnologias Relacionadas, mantido totalmente no https://github.com/pythonclub/pythonclub.github.io .

Todos são livres para publicar. É só fazer fork, escrever sua postagem e mandar o pull-request. Leia mais sobre como publicar em README.md e contributing.md.
Regra básica de postagem:
"Você" acha interessante? É útil para "você"? Pode ser utilizado com Python ou é útil para quem usa Python? Está esperando o que? Publica logo, que estou louco para ler...

Willie

unread,
Aug 6, 2015, 11:08:03 AM8/6/15
to Python Brasil
O pyPdf tem uma rotina só para capturar o texto do Pdf (aqui)...que tipo de problema você teve com essa biblioteca?

Marcos Thomaz

unread,
Aug 7, 2015, 2:18:59 AM8/7/15
to python...@googlegroups.com
Já fiz algo semelhante. Na ocasião, eu transformava o PDF em um TXT e rodava uma rotina de classificação. Depois fazia a busca em uma estrutura criada a partir do txt. 

Em 6 de agosto de 2015 10:08, Willie <williel...@gmail.com> escreveu:
O pyPdf tem uma rotina só para capturar o texto do Pdf (aqui)...que tipo de problema você teve com essa biblioteca?

--
--
------------------------------------
Grupo Python-Brasil
http://www.python.org.br/wiki/AntesDePerguntar
 
<*> Para visitar o site do grupo na web, acesse:
http://groups.google.com/group/python-brasil
 
<*> Para sair deste grupo, envie um e-mail para:
python-brasi...@googlegroups.com

---
Você recebeu essa mensagem porque está inscrito no grupo "Python Brasil" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para python-brasi...@googlegroups.com.
Para mais opções, acesse https://groups.google.com/d/optout.



--


Marcos Thomaz da Silva
Analista de Tecnologia da Informação
Reply all
Reply to author
Forward
0 new messages