Extrair email de arquivos PDF

177 views
Skip to first unread message

Frederico Barbosa

unread,
May 4, 2022, 10:34:03 AM5/4/22
to python...@googlegroups.com
Pessoal, boa tarde.
Estou usando esse código para extrair emails de arquivos PDF e está funcionando bem, mas queria pegar os emails apenas das duas primeiras páginas e não do documento todo. Alguém sabe como faço isso?
    def get_email(selfcv_path):
         try:
        pagenums = set()
output = StringIO()
manager = PDFResourceManager()
converter = TextConverter(manager, output, laparams=LAParams())
interpreter = PDFPageInterpreter(manager, converter)
global infile
infile = open(cv_path, 'rb')
for page in PDFPage.get_pages(infile, pagenums):
interpreter.process_page(page)
infile.close()
converter.close()
text = output.getvalue()
output.close()
match = re.findall(r'[\w\.-]+@[\w\.-]+', text)
email = match
print(email)
except:
                pass

Frederico Barbosa
Engº. de Produção
Contato:
34 9 8864-3348

Lucas Brahm

unread,
May 4, 2022, 4:08:07 PM5/4/22
to python...@googlegroups.com
Já tentou fazer isso?

for page in PDFPage.get_pages(infile, pagenums, maxpages=2):

--
--
------------------------------------
Grupo Python-Brasil
https://wiki.python.org.br/AntesDePerguntar
 
<*> Para visitar o site do grupo na web, acesse:
http://groups.google.com/group/python-brasil
 
<*> Para sair deste grupo, envie um e-mail para:
python-brasi...@googlegroups.com
---
Você recebeu essa mensagem porque está inscrito no grupo "Python Brasil" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para python-brasi...@googlegroups.com.
Para ver essa discussão na Web, acesse https://groups.google.com/d/msgid/python-brasil/CALvR%2BQw9WCMwjsm-L1dsnXBibBfknrEDM4tje4bijGB-jcX_QA%40mail.gmail.com.

Frederico Barbosa

unread,
May 5, 2022, 1:30:01 PM5/5/22
to python...@googlegroups.com
Reply all
Reply to author
Forward
0 new messages