Extrair email de arquivos PDF

Frederico Barbosa

unread,

May 4, 2022, 10:34:03 AM5/4/22

to python...@googlegroups.com

Pessoal, boa tarde.

Estou usando esse código para extrair emails de arquivos PDF e está funcionando bem, mas queria pegar os emails apenas das duas primeiras páginas e não do documento todo. Alguém sabe como faço isso?

    def get_email(self, cv_path):

         try:

        pagenums = set()
        output = StringIO()
        manager = PDFResourceManager()
        converter = TextConverter(manager, output, laparams=LAParams())
        interpreter = PDFPageInterpreter(manager, converter)
        global infile
        infile = open(cv_path, 'rb')
        for page in PDFPage.get_pages(infile, pagenums):
            interpreter.process_page(page)
        infile.close()
        converter.close()
        text = output.getvalue()
        output.close()
        match = re.findall(r'[\w\.-]+@[\w\.-]+', text)
        email = match
        print(email)
    except:

                pass

Frederico Barbosa
Engº. de Produção

Contato:

34 9 8864-3348

Lucas Brahm

unread,

May 4, 2022, 4:08:07 PM5/4/22

to python...@googlegroups.com

Já tentou fazer isso?

for page in PDFPage.get_pages(infile, pagenums, maxpages=2):

--
--
------------------------------------
Grupo Python-Brasil
https://wiki.python.org.br/AntesDePerguntar

<*> Para visitar o site do grupo na web, acesse:
http://groups.google.com/group/python-brasil

<*> Para sair deste grupo, envie um e-mail para:
python-brasi...@googlegroups.com
---
Você recebeu essa mensagem porque está inscrito no grupo "Python Brasil" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para python-brasi...@googlegroups.com.
Para ver essa discussão na Web, acesse https://groups.google.com/d/msgid/python-brasil/CALvR%2BQw9WCMwjsm-L1dsnXBibBfknrEDM4tje4bijGB-jcX_QA%40mail.gmail.com.

Frederico Barbosa

unread,

May 5, 2022, 1:30:01 PM5/5/22

to python...@googlegroups.com

Obrigado, Lucas!

Para ver essa discussão na Web, acesse https://groups.google.com/d/msgid/python-brasil/CAJRDc97muGpgP-Fj2a0i6y8cGj63k4fMu_iqRGvqMDhEHvbZvQ%40mail.gmail.com.

Reply all

Reply to author

Forward