Pessoal, boa tarde.
Estou usando esse código para extrair emails de arquivos PDF e está funcionando bem, mas queria pegar os emails apenas das duas primeiras páginas e não do documento todo. Alguém sabe como faço isso?
def get_email(self, cv_path):
try:
pagenums = set()
output = StringIO()
manager = PDFResourceManager()
converter = TextConverter(manager, output, laparams=LAParams())
interpreter = PDFPageInterpreter(manager, converter)
global infile
infile = open(cv_path, 'rb')
for page in PDFPage.get_pages(infile, pagenums):
interpreter.process_page(page)
infile.close()
converter.close()
text = output.getvalue()
output.close()
match = re.findall(r'[\w\.-]+@[\w\.-]+', text)
email = match
print(email)
except:
pass
Frederico BarbosaEngº. de Produção
Contato:
34 9 8864-3348