Scraper PDF

35 views
Skip to first unread message

Cristian Consonni

unread,
Jan 7, 2014, 11:39:14 AM1/7/14
to spaghett...@googlegroups.com
(splitto per chiarezza, tolgo la lista talk-it di OSM)

Il 07 gennaio 2014 09:11, ilmistra <p.mist...@gmail.com> ha scritto:
> Piuttosto qualcuno in lista sa di qualche scraper vettoriale per Pdf
> (funzionante e robusto, perchè alcuni testati difettano sui grandi formati,
> tipicamente quello che serve!).

Non so se ho capito la domanda, ma in generale:
* c'è Tabula che, come dice il nome, è pensato per estrarre tabelle dai PDF:
http://tabula.nerdpower.org/

* Poi c'è "PDF to HTML preview" su Scraperwiki:
https://blog.scraperwiki.com/2010/12/scraping-pdfs-now-26-less-unpleasant-with-scraperwiki/
ci sono anche delle librerie sempre messe a disposzione da scraperwiki
(si veda un tutorial qui[*])

Comunque vale sempre la perla di saggezza del blog di scraperwiki:
«Scraping PDFs is a bit like cleaning drains with your teeth. It’s
slow, unpleasant, and you can’t help but feel you’re using the wrong
tools for the job.»

HTH,

Cristian

[*] http://schoolofdata.org/2013/08/16/scraping-pdfs-with-python-and-the-scraperwiki-module/
Reply all
Reply to author
Forward
0 new messages