Caro Cesare,
2017-02-13 8:58 GMT+01:00 cesare gerbino <cesare...@gmail.com>:
scrivo qui perchè sò che sicuramente posso trovare indicazioni e perchè sono completamente a digiuno di queste cose.... mi suggerite dei tools / soluzioni per fare scraping di pagine web?Se possibile soluzioni utilizzabili da linea di comando o comunque "programmabili" da script shell, php, ecc ...
è po’ come Nikon e Canon: troverai mille approcci al tema dello scraping, specie se ci metti di mezzo la programmazione.
Se sei interessato alla riga di comando, il mondo delle utility Unix/Linux sembra fatto a posta, perché molte nascono per “masticare” e mettere in pipe stringhe di testo. E il testo è la materia prima delle pagine web, di API, ecc..
Con curl, csvkit, jq, xml2json, scrape e il nostro amato GDAL/OGR puoi fare scraper one-liner sorprendenti. Se poi ci metti 5 righe di bash, con un if then else
e un while loop
lo rendi più robusto. Un ottimo libro, che consiglio per stare sulla riga di comando è Data Science at the Command Line.
Se poi vai sullo scripting oltre a poter fare cose molto robuste approfondendo bash, in ambiente Python ci sono moduli come Beautiful Soup, LXML e Scrapy che rendono questo ambiente uno dei preferiti per questa tipologia di uso.
Buona giornata
Andrea Borruso
website: http://blog.spaziogis.it
38° 7’ 48” N, 13° 21’ 9” E, EPSG:4326
“cercare e saper riconoscere chi e cosa,
in mezzo all’inferno, non è inferno,
e farlo durare, e dargli spazio”
Italo Calvino
Ciao,
se mastichi di php nel repo di albo pop ho generalizzato le parti
comuni. Nella cartella code/phpparsing si sono le utility per il
parsing di tabelle dentro pagine web. Mi riprometto prima o poi di
scrivere un documento su come usare queste librerie. Il repository
di albo pop è https://github.com/aborruso/albo-pop.git . Li trovi
anche altre soluzioni, ad esempio una basata su google script mi
pare.
Hope it helps,
CL
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopendata+unsubscribe@googlegroups.com.
Visita questo gruppo all'indirizzo
https://groups.google.com/group/spaghettiopendata
<https://groups.google.com/group/spaghettiopendata>.
Per altre opzioni visita https://groups.google.com/d/optout
<https://groups.google.com/d/optout>.
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti
Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue
email, invia un'email a spaghettiopendata+unsubscribe@googlegroups.com
<mailto:spaghettiopendata+unsubsc...@googlegroups.com>.
Visita questo gruppo all'indirizzo
https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopendata+unsubscribe@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per ulteriori opzioni, visita https://groups.google.com/d/optout.