Ci fate un corso di scraping? (online please)

173 views
Skip to first unread message

Alberto

unread,
Jan 30, 2012, 5:30:18 AM1/30/12
to spaghett...@googlegroups.com
Steko ha fatto un commento che mi fa un po' arrossire (di vergogna, non perché sia un complimento!):

Mi ha lasciato un po' perplesso il commento di Alberto "Se Napo trova il
tempo di fare lo scraping ..." SRSLY? Sto scherzando, ma mi ha fatto
riflettere: lo scraping è nell'ABC del civic hacker, come è possibile
che ci siano 4 gatti a farlo in Italia?

Io mi sono sempre nascosto dietro il fatto di avere un background tutto diverso (economista/fisarmonicista), ma riflettendoci probabilmente sbaglio. Quando ho messo le mani in cose che all'inizio mi sembravano arcane e supertecniche ho scoperto che non erano poi così difficili. Quindi, vi chiedo questa cosa: se voi civic hackers (Steko e Napo in primis) pensate che sia una cosa che si insegna in un paio d'ore PARTENDO DA ZERO, io sarei molto contento di imparare l'ABC. Organizziamo una lezione? Potremmo appoggiarci all'amico Marco De Rossi di Oilproject, che ha 9000 iscritti: hai visto mai che qualcun altro si appassioni! Se vi interessa e si trova uno che si offre per fare il docente chiamo Marco.

Così dopo saremo >= 5 gatti, se la mia zucca non è troppo dura per imparare un trucco nuovo.

Paola Di Maio

unread,
Jan 30, 2012, 5:49:03 AM1/30/12
to spaghett...@googlegroups.com
Alberto
Io mi accodo

nel senso che nonostante essendo docente di sistemi aperti (in teoria) in pratica ho sempre bisogno di un programmatore. Anche a me piacerebbe acquisire destrezza e imparare i tricks da chiunque sia disponibile ad insegnarmeli, a patto che sia io a decidere, anche solo in parte, quello che voglio capire /imparare

Ho trascorso troope ore in aula ad ascoltare cose che mi venivano rigurgitate
che poi alla fine mi lasciavano con le stesse lacune 

Parlando di approccio trasformativo, suggerirei che siamo noi (studenti/insegnti) collaborativamente a mettere in piedi un curriculum, e che chiunque sia in grado di apportare contributi sia benvenuto ad insegnarli  (il tuo amico Marco e' benvenuto, insieme a chiunque altro voglia proporsi?)

Lavorare coi dati  con competenza e autorevolezza, specialmente oggi che si parla di 'big data' richiede un background notevole, ma non tutti
partono dallo stesso livello, io per esmpio qualcosina so gia' (ho pubblicato varie monografie sulla teoria relazionale dei dati i modelli di dati semantici eccetera)
mentre quello che mi manca e' la parte di programmazione/implementazione
(ammetto di avere un rifiuto psicologico che a mia volta mi piacerebbe superare)

Dunque grazie del suggerimento, che sostengo, proponendo un curriculum
aperto affinche ognuno possa insegnare/imparare il frammento del grande lifecycle del big open data e magari possa inserirsi in un ambito internazionale/globale e che potra' servire anche ad altri

PDM




2012/1/30 Alberto <alberto...@gmail.com>

Pennisi Aline

unread,
Jan 30, 2012, 5:49:30 AM1/30/12
to spaghett...@googlegroups.com

Per un corso di scraping ci sto pure io!

Abbiamo inserito grazie a Diego Galli e Napo un 6 ore nel corso opendatajournalism, ma un bignami ABC online fa sempre comodo!!!!

 

Da: spaghett...@googlegroups.com [mailto:spaghett...@googlegroups.com] Per conto di Alberto
Inviato: lunedì 30 gennaio 2012 11.30
A: spaghett...@googlegroups.com
Oggetto: Ci fate un corso di scraping? (online please)

Federico Morando

unread,
Jan 30, 2012, 6:12:17 AM1/30/12
to spaghett...@googlegroups.com, Pennisi Aline
In ottica di re-use, e per chi ha voglia di cimentarsi, gli esempi di ScraperWiki sono accessibili e ben fatti, imho:

https://scraperwiki.com/docs/python/

;-)

Ciao,

Federico

simone righini

unread,
Jan 30, 2012, 6:18:30 AM1/30/12
to spaghett...@googlegroups.com, Pennisi Aline
per me è comodo xpath + google docs: http://www.youtube.com/watch?v=EXhmF9rjqP4

ciao :)

2012/1/30 Federico Morando <federico...@gmail.com>:

Maurizio Napolitano

unread,
Jan 30, 2012, 6:20:49 AM1/30/12
to spaghett...@googlegroups.com
Mi sono posto spesso il problema di una sorta di HOWTO sullo scraping.
Io non sono un guru, faccio quello che posso.

OKFN ha messo in piedi questo progetto
http://datapatterns.org/
Mi ha stupito questo capitoletto
http://datapatterns.org/liberating-html-tables.html
che spiega come trasformare una tabella HTML in un foglio di lavoro
excel direttamente da Google Spreadsheet
Il buon simone righini mi ha segnalato poi questo video
http://www.youtube.com/watch?v=EXhmF9rjqP4

In generale la competenza e' quella di avere una idea di come e' strutturata
una pagina xhtml e saper individuare i blocchi necessari.
Da li' poi ci si sposta o verso un linguaggio di programmazione (e qui si
apre un capitolo senza fine) o a vari strumenti come:
- Google Docs
- Yahoo Pipes
- Web Harvest - http://web-harvest.sourceforge.net/
- ScraperWiki

alcune volte poi bisogna andare un po' piu' a fondo per intercettare le
chiamate che vengono fatte dal browser (su questo uso firebug), vedere
cosa restituisce (html, testo, csv, json ...) e prendersi i dati.

Marco Trotta

unread,
Jan 30, 2012, 6:30:37 AM1/30/12
to spaghett...@googlegroups.com
Aggiungo una nota a quello scrive Napo e non per raffreddare gli animi.
Lo scraping è una questione creativa più che di automatizzazione. Ha a
che fare con la programmazione e l'artigianato più che con una banale
pratica di app da installare, script da far girare, ecc.
Anche perché, lo si fa notare poco, c'è un processo che è essenziale
alla fine di tutto: la validazione.
Programmare produce errori che, in questo caso, significa falsare la
base dati. Fare scraping senza test per verificare se la base dati è
consistente rischia di essere controproducente.
Detto questo trovo che sia importante scambiarsi le buone pratiche.

I miei due cents. MT

Maurizio Napolitano

unread,
Jan 30, 2012, 6:32:33 AM1/30/12
to spaghett...@googlegroups.com
... ale' ... ho spedito l'email senza completarla :)
vabbe' ... quella prima era abbastanza sensata.

La sfida fatta da Alberto la vedo piu' che altro sul fronte
del programmare senza programmare.
Tutto sommato penso che capire il contenuto di un sorgente
html sia abbastanza facile.
Superato quell'ostacolo poi e' tutto in discesa.
mmm ...
potremmo provare ad individuare una serie di "sfide" di siti
da cui fare scraping.
Da quelli piu' semplici che mostrano delle tabelle online,
a quelli piu' complessi (es. la scuola in chiaro).
E di volta in volta spiegare passo passo da strumenti online
a strumenti offline (= programmazione)

Aprire uno spazio dove si depositano queste esperienze non
e' male.
Rimane poi il fatto che scraperwiki e' la soluzione a tutto (
o quasi), anche se piu' orientato per gli sviluppatori.

Lorenzo Benussi

unread,
Jan 30, 2012, 6:41:31 AM1/30/12
to spaghett...@googlegroups.com
Il tema è molto ampio, grazie Alberto per averlo introdotto.
Sono favorevole al 200%, facciamolo? Napo, Michele, Matteo ci state? Vi offriamo 5 birre a testa ;)

Anche io ho un background da economico/tecnologo, ne so di tecnologie ma non so fare scraping (l'ho visto fare tante volte e ho partecipato a varie sessioni di scraping, ma non basta).

Questo è un problema non solo mio, ma del movimento Open Data italiano in generale. Mi accordo lavorando sempre di più con chi sta liberando i dati che formati/tecnologie/software/ecc. sono fondamentali. Dati non in XML (almeno), dati senza api, dati troppo aggregati, dati vecchi, dati incoerenti sono difficili, noiosi, fanno perdere tempo. Questo inibisce l'uso e la creazione di servizi; punto e basta.

Perciò anche io sarei molto grato a chi potesse fare una lezione/seminario su scraping ma anche linked data / semantica (ne troppo facile ne troppo avanzata) e di qualche piattaforma per fare apps.
Insomma il ciclo completo dal dato online all'apps.
Oilproject potrebbe essere il posto giusto (che magari interessa a un sacco di gente, no?)(... e in futuro le lezioni di educazione civica potrebbero prendere spunto).

che ne dite?
ciaoo, l.

Paola Di Maio

unread,
Jan 30, 2012, 6:43:21 AM1/30/12
to spaghett...@googlegroups.com
Grazie molte Federico, Simone e Maurizio

mi riprometto, se non lo fara' nessun'altro prima, di articolare
le risorse proposte in un curriculum di riferimeto ampio e aperto

Mi sembra che i suggerimenti  finora siano del tipo: come pubblicare dati aperti,che appartiene alla fase 'come pubblicare open data'

benissmo

ma l'altra parte dell'algoritmo, e' come interrogare open data sets?  
Pochi parlano sql. e ancora meno sparql

inoltre c'e' il discorso interfaccia di apprendimento (learning interface)

C'e' molto lavoro da fare, ma non solo in Italia. 
Mi piacerebbe vedere il contributo di questa lista portare avante il state of the art globale, sarebbe un peccato se l'apporto  di questa discussione e le iniziative che potrebbero conseguirne si esaurisse alla frontiera linguistica

Per esempio:
 parlando con il gelataio ieri, mi diceva che la regione dovrebbe stanziare fondi per l imprenditoria ma non si sa bene chi li prende /dove/come/quando (tanti non arrivano a ricevere fondi)

Avrei voluto spiegargli dell'open data, ma si sarebbe sciolto il gelato.

Uno dei casi studio a cui mi propongo di dare priorita' e' aprire i dati relativi ai fondi per stimolare l impronditoria,
quanti soldi ci sono? a chi vanno?
a chi non vanno? perche? chi decide? in base a quali criteri?

Il problema della transparenza dei fondi economici
e dei flussi decisionali che li manovrano ha connotazioni non solo techniche (che si possono distinguere in fasi di lifecycle, se cosi' si vede il mondo) ma anche socio techniche e legali, come dice l'esempio Irene (ciao Irene!!!)

Dunque in Italia qual'e la situazione del famoso decreto PSI? Qual'e' la situazione FOI (freedom of information)?

C'e' una legge che stabilisce che le PA devono rendere i dati accessibili o no?

Qual'e' il mio diritto di cittadino di farmi dare una copia di tutti i tabulati relativi allo stanziamento di fondi economici e pubblicarli online ?

L'idea e' quella di collegare il discorso open data, e diffondere competenze techniche  come da suggermimento al soggetto del thread, al fine di sbloccare situazioni  socio-economiche paradossali con l'autogestione del diritto civile (come emerso nell'altro thread parallelo) utilizzando
casi studi ed esempi reali della vita di tutti giorni


PDM





2012/1/30 Maurizio Napolitano <napo...@gmail.com>

Marco Combetto

unread,
Jan 30, 2012, 7:48:28 AM1/30/12
to spaghett...@googlegroups.com
Interessa molto anche a me.. e sono anche disposto di partecipare alla creazione della cassa comune per pagare le birre ai relatori.. :-)

Alberto

unread,
Jan 30, 2012, 8:29:05 AM1/30/12
to spaghett...@googlegroups.com
A cinque birre a testa se aderisce tutta SOD fanno 1000 birre. Faremo venire la cirrosi epatica a Napo e Steko :-)

Io ho in testa una prima sgrossata, uno scraping for dummies. Secondo me avendolo visto fare una volta e avendo idea di dove cercare le risorse, i tutorials etc. poi dovrei essere in grado di andare avanti da solo. 

Va benissimo usare un esempio, anzi mi sembra l'unico modo per farlo. Magari si potrebbe usare proprio scuolainchiaro, così non ne parliamo più. 

Mi sono guardato il primo tutorial di ScraperWiki, e mi pare un ottimo sussidio didattico. Il codice creato e spiegato dai nostri validi insegnanti rimane lì, noi poi lo forkiamo e lo usiamo per fare altre cose, oppure usiamo lo stesso scraper per costruirci su altre views etc. etc.

Che ne dite?

simone righini

unread,
Jan 30, 2012, 8:31:35 AM1/30/12
to spaghett...@googlegroups.com
io pagare per questo genere di materiale made in italy? datemi solo
l'indirizzo paypal e faccio il versamento subito :)

2012/1/30 Alberto <alberto...@gmail.com>:

Maurizio Napolitano

unread,
Jan 30, 2012, 8:36:36 AM1/30/12
to spaghett...@googlegroups.com
2012/1/30 Alberto <alberto...@gmail.com>:

> A cinque birre a testa se aderisce tutta SOD fanno 1000 birre. Faremo venire
> la cirrosi epatica a Napo e Steko :-)

Suvvia .. io non posso bere alcool ...

>
> Io ho in testa una prima sgrossata, uno scraping for dummies. Secondo me
> avendolo visto fare una volta e avendo idea di dove cercare le risorse, i
> tutorials etc. poi dovrei essere in grado di andare avanti da solo.
>
> Va benissimo usare un esempio, anzi mi sembra l'unico modo per farlo. Magari
> si potrebbe usare proprio scuolainchiaro, così non ne parliamo più.

ti piacciono le cose facili, vero? :)
Stavo riprendendo la cosa ieri sera e penso che bisogna fare qualche barbatrucco
in piu'.
Devo prendermela con piu' calma.
Se poi altri della ML si fanno avanti ...
Appena ho fatto qualcosina di intelligente la metto su ScraperWiki

> Mi sono guardato il primo tutorial di ScraperWiki, e mi pare un ottimo
> sussidio didattico. Il codice creato e spiegato dai nostri validi insegnanti
> rimane lì, noi poi lo forkiamo e lo usiamo per fare altre cose, oppure
> usiamo lo stesso scraper per costruirci su altre views etc. etc.
>
> Che ne dite?

Ripeto: scuolainchiaro non e' proprio un buon punto di partenza
conviene partire da siti semplici
es
http://www.euribor.it
e poi spostarsi su cose piu' complesse.

--
Maurizio "Napo" Napolitano
http://de.straba.us

Alberto Cottica

unread,
Jan 30, 2012, 8:45:24 AM1/30/12
to spaghett...@googlegroups.com
Va bene, va bene, il maestro ha sempre ragione. 

Però dammi retta: facciamo UNA lezione in sincrono, che io sono zucca dura e non è detto che a guardare il codice su Scraperwiki capisca cosa sto guardando senza aiuto. Io sono anche disposto a pagare un po', sempre che nessuno si offenda. 

Se la facciamo su Oilproject, la programmiamo per tempo, la blogghiamo e la ritwittiamo per bene c'è una probabilità (piccola ma non zero) che attiriamo qualche giovane hacker di belle speranze, così invece che 5 gatti saremo magari 15. 

Tenete conto che ogni persona che è capace di fare scraping, o che sa che può imparare, è un moltiplicatore per il movimento OD. Oltre che imparare comunichiamo e cresciamo, prendendo diversi piccioni con un'unica, produttivissima fava. A me quest'idea sta prendendo benissimo. Dai, facciamola!

2012/1/30 Maurizio Napolitano <napo...@gmail.com>

Paola Di Maio

unread,
Jan 30, 2012, 9:06:16 AM1/30/12
to spaghett...@googlegroups.com
Alberto
facci sapere quand'e' la lezione sia in diretta e dove la
troviamo in differita

Per essere utile a livello globale, si dovra tradurre la sessione ma si puo' ache sottotitolare,  ma ci sono varie applicazioni tra cui:


Faccio eco a Marco Trotta, che sembra  capire i limiti della technologia 
scraping 

Va bene gasarsi per l'open data, ma bisogna anche accertarsi
di non riempire il panorama open data con bolle di dati non 'validi'
(ma forse questa cosa e' piu facile d comprendere  ai sistemisti che agli economisti e ai lobbisti)

Naturalmente il capitolo 'validazione ' non si esaurisce con facilita',
dunque sono d'accordo che bisogna andare avanti a volte con
data non validi, o parzialmente validati

L'importante e' rendersi conto delle limitazioni di ogni approccio,

Le rime sono usate da sempre nell'insegnamento e nell'apprendimento
per ricordare concetti chiave:

 'dato scrapato, non e' necessariamente un dato fidato' 



PDM


Marco Trottamarco....@gmail.com
reply-to spaghett...@googlegroups.com
to spaghett...@googlegroups.com
date Mon, Jan 30, 2012 at 11:30 AM
subject Re: Ci fate un corso di scraping? (online please)
Aggiungo una nota a quello scrive Napo e non per raffreddare gli animi.
Lo scraping è una questione creativa più che di automatizzazione. Ha a
che fare con la programmazione e l'artigianato più che con una banale
pratica di app da installare, script da far girare, ecc.
Anche perché, lo si fa notare poco, c'è un processo che è essenziale
alla fine di tutto: la validazione.
Programmare produce errori che, in questo caso, significa falsare la
base dati. Fare scraping senza test per verificare se la base dati è
consistente rischia di essere controproducente.
Detto questo trovo che sia importante scambiarsi le buone pratiche.

I miei due cents. MT









2012/1/30 Alberto Cottica <alb...@cottica.net>

Stefano Durì

unread,
Jan 30, 2012, 11:18:39 AM1/30/12
to spaghett...@googlegroups.com
ScraperWiki non l'ho ancora utilizzato, ma per raccogliere info da siti che non dispongono di RSS ho realizzato script in Perl o PHP + regular expressions, ottenendo come output dati strutturati (qui un esempio con una pagina di news  http://www.aster.it/feedgen/feedgen.php?cfg=cciaa_ra ). Sbaglierò, ma ho l'impressione che in un corso di scraping le regexp siano un po' un passaggio obbligato.

Alberto Cottica

unread,
Jan 30, 2012, 11:20:33 AM1/30/12
to spaghett...@googlegroups.com
... trovato il terzo insegnante? :-)

2012/1/30 Stefano Durì <stefan...@aster.it>

Michele Barbera

unread,
Jan 30, 2012, 11:38:52 AM1/30/12
to spaghett...@googlegroups.com, spaghett...@googlegroups.com
Scusate se intervengo a gamba tesa, ma a me l'idea di fare un corso di scraping online sembra complessa. Da una parte ci sono già tantissime risorse online e dall'altra, come ricordava Napo, ci sono moltissimi strumenti e diversi casi d'uso. 
Nella mia personale esperienza fare scraping senza alcuna nozione di programmazione, benché esistano degli strumenti che promettono mirabolanti risultati, è molto difficile, a meno di avere a che fare con sorgenti veramente semplici (leggi: quasi mai).

Forse potremmo pensare a un incontro fisico in cui facciamo insieme dei veri scraper, magari semplici, in ottica didattica. Una specie di tutoring. Magari ci aggiungiamo anche qualche rapida introduzione pratica ad alcuni dei (tantissimi) strumenti disponibili.

E poi alla fine le birre le beviamo tutti insieme, che è più divertente :-)

Ciao,
Michele
 




Inviato da iPhone

Lorenzo Benussi

unread,
Jan 30, 2012, 11:43:20 AM1/30/12
to spaghett...@googlegroups.com
Michele +1
il posto e la birra se volete la trovo facilmente a torino
ciao, l.

>> Marco Trottamar...@gmail.com
>> reply-to spaghett...@googlegroups.com
>> to spaghett...@googlegroups.com
>> date Mon, Jan 30, 2012 at 11:30 AM
>> subject Re: Ci fate un corso di scraping? (online please)

Guglielmo Celata

unread,
Jan 30, 2012, 11:45:06 AM1/30/12
to spaghett...@googlegroups.com
Il mio contributo di programmatore esperto su sgrattugiamenti vari...

Noi programmatori ci esaltiamo a trovare la soluzione migliore (efficienza, modularità, riusabilità, ...)
per trasformare le strutture dei dati che troviamo su internet (a volte molto rarefatte o caotiche) in qualcosa che possa essere riutilizzato per fare quello che vogliamo noi.
Si tratta però di un'operazione sempre abbastanza artigianale, come diceva Marco Trotta, e l'esaltazione, naturalmente, sta proprio lì.

In particolare, però, l'elasticità per capire che i dati hanno una certa struttura per motivi che con l'efficienza la riusabilità non hanno
niente a che vedere e, soprattutto, la capacità di interpretazione dei dati nel contesto del dominio, beh, quello per un programmatore è territorio in genere abbastanza *sconosciuto*.
C'è bisogno di qualcuno ferrato sul dominio e un pò meno rigido, in generale. :-) Competenze che però in questa lista non mancano di certo.

Detto questo: lo scraping non è un pranzo di gala.
a. bisogna conoscere un linguaggio di scripting (perl, python, ruby, php, javascript)
b. bisognerebbe avere un'idea di cosa è  e come funziona il protocollo HTTP, oltre che sapere leggere l'html
c. le regular expression sono l'alfabeto
d. xml e xpath sono le tabelline
e. gli strumenti sono importanti, gli script in php tendono a diventare rapidamente poco manutenibili, e ci sono falle di memoria, meglio usare linguaggi più modulari e stabili (perl, python, ruby)


Se cercate, per esempio "python scraping" su google viene fuori il mondo, in particolare, 
In ruby penso sia uguale, ne so molto meno.

Scraperwiki è *ottimo* per iniziare, perché elimina tutte le questioni legate alle infrastrutture e perché è fichissimo il concetto di condivisione.

Sull'idea di un corso online, se avessi tutto il tempo che avevo vent'anni fa ...

Alberto Cottica

unread,
Jan 30, 2012, 11:48:58 AM1/30/12
to spaghett...@googlegroups.com
:-(

Temo che un incontro offline, per quanto divertente, mi tagli fuori. Fooorse se facciamo Milano nel weekend (e anche lì sono 14 ore di viaggio tra andata e ritorno, mica noccioline). Direi zero problemi a trovare uno spazio un po' hackerino anche sotto la Madonnina. Ma, come sempre, trionfi la giustizia proletaria, il volere del popolo sovrano etc. etc.

Stefano Durì

unread,
Jan 30, 2012, 11:52:48 AM1/30/12
to spaghett...@googlegroups.com
@alberto: figuriamoci, non conosco tutti i tools più recenti. Quelli che ho usato me li sono realizzati in casa, tendenzialmente per catturare informazione testuale (di fonte pubblica), strutturarla e salvarla in un db
Mi permetto di aggiungere che lo scraping è una rottura di balle micidiale

Paola Di Maio

unread,
Jan 30, 2012, 11:56:53 AM1/30/12
to spaghett...@googlegroups.com


Forse potremmo pensare a un incontro fisico in cui facciamo insieme dei veri scraper, magari semplici, in ottica didattica. Una specie di tutoring. Magari ci aggiungiamo anche qualche rapida introduzione pratica ad alcuni dei (tantissimi) strumenti disponibili.

E poi alla fine le birre le beviamo tutti insieme, che è più divertente :-)

Per poter generare tutta la gamma di possibilita', parlavo dunque  di un curriculum di riferimento aperto, che permetta a chiunque di sviluppare moduli di apprendimento, con varie focalita' - a me interessa capire e fare alcune cose specifiche, legate a problematiche che affronto nella mia comunita', ma ad altri magari altre -  e anche abbinabili ad incontri aperti faccia a faccia, in varie localita
(perche' solo torino, quando abbiamo persone a milano, bologna, roma, lussemburgo?)

Il materiale pero' *deve*  essere messo online (prima, durante o dopo) sia come documentazione del lavoro fatto, sia per consentirne il riutilizzo da parte di altri

Quello che vorrei evitare e' il monopolio di una idea o di un programma gestito da un gruppo ristretto di lobbisti che propone solo una prospettiva  (manipolando cosi' l'intero discorso sull'open data) a scapito di una panoramica aperta e comprensiva di tutte le vedute

Sky is the limit

Speriamo che qualcuno mi spieghi come
faccio a capire dove vanno i soldi pubblici, e perche'
(e non solo da dove vengono)

Calendario aperto degli incontri?

PDM

raffaele messuti

unread,
Jan 30, 2012, 12:00:49 PM1/30/12
to spaghett...@googlegroups.com
2012/1/30 Paola Di Maio <paola....@gmail.com>

 'dato scrapato, non e' necessariamente un dato fidato' 

risolvere questo tipo di problema, la verifica dell'autorevolezza dei dati, e' compito
dell'attivita' investigativa del ricercatore/giornalista etc., e riguarda poco la questione
tecnica a mio avviso.

quello che mi preoccupa tecnicamente delle procedure di scraping, nel contesto del web che troppo spesso
non rispetta gli standard di markup e non fa uso di nessun tipo di strutturazione dei dati,
e' che sono soggette ad un alto rischio di errore, e comunque richiedono un continuo
intervento di riadattamento del codice

per molti e' considerata una eresia, ma ultimamente ho rivalutato molto
la lezione di Eric Raymond sull'uso delle regular expression per l'estrazione dall'html
contro i tool a ricerca xpath o css selector


comunque in realta' sarei felice di impararne qualcosa di piu' anche io, 
avevo iniziato a giocare in ruby con http://nokogiri.org
o http://scrapy.org (leggermente piu' complesso)
ma mi ero annoiato abbastanza presto

vorro' guardare scraperwiki
ciao

--
raffaele

Paola Di Maio

unread,
Jan 30, 2012, 12:11:07 PM1/30/12
to spaghett...@googlegroups.com
risolvere questo tipo di problema, la verifica dell'autorevolezza dei dati, e' compito
dell'attivita' investigativa del ricercatore/giornalista etc., e riguarda poco la questione
tecnica a mio avviso.

si' e' vero, ma qui stiamo cercando di creare un feedback loop, un ecosistema, una risonanza tra 
quelli che hanno gli strumenti tecnici per liberare i dati, e quelli che i dati li utilizzano per capire come funzionano e le cose e informare di conseguenza

ancora meglio, una generazione futura di socio-tecnici in grado di fare tutte e due le cose

e' un peccato vedere squadre di tecnici impegnati
a produrre fuffa inutile, perche questo vuol dire
utilizzare male le risorse umane

l'economia della gestione tecnica e' fondamentale
tanto quanto l'aspetto socio-politico della tecnologia
a cui i geeks spesso non fanno caso

forse perche' io sono  anni che vedo gente fare tanta schiuma intorno all open data, nel frattempot hanno proliferato tecnologie, iniziative, protocolli, piattaforme

si sono passati fiumi e fiumi di soldi 

 ma nessuno ancora mi sa dire la verita, i fatti,   dove vanno i soldi pubblici e perche' qui e non li'  

 eccetera

PDM

Lorenzo Benussi

unread,
Jan 31, 2012, 6:42:15 AM1/31/12
to spaghett...@googlegroups.com
seguo con interesse e soddisfazione la discussione e cerco di ritagliarmi il tempo per vedere i molti materiali che stanno girando - grazie ragazzi
ho sentito ora Marco De Rossi per un'altra cosa e gli ho detto che si stava pensando ad un corso, ha detto che oil project è assolutamente disponibile (come era ovvio)
io credo che qualcosa di introduttivo di un paio d'ore sarebbe buono per inziare
ciao, l.

simone righini

unread,
Jan 31, 2012, 9:07:05 AM1/31/12
to spaghett...@googlegroups.com
tra le fonti, metterei anche questa... forse un po' "advanced" però ha
già i video pronti (un buon numero)
http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html

ciao! :)

2012/1/31 Lorenzo Benussi <lorenzo...@top-ix.org>:

Alfredo Serafini

unread,
Feb 4, 2012, 9:30:19 AM2/4/12
to spaghett...@googlegroups.com
ciao a tutti|e

la discussione è molto interessante
a mio avviso è essenziale che chi fa scraping abbia nozioni di programmazione allo stato attuale, poichè come si diceva sopra al momento il lavoro è ancora molto "artigianale", almeno nei casi interessanti, cioè laddove si voglia estrarre dati strutturati da fonti che decisamente non lo sono.

In questo senso python, ruby o anche scala (ottimo perché usabile in forma di script ma può riutilizzare le infinite librerie e framework di java) sono linguaggi di riferimento certamente, e credo che se non ci si può avvalere di un programmatore bisogna necessariamente mettersi in moto a studiare un po' di programmazione.
La situazione potrebbe cambiare progettando specifiche DSL nel futuro destinabili proprio agli esperti di dominio, cosa che pian piano credo stia emergendo (non solo in Italia), ma ci vuole tempo.

forse in effetti si potrebbe promuovere l'idea di un workshop o di una jam di 2 giorni, tanto per trasfomare le idee in qualcosa di attivo, e contaminarle un po' da ambo i lati (programmatori/ingegneri di conoscenza ed esperti di dominio)

Maurizio Napolitano

unread,
Feb 9, 2012, 10:03:29 AM2/9/12
to spaghett...@googlegroups.com
Intanto segnalo questo
http://blog.okfn.org/2012/02/08/announcing-the-school-of-data/

Today, we’re announcing plans for a School of Data. The School will be
a joint venture between the Open Knowledge Foundation and Peer 2 Peer
University (P2PU). We also welcome other organizations who would like
to participate — see below for more on this.
Why?

Data (open or otherwise) needs to be used, and to use data effectively
requires certain skills.1

The explosive growth in data, especially open data, in recent years
has meant that the demand for data skills — for data “wranglers”2 or
“scientists” — has been growing rapidly. Moreover, these skills aren’t
just important for banks, supermarkets or the next silicon valley
start-up, they are also going to be cruicial in reserach, in
journalism, and in civil society organizations (CSOs).

However, there is currently a significant shortfall of data
“wranglers” to satisfy this growing demand, especially in civil
society organisations — McKinsey expects a skills shortage in data
expertise to reach 50-60% by 2018 in the US alone.3

Most formal training for data skills still takes place as part of
formal statistics or mathematics programmes. It will be years before
data specialist degree paths become broadly available and accepted,
and even then, time-intensive degree courses may not be the right
option for journalists, activists, or computer programmers who just
need to add data skills to their existing expertise.

What is needed are flexible, on-demand, shorter learning options for
people who are actively working in areas that benefit from data
skills, particularly those who may have already left formal education
programmes.

Reply all
Reply to author
Forward
0 new messages