Mi ha lasciato un po' perplesso il commento di Alberto "Se Napo trova il
tempo di fare lo scraping ..." SRSLY? Sto scherzando, ma mi ha fatto
riflettere: lo scraping è nell'ABC del civic hacker, come è possibile
che ci siano 4 gatti a farlo in Italia?
Per un corso di scraping ci sto pure io!
Abbiamo inserito grazie a Diego Galli e Napo un 6 ore nel corso opendatajournalism, ma un bignami ABC online fa sempre comodo!!!!
Da:
spaghett...@googlegroups.com [mailto:spaghett...@googlegroups.com] Per
conto di Alberto
Inviato: lunedì 30 gennaio 2012 11.30
A: spaghett...@googlegroups.com
Oggetto: Ci fate un corso di scraping? (online please)
ciao :)
2012/1/30 Federico Morando <federico...@gmail.com>:
OKFN ha messo in piedi questo progetto
http://datapatterns.org/
Mi ha stupito questo capitoletto
http://datapatterns.org/liberating-html-tables.html
che spiega come trasformare una tabella HTML in un foglio di lavoro
excel direttamente da Google Spreadsheet
Il buon simone righini mi ha segnalato poi questo video
http://www.youtube.com/watch?v=EXhmF9rjqP4
In generale la competenza e' quella di avere una idea di come e' strutturata
una pagina xhtml e saper individuare i blocchi necessari.
Da li' poi ci si sposta o verso un linguaggio di programmazione (e qui si
apre un capitolo senza fine) o a vari strumenti come:
- Google Docs
- Yahoo Pipes
- Web Harvest - http://web-harvest.sourceforge.net/
- ScraperWiki
alcune volte poi bisogna andare un po' piu' a fondo per intercettare le
chiamate che vengono fatte dal browser (su questo uso firebug), vedere
cosa restituisce (html, testo, csv, json ...) e prendersi i dati.
I miei due cents. MT
La sfida fatta da Alberto la vedo piu' che altro sul fronte
del programmare senza programmare.
Tutto sommato penso che capire il contenuto di un sorgente
html sia abbastanza facile.
Superato quell'ostacolo poi e' tutto in discesa.
mmm ...
potremmo provare ad individuare una serie di "sfide" di siti
da cui fare scraping.
Da quelli piu' semplici che mostrano delle tabelle online,
a quelli piu' complessi (es. la scuola in chiaro).
E di volta in volta spiegare passo passo da strumenti online
a strumenti offline (= programmazione)
Aprire uno spazio dove si depositano queste esperienze non
e' male.
Rimane poi il fatto che scraperwiki e' la soluzione a tutto (
o quasi), anche se piu' orientato per gli sviluppatori.
Anche io ho un background da economico/tecnologo, ne so di tecnologie ma non so fare scraping (l'ho visto fare tante volte e ho partecipato a varie sessioni di scraping, ma non basta).
Questo è un problema non solo mio, ma del movimento Open Data italiano in generale. Mi accordo lavorando sempre di più con chi sta liberando i dati che formati/tecnologie/software/ecc. sono fondamentali. Dati non in XML (almeno), dati senza api, dati troppo aggregati, dati vecchi, dati incoerenti sono difficili, noiosi, fanno perdere tempo. Questo inibisce l'uso e la creazione di servizi; punto e basta.
Perciò anche io sarei molto grato a chi potesse fare una lezione/seminario su scraping ma anche linked data / semantica (ne troppo facile ne troppo avanzata) e di qualche piattaforma per fare apps.
Insomma il ciclo completo dal dato online all'apps.
Oilproject potrebbe essere il posto giusto (che magari interessa a un sacco di gente, no?)(... e in futuro le lezioni di educazione civica potrebbero prendere spunto).
che ne dite?
ciaoo, l.
2012/1/30 Alberto <alberto...@gmail.com>:
Suvvia .. io non posso bere alcool ...
>
> Io ho in testa una prima sgrossata, uno scraping for dummies. Secondo me
> avendolo visto fare una volta e avendo idea di dove cercare le risorse, i
> tutorials etc. poi dovrei essere in grado di andare avanti da solo.
>
> Va benissimo usare un esempio, anzi mi sembra l'unico modo per farlo. Magari
> si potrebbe usare proprio scuolainchiaro, così non ne parliamo più.
ti piacciono le cose facili, vero? :)
Stavo riprendendo la cosa ieri sera e penso che bisogna fare qualche barbatrucco
in piu'.
Devo prendermela con piu' calma.
Se poi altri della ML si fanno avanti ...
Appena ho fatto qualcosina di intelligente la metto su ScraperWiki
> Mi sono guardato il primo tutorial di ScraperWiki, e mi pare un ottimo
> sussidio didattico. Il codice creato e spiegato dai nostri validi insegnanti
> rimane lì, noi poi lo forkiamo e lo usiamo per fare altre cose, oppure
> usiamo lo stesso scraper per costruirci su altre views etc. etc.
>
> Che ne dite?
Ripeto: scuolainchiaro non e' proprio un buon punto di partenza
conviene partire da siti semplici
es
http://www.euribor.it
e poi spostarsi su cose piu' complesse.
--
Maurizio "Napo" Napolitano
http://de.straba.us
Marco Trottamarco....@gmail.com | |||
reply-to |
![]() | ||
to |
![]() | ||
date |
![]() |
||
subject |
![]() |
>> Marco Trottamar...@gmail.com
>> reply-to spaghett...@googlegroups.com
>> to spaghett...@googlegroups.com
>> date Mon, Jan 30, 2012 at 11:30 AM
>> subject Re: Ci fate un corso di scraping? (online please)
Forse potremmo pensare a un incontro fisico in cui facciamo insieme dei veri scraper, magari semplici, in ottica didattica. Una specie di tutoring. Magari ci aggiungiamo anche qualche rapida introduzione pratica ad alcuni dei (tantissimi) strumenti disponibili.E poi alla fine le birre le beviamo tutti insieme, che è più divertente :-)
'dato scrapato, non e' necessariamente un dato fidato'
risolvere questo tipo di problema, la verifica dell'autorevolezza dei dati, e' compitodell'attivita' investigativa del ricercatore/giornalista etc., e riguarda poco la questionetecnica a mio avviso.
ciao! :)
2012/1/31 Lorenzo Benussi <lorenzo...@top-ix.org>:
Today, we’re announcing plans for a School of Data. The School will be
a joint venture between the Open Knowledge Foundation and Peer 2 Peer
University (P2PU). We also welcome other organizations who would like
to participate — see below for more on this.
Why?
Data (open or otherwise) needs to be used, and to use data effectively
requires certain skills.1
The explosive growth in data, especially open data, in recent years
has meant that the demand for data skills — for data “wranglers”2 or
“scientists” — has been growing rapidly. Moreover, these skills aren’t
just important for banks, supermarkets or the next silicon valley
start-up, they are also going to be cruicial in reserach, in
journalism, and in civil society organizations (CSOs).
However, there is currently a significant shortfall of data
“wranglers” to satisfy this growing demand, especially in civil
society organisations — McKinsey expects a skills shortage in data
expertise to reach 50-60% by 2018 in the US alone.3
Most formal training for data skills still takes place as part of
formal statistics or mathematics programmes. It will be years before
data specialist degree paths become broadly available and accepted,
and even then, time-intensive degree courses may not be the right
option for journalists, activists, or computer programmers who just
need to add data skills to their existing expertise.
What is needed are flexible, on-demand, shorter learning options for
people who are actively working in areas that benefit from data
skills, particularly those who may have already left formal education
programmes.