Infocamere pubblica i primi dati sulle startup

187 views
Skip to first unread message

Stefano Durì

unread,
Mar 15, 2013, 2:34:07 PM3/15/13
to spaghett...@googlegroups.com

Andrea Nelson Mauro

unread,
Mar 15, 2013, 3:00:29 PM3/15/13
to spaghett...@googlegroups.com
la mappetta minima si può fare http://batchgeo.com/map/85ce63d2ff652032fc87832260229189

intanto si scopre che i milanesi sono solo terzi :-)

certo poi uno cmq si chiede per quale motivo abbiano messo così pochi dati.
mah!

marco

unread,
Mar 16, 2013, 4:52:39 AM3/16/13
to spaghett...@googlegroups.com
ci siamo anche noi di kode!!! wowowowow

ciao,
m


Il 15/03/13 20:00, Andrea Nelson Mauro ha scritto:
> la mappetta minima si pu� fare http://batchgeo.com/map/85ce63d2ff652032fc87832260229189
>
> intanto si scopre che i milanesi sono solo terzi :-)
>
> certo poi uno cmq si chiede per quale motivo abbiano messo cos� pochi dati.
> mah!
> --
> Hai ricevuto questo messaggio perch� sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
> Per annullare l'iscrizione a questo gruppo e non ricevere pi� i suoi messaggi, invia un'email a
> spaghettiopend...@googlegroups.com.
> Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata?hl=it.
> Per ulteriori opzioni, visita https://groups.google.com/groups/opt_out.
>
>

--
Marco Calderisi

skype. mcalderisi_moof
twitter marcocalderisi
tel. +39050550219
cell. +393920699812
mail. ma...@apollonia2.net

it.linkedin.com/pub/marco-calderisi/a/825/972/
about.me/marco.calderisi
-----------------------------------------------------------------------------------
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
"Salviamo l'Amazzonia - http://www.greenpeace.org/italy/it/campagne/foreste/amazzonia/salviamo-Amazzonia"
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
think GREEN!! Do not print this e-mail unless you really need it!

Stefano Durì

unread,
Mar 16, 2013, 5:52:07 AM3/16/13
to spaghett...@googlegroups.com
@Andrea il motivo è semplice: non è nella loro natura.

E' interessante (si fa per dire) analizzare colonna per colonna il dataset
- denominazione: 
troncata a 30 caratteri
comprende anche la natura (o forma) giuridica, a volte scritta in chiaro o scritta male (SCAR non esiste, ad esempio)
- nat. giuridica
è la codifica usata internamente, e che non coincide con quella ISTAT. Se non disponiamo della tabella usata dal Registro Imprese possiamo dare ad es. un occhio qui: http://www3.istat.it/dati/catalogo/20060215_00/mn0526classificazione_forme_giuridiche_unita_legali.pdf, dove però non sono presenti le forme societarie introdotte di recente
- cf e ateco
sono composti di sole cifre, quindi c'è il rischio che il foglio di calcolo, importandoli, li interpreti come numeri, eliminando eventuali 0 iniziali. Questo "spiega" gli apici che li delimitano. Il cf può essere (nel caso di ditta individuale) lungo 16 caratteri, ecco perché la relativa stringa è appunto lunga 16 caratteri, riempita di blank a destra. Ma fra le startup non possono comparire ditte individuali
- descrizione dell'attività
pur essendo presente un codice ateco dettagliato, viene mostrata la decodifica relativa alle sole prime 2 cifre. Esempio:
721909 (ricerca nel campo delle altre scienze naturali ed ingegneria) => M 72 RICERCA SCIENTIFICA E SVILUPPO
Anche in questa colonna i valori sono riempiti con blank a destra. (C'è un motivo, credo, per tutti questi blank: vengono da db con campi di lunghezza fissa e nessuno si è curato di trimmarli). In alcuni casi il cod. ateco non è nemmeno presente, il che mi pare strano, visto che dovrebbe essere obbligatorio indicarlo all'atto dell'iscrizione al Registro

E non stiamo parlando del proverbiale piccolo comune sperduto fra i monti che pubblica il suo primo dataset, ma di una vera potenza nel settore dell'informazione economica in Italia

Ho un po' rimesso a posto i dati qui, con qualche minima elaborazione (i.e. "sangue dalle rape"): https://docs.google.com/spreadsheet/ccc?key=0ArUcdTifQwNodFpLakM3SllLUy1fTkhZV2ZqUXdnc3c&usp=sharing

marco

unread,
Mar 16, 2013, 6:24:12 AM3/16/13
to spaghett...@googlegroups.com
il cf sono sbagliati. per una ditta cf e pi coincidono, sono di 11 cifre e possono iniziare con uno 0. ad esempio, nel nostro caso, kode, manca lo 0 inziale.

mi sembra poi strano che alcuni codici ateco si fermino la primo valore...

ciao,
m





Il 16/03/13 10:52, Stefano Durì ha scritto:
- cf e ateco
sono composti di sole cifre, quindi c'è il rischio che il foglio di calcolo, importandoli, li interpreti come numeri, eliminando eventuali 0 iniziali. Questo "spiega" gli apici che li delimitano. Il cf può essere (nel caso di ditta individuale) lungo 16 caratteri, ecco perché la relativa stringa è appunto lunga 16 caratteri, riempita di blank a destra. Ma fra le startup non possono comparire ditte individuali

Stefano Durì

unread,
Mar 16, 2013, 6:43:40 AM3/16/13
to spaghett...@googlegroups.com
hai ragione, nella fretta ho commesso esattamente l'errore che volevo evitare: eliminare lo 0 iniziale dai cf. Adesso sono a posto. Non è invece vero che cf e p.iva coincidono necessariamente: la p. iva è legata alla localizzazione e nel corso del tempo può quindi divergere dal cf. Nel caso di ditta individuale, invece, il cf è un normale cf di persona e quindi è lungo 16 caratteri, mentre la p.iva è di 11 cifre

Stefano Durì

unread,
Mar 16, 2013, 7:42:57 AM3/16/13
to spaghett...@googlegroups.com
precisazione: cf e p.iva coincidono (a parte ditte individuali) quando nasce l'impresa. Probabilmente oggi la p.IVA non cambia più al cambiare della localizzazione, ma esistono imprese "vecchie" che hanno due valori diversi

Andrea Nelson Mauro

unread,
Mar 29, 2013, 8:45:13 AM3/29/13
to spaghett...@googlegroups.com
ciao, prendendo spunto da questo thread, abbiamo fatto una mappettina su sky.
I dati sono differenti, abbiamo usato quelli del 25/03/2013: infocamere pubblica i nuovi dati ogni 15 giorni.

Stefano Durì

unread,
Mar 29, 2013, 10:50:58 AM3/29/13
to spaghett...@googlegroups.com
il file è leggermente migliorato: almeno adesso si riescono a leggere i nomi completi delle aziende
Notare che se si cercano le imprese (una per una, ovviamente) sul sito del Registro imprese si possono ottenere non solo i dati completi relativi alla localizzazione, ma anche altri dati interessanti.
Cercando in vario modo "start-up innovativa" nella sezione "Prodotto/servizio" se ne trovano circa 390. L'ultimo report ne dava 453 e sicuramente non è aggiornato a oggi (test effettuato su emilia-romagna). Quindi dobbiamo supporre che la descrizione del prodotto/servizio non faccia sempre riferimento a "start-up/startup/start up innovativa". Mah. Devo ancora capire bene questa faccenda

Esempio di descrizione dell'oggetto sociale
"AVVIO STARTUP INNOVATIVA". L'IMPRESA OPERA NEL CAMPO DELL'INFORMATION AND COMMUNICATION TECHNOLOGY (ICT), ATTRAVERSO LA PROGETTAZIONE DI SOLUZIONI TECNOLOGICHE APPLICATE AL SETTORE DELLA COMUNICAZIONE, A PARTIRE DALLA 3D COMPUTER GRAPHIC, ATTRAVERSO UN UTILIZZO COSCIENTE DI NUOVE TECNOLOGIE. I PRODOTTI/SERVIZI OFFERTI DA APPARATI EFFIMERI, NELL'AMBITO DELLA APPLICAZIONE DI TALI TECNOLOGIE SONO: MAPPING ARCHITETTURALE 3D; INTERIOR PROJECTION FOR MERCHANDISING; OBJECT PROJECTION; DECOR PROJECTION; HD CONTENT FOR CINEMA, TV, WEB. DAL PUNTO DI VISTA OPERATIVO L'IMPRESA SI AVVALE: 1) SIA DELL'ATTIVITA' DEI SOCI CHE, IN VIRTU' DI COMPETENZE SPECIFICHE COMPLEMENTARI SI OCCUPANO DI TUTTI GLI ASPETTI TECNICI ED ARTISTICI DI IDEAZIONE E REALIZZAZIONE DEI PROGETTI: - FEDERICO BIGI, IN POSSESSO DI SPECIFICHE COMPETENZE CINEMATOGRAFICHE (LAUREA DAMS CINEMA E NUMEROSE ESPERIENZE PRATICHE) E NELLA PRODUZIONE DI 3D (CORSO CERTIFICATO AUTODESK MAYA); - MARCO GRASSIVARO, IN POSSESSO DI COMPETENZE STORICO ARTISTICHE (LAUREA DAMS ARTE) E VIDEO SCENOGRAFICHE (HA LAVORATO IN ITALIA E ALL'ESTERO NELL'AMBITO DELLA SCENOGRAFIA VIDEO); 2) SIA DI COLLABORATORI ESTERNI CON ESPERIENZA SPECIFICA NEL SETTORE DI RIFERIMENTO CHE COLLABORANO SU SPECIFICI PROGETTI DI RICERCA O SU COMMESSE: MIGUEL MIGUEL ANGEL D ERRICO (ESPERTO IN COMPOSITING, MOTION GRAPHICS, PHOTOGRAPHY) E CARLO COSTACURTA (ARCHITETTO, 3D SUPERVISOR) LE SPESE IN RICERCA E SVILUPPO ANNUALMENTE SOSTENUTE, CHE RAPPRESENTANO PIU' DELLA META' DEL COSTO DEL PERSONALE, SONO SUPERIORI AL 20 PER CENTO DEL MAGGIORE VALORE FRA COSTO E VALORE TOTALE DELLA PRODUZIONE.

Stefano Durì

unread,
Mar 29, 2013, 10:58:11 AM3/29/13
to spaghett...@googlegroups.com
dimenticavo di aggiungere che sarebbe interessante andare ad analizzare, oltre alla specializzazione dell'impresa, quali sono i tipi di competenze individuali coinvolti. Non sono un giornalista, ma a occhio mi sembra che ci siano alcuni ingredienti interessanti per un lavoro di approfondimento e di storytelling

Andrea Nelson Mauro

unread,
Mar 29, 2013, 12:20:54 PM3/29/13
to spaghett...@googlegroups.com
pensavo a una roba abbastanza lamer, ma carica: una tag cloud degli oggetti sociali...
dal form di ricerca che segnali tu io ne trovavo meno di 300.
cmq il fatto che tu non sia un giornalista, non significa che tu non abbia l'istinto e il fiuto ;) Anzi!

Stefano Durì

unread,
Apr 5, 2013, 1:12:06 PM4/5/13
to spaghett...@googlegroups.com
questa è lo schema del lavoro sui dati, per la parte che può essere svolta automaticamente. Poi viene il tedioso lavoro manuale.
Il tool utilizzato è Kettle (grazie a Virgilio - prima usavo Knime)
Noname.jpg

Andrea Nelson Mauro

unread,
Apr 6, 2013, 1:47:46 AM4/6/13
to spaghett...@googlegroups.com
gran lavoro, stefano!
ci vorrebbero le coordinate lat/long, e così si potrebbe aggiungere anche la foto dell'impresa con le api di google street view

 

Andrea Nelson Mauro

unread,
Apr 6, 2013, 1:53:47 AM4/6/13
to spaghett...@googlegroups.com
al volo, le parole più usate nella descrizione in camera di commercio. Bella quella "ingegneria".




Stefano Durì

unread,
Apr 10, 2013, 11:10:00 AM4/10/13
to spaghett...@googlegroups.com
è tato rilasciato il nuovo dataset e io ho aggiornato la mia GFT delle emiliane

Riprendo un suggerimento di Alfredo Serafini in uno scambio su Linkedin: forse SOD potrebbe "arricchire" il db a livello nazionale (parliamo di altre 500 aziende circa). La cosa va un po' pensata e non è affatto detto che GFT sia la soluzione migliore, ovviamente, anche se credo che consenta (utilizzando le viste) di mettere in piedi un sistema di editing distribuito.

Continuo anche a pensare che su questo dataset - in mancanza di cose più sostanziose - si potrebbe costruire almeno in parte una track "economico / didattica" (già battezzata "Rape e sangue") per Perugia:
  • si presta a qualche considerazione sullo stato della business information in Italia, anche in relazione all'esempio OpenCorporates. Interessante fra l'altro confrontare quanto previsto in termini di trasparenza dalla legge che istituisce la sezione "startup" del Registro Imprese e quanto realizzato da Infocamere (viene anche il sospetto che quella che vediamo sia realmente tutta l'informazione fornita dall'azienda). Su questo tema dovrebbero poi essere i giornalisti a dire la loro.
  • richiede alcune (semplici) manipolazioni e normalizzazioni dei dati in entrata
  • una volta arricchito (si fa per dire)
    • in maniera automatica (join con le descrizioni ATECO e con quelle delle forme giuridiche)
    • manualmente, lavorando tra l'altro su alcuni database (brevetti italiani, brevetti europei, registro imprese)
può essere visualizzato in vario modo (v. GFT), anche in forma di mappa basata sull'indirizzo completo

e così via

Ispirato dalla tag cloud di Andrea, usando Kettle ho anche realizzato una trasformazione che analizza un campo di testo (ad es. la descrizione dell'attività), lo ripulisce da un insieme di stopword e genera un csv con i termini selezionati e le relative  frequenze, filtrandoli in base a una soglia di frequenza minima. E' solo un altro esempio di manipolazione - può magari fornire qualche spunto per il tagging e la classificazione delle imprese, ma solo se si realizza con cura il contenuto del campo da analizzare e se si lavora a livello nazionale

Alfredo Serafini

unread,
Apr 10, 2013, 2:13:32 PM4/10/13
to spaghett...@googlegroups.com
grande Stefano!

PS peraltro leggendo Kettle ho avuto un brivido! :-) Ovviamente le parole chiave estratte potrebbero essere utilizzate molto proficuamente secondo me, inoltre partendo da quanto dici sulle mappe mi viene in mente che ad esempio incrociando i dati di sede e avvio/chiusura attività si potrebbero fare valutazioni interessanti.

Andrea Nelson Mauro

unread,
Apr 11, 2013, 3:29:04 AM4/11/13
to spaghett...@googlegroups.com
alfredo te la senti di prendere il testimone da stefano? la sua idea mi sembra eccellente ma io non so se riuscirò a seguirla personalmente.

Stefano Durì

unread,
Apr 11, 2013, 4:08:04 AM4/11/13
to spaghett...@googlegroups.com
come ho già detto, è molto improbabile che io sia a Perugia, ma posso dare una mano per realizzare la presentazione

Alfredo Serafini

unread,
Apr 11, 2013, 6:56:10 AM4/11/13
to spaghett...@googlegroups.com
ciao Andrea contribuirò volentieri come posso alle cose che verranno fuori, rispetto a prendere il testimone di Stefano nello specifico credo però lui abbia una idee molto chiare e circostanziate sul tema, quindi magari ha più senso lasciare a lui il compito di coordinamento su questo? magari anche off-hacathon dico.
Peraltro un tema che sembrava collegato era quello di opencorporates:

io personalmente non sono riuscito (ancora) a darci una occhiata per bene, qualcuno l'ha fatto?


--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo argomento, visita https://groups.google.com/d/topic/spaghettiopendata/WmqArTSNP0s/unsubscribe?hl=it.
Per annullare l'iscrizione a questo gruppo e a tutti i suoi argomenti, invia un'email a spaghettiopend...@googlegroups.com.

Andrea Nelson Mauro

unread,
Apr 11, 2013, 8:06:42 AM4/11/13
to spaghett...@googlegroups.com
alfredo, stefano: sì ma è quello che pensavo io! :)
Visto che stefano non sarà a perugia, ma tu ed io sì, potremmo stringere e definire questa task e poi portarla al festival.

a me piace moltissimo, la trovo molto interessantissima perché è un percorso su come si parte da un excell e si arriva a un'inchiesta data driven sulle startup :)

Stefano: tu pensavi di darli un taglio tipo learning by doing / laboratori ?
daje, magari ci seentiamo via mail per non spammare il gruppo. Che ne dite?

Alfredo Serafini

unread,
Apr 11, 2013, 9:27:43 AM4/11/13
to spaghett...@googlegroups.com
l'iniziativa condivido sia interessante da portare avanti, su perugia non sono sicuro che riusciamo a cavarne immediatamente fuori qualcosa di concreto, in ogni caso se vi va di parlarne via mail proviamo a ragionarci e vediamo che ne tiriamo fuori, perché no. 


--

Stefano Durì

unread,
May 6, 2013, 12:52:03 PM5/6/13
to spaghett...@googlegroups.com
La meravigliosa storia del dataset Infocamere - aggiornamento
Infocamere ha rilasciato un nuovo dataset sulle startup, finalmente senza campi testo fra virgolette o riempiti di blank a destra. "Fantastico!" direte voi. Ma andate sulla riga di intestazione alla cella H1 e poi spostatevi di una cella a destra. Dovrebbe esserci l'intestazione I1, giusto? Invece troverete una cella vuota, praticamente invisibile, visto che ha larghezza quasi nulla. Quella è l'unica cella dell'intera colonna I. E' come se tutte le celle sottostanti delle colonne H e I fossero unite (unione di celle > male assoluto). Questo manda in vacca, per dirne una, tutto il mio utile jobbettino fatto con kettle, o il tranquillo import in Google Fusion Tables.
Che nuova e insidiosa deformità ci attende nel prossimo dataset? Stay tuned!

Stefano Durì

unread,
Nov 4, 2013, 10:33:50 AM11/4/13
to spaghett...@googlegroups.com
Aggiornamento 4/11
Dopo un periodo di relativa tranquillità, Infocamere ci delizia con una nuova versione dello spreadsheet ricca di trovate, che mi limito a descrivervi in breve
a) due unioni di celle nelle intestazioni da E a I (e conseguenti buchi nelle colonne sottostanti)
b) una riga (la 1236) spezzata in due, che fa sballare il conto delle imprese (1304 nel riepilogo, 1305 nel foglio dati)
Ho scritto segnalando gli errori e la risposta automatica che mi è arrivata termina in questo modo (no jokes) :


Cordiali saluti,
La Redazione di Sturt-up Innovative.

Alfredo Serafini

unread,
Nov 4, 2013, 12:56:07 PM11/4/13
to spaghett...@googlegroups.com
:-D


--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo argomento, visita https://groups.google.com/d/topic/spaghettiopendata/WmqArTSNP0s/unsubscribe.

Per annullare l'iscrizione a questo gruppo e a tutti i suoi argomenti, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.

Andrea Nelson Mauro

unread,
Nov 6, 2013, 4:52:51 PM11/6/13
to spaghett...@googlegroups.com
Alle prossim elezioni VOTA NO alle unioni di celle :D

Luca Corsato

unread,
Nov 7, 2013, 3:30:54 AM11/7/13
to spaghett...@googlegroups.com
hai voglia poi a spiegare come estrarre i dati... chissà quanti soldi risparmierebbero spostando i costi di promozione in costi di disseminazione dei dati (facendo felici poi i loro iscritti)


Il giorno 06 novembre 2013 22:52, Andrea Nelson Mauro <andrea.ne...@gmail.com> ha scritto:
Alle prossim elezioni VOTA NO alle unioni di celle :D
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più i suoi messaggi, invia un'email a spaghettiopend...@googlegroups.com.

Alberto

unread,
Nov 7, 2013, 12:39:29 PM11/7/13
to spaghett...@googlegroups.com
Amen, fratelli. 

Andrea Maurino

unread,
Nov 7, 2013, 12:40:44 PM11/7/13
to spaghett...@googlegroups.com

Infocamere è per le unioni di fatto. ...

Il 06/nov/2013 22:52 "Andrea Nelson Mauro" <andrea.ne...@gmail.com> ha scritto:
Alle prossim elezioni VOTA NO alle unioni di celle :D

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più i suoi messaggi, invia un'email a spaghettiopend...@googlegroups.com.
Reply all
Reply to author
Forward
0 new messages