cella pdf, ti spiezo in 2, anzi in 3

23 views
Skip to first unread message

cirospat

unread,
Jan 17, 2017, 1:13:02 AM1/17/17
to opendatasicilia
Michelangelo Taormina, in uno scambio di consigli via email, mi ha gentilmente inviato questo pdf dello stradario di Palermo (allegato).
Nella stessa  !cella! (chiamala cella)  del pdf c'è: nome via - cap - circoscrizione.

Sarebbe utile, per tanti individui e per tanti scopi e per tante professioni, potere avere tutte le informazioni in colonne separate.
Ricordo di un software trattato qui in questa mailing list tempo fa, ma non l'ho provato.

Se è possibile farlo con un tool che fa tutto in automatico, pensavo che questa tipologia di dataset potrebbero popolare un repository open data di opendatasicilia (ma su questo argomento in seguito si aprirà un thread dedicato).

Grazie dell'attenzione
ciro





stradario palermo.pdf

andy

unread,
Jan 17, 2017, 2:21:09 AM1/17/17
to opendatasicilia

2017-01-17 7:13 GMT+01:00 cirospat <ciro...@gmail.com>:
Ricordo di un software trattato qui in questa mailing list tempo fa, ma non l'ho provato.


Se hai difficoltà, fischia

___________________

Andrea Borruso
website: http://blog.spaziogis.it
38° 7' 48" N, 13° 21' 9" E, EPSG:4326
___________________

"cercare e saper riconoscere chi e cosa,
 in mezzo all’inferno, non è inferno, 
e farlo durare, e dargli spazio"

Italo Calvino

ciro spataro

unread,
Jan 17, 2017, 3:35:12 AM1/17/17
to opendatasicilia
Andrea grazie della velocità...
il problema (mio per ora) è che tutti i dati si trovano dentro un unica riga (unica cella se paragonato ad un formato tabellare) dentro il formato pdf, caso diverso da quello da te affrontato nel post su Medium che riguardava i beni immobili comunali per i quali il pdf "sezionava" la diversa tipologia di dati in più colonne, almeno credo così dalla visione dei 2 diversi pdf.... ma può anche darsi che mi sbagli

credo che sia necessario qualche comando specifico che stacchi i diversi dati:
esempio:
questa è la presentazione del contenuto di ogni singola riga del pdf dello stradario

ABBATE (cortile) - Nel corso dei Mille, al civ. 1328 - 1/10 - Circ. Seconda - c.a.p. 90122.

L'obiettivo è staccare "ABBATE (cortile)" da "Nel corso dei Mille" da "al civ. 1328" da "Circ. Seconda" da "c.a.p. 90122"
quindi arrivare ad ottenere il dato atomico separato dagli altri dati atomici
ed in più operando una cancellazione di:
  • le parentesi   "("   e    ")" da cortile
  • Nel  da "Nel corso dei Mille"
  • al civ. da "al civ. 1328"
  • Circ.  da  "Circ. Seconda"
  • c.a.p. da "c.a.p. 90122"
Credo che si sia un po di lavoretto oltre alla divisione dei dati per colonne, se si vuole ottenere un dataset quanto più pulito e riusabile.

Grazie per l'attenzione

______________



--
Sito: http://opendatasicilia.it
Facebook: https://www.facebook.com/groups/opendatasicilia/
twitter: http://twitter.com/opendatasicilia
Slack: http://opendatasicilia.it/slack/
Newsletter http://opendatasicilia.it/newsletter/
---
Hai ricevuto questo messaggio perché sei iscritto al gruppo "opendatasicilia" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a opendatasicilia+unsubscribe@googlegroups.com.
Per postare in questo gruppo, invia un'email a opendatasicilia@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/opendatasicilia.
Per visualizzare questa discussione sul Web, visita https://groups.google.com/d/msgid/opendatasicilia/CAHEdGZMT6tYA9H9maertVed2otyeOvQmqb_MtXvwSzt-n7PGwQ%40mail.gmail.com.
Per altre opzioni visita https://groups.google.com/d/optout.

andy

unread,
Jan 17, 2017, 3:38:42 AM1/17/17
to opendatasicilia

2017-01-17 9:34 GMT+01:00 ciro spataro <ciro...@gmail.com>:
Credo che si sia un po di lavoretto oltre alla divisione dei dati per colonne, se si vuole ottenere un dataset quanto più pulito e riusabile.

Inizia a tirare fuori la mega tabella così per come è.

E poi ci lavoriamo

andy

unread,
Jan 17, 2017, 8:10:42 AM1/17/17
to opendatasicilia

Ecco un primo risultato https://docs.google.com/spreadsheets/d/1HJxkNZQjTLoAdNgtstjqqiUsyV_9h15iCWjS8fUzz2M/edit?usp=sharing

Due cose sicuramente rimangono:

  • estrarre il tipo via (è abbastanza semplice, perché tra parentesi);
  • estrarre il cap, che è dopo l’ultimo - .

Ma la mia pausa pranzo è finita :)

Ciro secondo me se chiedi all’ufficio toponomastica ti da il file ben separato.


Andrea Borruso
website: http://blog.spaziogis.it
38° 7’ 48” N, 13° 21’ 9” E, EPSG:4326


“cercare e saper riconoscere chi e cosa,


in mezzo all’inferno, non è inferno,
e farlo durare, e dargli spazio”

Italo Calvino

ciro spataro

unread,
Jan 17, 2017, 9:03:51 AM1/17/17
to opendatasicilia
grazie Andrea
per l'esperimento di trasformazione in tabella seria.
Si posso chiedere all'Ufficio Toponomastica, hai ragione.
Volevo solo rendere subito riusabili quei dati, in un formato tabellare strutturato.
Grazie

--
Sito: http://opendatasicilia.it
Facebook: https://www.facebook.com/groups/opendatasicilia/
twitter: http://twitter.com/opendatasicilia
Slack: http://opendatasicilia.it/slack/
Newsletter http://opendatasicilia.it/newsletter/
---
Hai ricevuto questo messaggio perché sei iscritto al gruppo "opendatasicilia" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a opendatasicilia+unsubscribe@googlegroups.com.
Per postare in questo gruppo, invia un'email a opendatasicilia@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/opendatasicilia.

Andrea Nelson Mauro | Dataninja.it

unread,
Jan 17, 2017, 1:12:51 PM1/17/17
to opendatasicilia
per estrarre dati da pdf segnalo anche versione aggratis di tabula ospitata su server ondata

funziona semplicemente:
1) carichi il pdf
2) selezioni tabella (e) da estrarre
3) clicchi estrai


Per altre opzioni visita https://groups.google.com/d/optout.



--
Andrea Nelson Mauro - Datajournalist
dataninja.it
http://twitter.com/nelsonmau

Andrea Nelson Mauro | Dataninja.it

unread,
Jan 17, 2017, 1:18:26 PM1/17/17
to opendatasicilia

partendo da questa tabella

Il giorno 17 gennaio 2017 14:10, andy <abor...@gmail.com> ha scritto:

come dice giustamente andy, la strada migliore è splittare
quindi per esempio selezione la cella b2

Nella via Giuseppe Pitrè, tra i civ. 147 e 149 - 1/9 - Circ. Quarta - c.a.p. 90135

è gli dico splittala in nuove colonne ogni volte che c’è il trattino -
in concreto vado nella colonna a fianco, in cella c2 e scrivo =split(C2,"-")

questa cosa splitta il valore in quattro valori.

lo trovate funzionante qui https://docs.google.com/spreadsheets/d/1HJxkNZQjTLoAdNgtstjqqiUsyV_9h15iCWjS8fUzz2M/edit#gid=0


---

ciro spataro

unread,
Jan 17, 2017, 1:42:00 PM1/17/17
to opendatasicilia
grazie Andrea e Andrea Nelson
per i vostri suggerimenti utili
a breve questa tabella sarà molto riusabile

__
Ciro 



--
Sito: http://opendatasicilia.it
Facebook: https://www.facebook.com/groups/opendatasicilia/
twitter: http://twitter.com/opendatasicilia
Slack: http://opendatasicilia.it/slack/
Newsletter http://opendatasicilia.it/newsletter/
---
Hai ricevuto questo messaggio perché sei iscritto al gruppo "opendatasicilia" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a opendatasicilia+unsubscribe@googlegroups.com.
Per postare in questo gruppo, invia un'email a opendatasicilia@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/opendatasicilia.

andy

unread,
Jan 17, 2017, 1:53:51 PM1/17/17
to opendatasicilia

2017-01-17 19:41 GMT+01:00 ciro spataro <ciro...@gmail.com>:
a breve questa tabella sarà molto riusabile

Ciro, noi non vogliamo creare la tabella :)

Ste cose si imparano, solo se ci si sbatte un po'.

Se ci dici "non è cosa mia", la porto produzione. Però è un peccato.

___________________

Andrea Borruso
website: http://blog.spaziogis.it
38° 7' 48" N, 13° 21' 9" E, EPSG:4326
___________________

ciro spataro

unread,
Jan 17, 2017, 4:28:00 PM1/17/17
to opendatasicilia
Stavo solo cercando di aiutare una persona che chiedeva Supporto per riusare i dati del PDF.
Appena ho un po di tempo approfondisco. Promesso.

Grazie di cuore dell'utilissimo aiuto che avete dato.

--
Sito: http://opendatasicilia.it
Facebook: https://www.facebook.com/groups/opendatasicilia/
twitter: http://twitter.com/opendatasicilia
Slack: http://opendatasicilia.it/slack/
Newsletter http://opendatasicilia.it/newsletter/
---
Hai ricevuto questo messaggio perché sei iscritto al gruppo "opendatasicilia" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a opendatasicilia+unsubscribe@googlegroups.com.
Per postare in questo gruppo, invia un'email a opendatasicilia@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/opendatasicilia.

andy

unread,
Jan 17, 2017, 4:46:53 PM1/17/17
to opendatasicilia

2017-01-17 22:27 GMT+01:00 ciro spataro <ciro...@gmail.com>:
Stavo solo cercando di aiutare una persona che chiedeva Supporto per riusare i dati del PDF.
Appena ho un po di tempo approfondisco. Promesso.

Ok, ho aggiunto due colonne che derivano dall'analisi della prima: il "nome" e il "tipo".

Ho usato un'altra cosa troppo comoda per lavorare sui testi, le espressioni regolari. Ma non ce la faccio adesso con le spiegazioni :(

Grazie al tipo si possono fare un po' di conti, come ad esempio:

via4358
cortile414
vicolo304
piazza270
largo241
piazzetta97
fondo87
viale81
passaggio47

Lo split di Andrea Nelson è comodo, ma per come è fatto il file è anche da usare con cautela, perché non è sempre un separatore.
Un po' meglio sarebbe usare come separatore solo l'ultimo dei caratteri "-".

Notte

ciro spataro

unread,
Jan 18, 2017, 1:18:54 AM1/18/17
to opendatasicilia
grazie molto Andrea
__



Reply all
Reply to author
Forward
0 new messages