Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

estrarre dati ordinati da file PDF a file Excel ???

1,049 views
Skip to first unread message

andrea

unread,
Oct 24, 2009, 5:28:46 PM10/24/09
to
Ciao a tutti
� il mio primo post ...
Avrei bisogno del vostro aiuto perch� ho una serie di file in PDF contenenti
ricette di cucina che vorrei portare su excel per poter successivamente fare
ricerche, ordinamenti, aggiungere commenti ecc ecc.
La ricetta normalmente si presenta con titolo, ingredienti e preparazione
ovviamente su pi� righe ed ogni ricetta ha una lunghezza diversa.
Il problema � che se faccio un volgare copia incolla il testo viene
distribuito su tante celle senza darmi la possibilit� di organizzare una
tabella.
Io vorrei una cella contenente il titolo, la cella a fianco contenente tutti
gli ingredienti (una sola cella) e una sola cella che contenga tutta la
descrizione della preparazione.
Tutto questo senza doverlo fare a mano cella per cella .....
Qualcuno mi pu� aiutare ??? Help Help !!


The man with two watches

unread,
Oct 25, 2009, 5:19:17 AM10/25/09
to
"andrea"

> Ciao a tutti
> � il mio primo post ...

Bienvenu.

> Avrei bisogno del vostro aiuto perch� ho una serie di file in

> PDF contenenti ricette di cucina che vorrei portare su excel [...]

Questo e` il problema di avere dati non strutturati... che il
super abusato .pdf, formato orientato alla stampa cartacea,
sicuramente aggrava.
Non che l'avere tutto in un foglio elettronico risolva poi
molto... le possibilita` di ricerca saranno limitate ad un
full-text search se inserisci tutta la ricetta in una unica
cella... pure l'ordinamento servira` a poco.
Se invece opti per un "vero" dbms, forse sara` un overkill
per le funzionalita` che ti interessano.

Valuta se tenere tutti i .pdf in una cartella ed usare un
programma di ricerca testuale (forse Picasa).
En passant credo che sarebbe cosa assai bella avere le ricette
su un e-reader.

Questi problemi sono il campo ideale per XML, RDF, Microformats
e compagnia bella... Nell'attesa che qualche standard s'imponga,
dovrai fare un'importazione (semi)manuale, al limite scrivendo
un parser in VBA (io l'avevo fatto per tirare fuori dati da un
vecchio programma DOS, in Excel+Access+VBA il risultato era
dignitoso... doveva essere una "soluzione temporanea", poi
anni dopo l'ho visto ancora in funzione LOL).

I formati e l'interoperabilita` sono questione che diventa sempre
piu` centrale col diffondersi di dispositivi che devono "parlarsi";
purtroppo la risposta del mercato va spesso in direzione opposta.

bye

Manlio Perillo

unread,
Oct 25, 2009, 5:54:07 AM10/25/09
to
Il Sun, 25 Oct 2009 09:19:17 +0000, The man with two watches ha scritto:

> "andrea"
>> Ciao a tutti
>> è il mio primo post ...
>
> Bienvenu.
>
>
>
>> Avrei bisogno del vostro aiuto perchè ho una serie di file in PDF


>> contenenti ricette di cucina che vorrei portare su excel [...]
>
> Questo e` il problema di avere dati non strutturati... che il super
> abusato .pdf, formato orientato alla stampa cartacea, sicuramente
> aggrava.

In realtà il formato PDF ha il supporto per i dati strutturati, ma è da
vedere se è il caso dell'OP.

Usando Acrobat Reader, menu File -> Proprietà,
verificare se "Tagged PDF" è settato a Yes.

Anche nel caso in cui il documento sia strutturato, effettuarne il
parsing non è banale, ma dovrebbero essere disponibili dei tool per
assolvere a questo compito.

> [...]


Ciao Manlio

The man with two watches

unread,
Oct 25, 2009, 7:21:03 AM10/25/09
to
"Manlio Perillo"

> Il Sun, 25 Oct 2009 09:19:17 +0000, The man with two watches ha scritto:
>
>> Questo e` il problema di avere dati non strutturati... che il super
>> abusato .pdf, formato orientato alla stampa cartacea, sicuramente
>> aggrava.
>
> In realt� il formato PDF ha il supporto per i dati strutturati, ma � da
> vedere se � il caso dell'OP.

Si ma e` una cosa molto differente: mi pare di ricordare (lieto di
sbagliarmi) che il tagging del .pdf riguardi solamente gli aspetti
tipografici e strettamente collegati; hanno carattere opzionale e
sono apponibili a posteriori.

Quelli che dicevo prima erano metodi per descrizione semantica dei
dati, e provvedono quello che nel campo db chiameremmo "schema"
(piu altre cose ancora).

> Anche nel caso in cui il documento sia strutturato, effettuarne il

> parsing non � banale, ma dovrebbero essere disponibili dei tool per
> assolvere a questo compito.

Concordo, intendevo il parsing DOPO l'import... mi pare che l'op
avesse gia` un sistema.


Manlio Perillo

unread,
Oct 25, 2009, 7:49:33 AM10/25/09
to
Il Sun, 25 Oct 2009 11:21:03 +0000, The man with two watches ha scritto:

> "Manlio Perillo"
>> Il Sun, 25 Oct 2009 09:19:17 +0000, The man with two watches ha
>> scritto:
>>
>>> Questo e` il problema di avere dati non strutturati... che il super
>>> abusato .pdf, formato orientato alla stampa cartacea, sicuramente
>>> aggrava.
>>

>> In realtà il formato PDF ha il supporto per i dati strutturati, ma è da

>> vedere se è il caso dell'OP.


>
> Si ma e` una cosa molto differente: mi pare di ricordare (lieto di
> sbagliarmi) che il tagging del .pdf riguardi solamente gli aspetti
> tipografici e strettamente collegati;

No, riguardano proprio la struttura logica del documento.
Le funzionalità offerte hanno molto in comune con quelle disponibili in
HTML, SGML e XML.


> [...]


Ciao Manlio

The man with two watches

unread,
Oct 25, 2009, 9:42:14 AM10/25/09
to
"Manlio Perillo"
> Il Sun, 25 Oct 2009 11:21:03 +0000, The man with two watches ha scritto:
>>
>> Si ma e` una cosa molto differente: mi pare di ricordare (lieto di
>> sbagliarmi) che il tagging del .pdf riguardi solamente gli aspetti
>> tipografici e strettamente collegati;
>
> No, riguardano proprio la struttura logica del documento.
> Le funzionalit� offerte hanno molto in comune con quelle disponibili in
> HTML, SGML e XML.

Interessante, non lo sapevo. Per tornare al problema iniziale,
a questo punto bisognerebbe vedere nei .pdf delle ricette se e
quali metadati sono presenti; nel caso, sarebbe possibile fare
un import pulito del contenuto.


andrea

unread,
Oct 26, 2009, 6:12:08 PM10/26/09
to

"The man with two watches" <do...@spam.me> ha scritto nel messaggio
news:WAYEm.84768$1s6....@twister2.libero.it...

Ragazzi ....grazie mille per aver preso in considerazione il mio problema
ma sinceramente
non capisco nulla di quello che avete scritto......aim� sono un profano di
queste cose ..
..mi chiedevo se qualcuno mi potesse aiutare magari dietro modesto
compenso.....

>


Andrea D'Amore

unread,
Oct 27, 2009, 2:16:30 AM10/27/09
to
In article <RgoFm.17820$813....@tornado.fastwebnet.it>,
"andrea" <andrea....@email.it> wrote:

> non capisco nulla di quello che avete scritto

Essenzialmente che Excel non è un database (leggi: "Excel come database
uguale cacca") e che in generale i file .pdf hanno supporto per tenere i
dati di una base di dati, ma molto probabilmente non è il tuo caso.

> mi chiedevo se qualcuno mi potesse aiutare magari dietro modesto
> compenso

I dati come si presentano nel PDF? Non puoi usare un convertitore da pdf
a testo semplice, controllare che i diversi campi siano segnati in modo
corretto (virgola, tabulatore) e poi importare?

0 new messages