Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Elenco parole italiane più usate

2,355 views
Skip to first unread message

A.D.

unread,
Feb 15, 2009, 11:11:52 AM2/15/09
to
Salve,
sapete indicarmi se esiste ed eventualmente dov'č
possibile trovare un elenco delle parole italiane piů
utilizzate, ossia un file che contenga una lista
diciamo delle 10000/20000 parole piů comuni
nell'italiano corrente.
Ho cercato molto su Internet, ma non ho trovato
molto: ci solo al massimo dizionari "esaustivi" (da
piů di 200mila parole) o elenchi molto concisi...

Grazie,
A.D.

P.S. Prevengo la domanda: no, non mi serve per
forzare le password, ma per scrivere un software
didattico...

Epimeteo

unread,
Feb 15, 2009, 12:46:19 PM2/15/09
to

"A.D." <isd...@libero.ix> ha scritto nel messaggio
news:c9Xll.265761$FR.5...@twister1.libero.it...
> Salve,
> sapete indicarmi se esiste ed eventualmente dov'è
> possibile trovare un elenco delle parole italiane più

> utilizzate, ossia un file che contenga una lista
> diciamo delle 10000/20000 parole più comuni

> nell'italiano corrente.
> Ho cercato molto su Internet, ma non ho trovato
> molto: ci solo al massimo dizionari "esaustivi" (da
> più di 200mila parole) o elenchi molto concisi...

Non so se l'hai già consultato e se ti può essere utile, ma pare che esista
un "Lessico di frequenza dell'italiano parlato" (di De Mauro ed altri, ETAS
Libri)
http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php

Ciao.
Epimeteo
---
"...parole, parole, parole,
parole, parole, parole
soltanto parole,
parole tra noi..."
(cit. verbale)

Enrico Olivetti

unread,
Feb 15, 2009, 9:06:53 PM2/15/09
to
Epimeteo wrote:

> Non so se l'hai già consultato e se ti può essere utile, ma pare che esista
> un "Lessico di frequenza dell'italiano parlato" (di De Mauro ed altri, ETAS
> Libri)
> http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php
>

È molto difficile fare questa statistica e anche i suoi risultati sono
inattendibili.
Su cosa ci si deve basare? Sulla letteratura, sugli articoli scritti su
Internet? No perché non è linguaggio parlato. Allora diventa impossibile fare
statistiche attendibili (e per attendibili intendo anche ripetibili).
L'unica cosa che potrebbe dare un risultato approssimativo è di prendere la
classificazione sulla conoscenza di una parola e prendere quelle classificati
CO, AU, AD a seconda del numero di parole che si vuole raccogliere

Epimeteo

unread,
Feb 16, 2009, 1:01:51 AM2/16/09
to

"Enrico Olivetti" <pi...@pippo.net> ha scritto nel messaggio
news:4998CA3D...@pippo.net...

> Epimeteo wrote:
>> Non so se l'hai già consultato e se ti può essere utile, ma pare che
>> esista un "Lessico di frequenza dell'italiano parlato" (di De Mauro
>> ed altri, ETAS Libri)
>> http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php

> È molto difficile fare questa statistica e anche i suoi risultati sono
> inattendibili.
> Su cosa ci si deve basare? Sulla letteratura, sugli articoli scritti su
> Internet? No perché non è linguaggio parlato. Allora diventa impossibile
> fare statistiche attendibili (e per attendibili intendo anche ripetibili).

Forse il linguaggio usato nei niusgruppi (o in certi niusgruppi) rappresenta
una buona approssimazione del linguaggio parlato, anche se esso è sporcato
dalle abbreviazioni e dai termini gergali che, parlando, di solito non si
usano...

> L'unica cosa che potrebbe dare un risultato approssimativo è di prendere
> la classificazione sulla conoscenza di una parola e prendere quelle
> classificati CO, AU, AD a seconda del numero di parole che si vuole
> raccogliere

Bisogna vedere cosa ne pensa lo studioso A.D., che ha posto la domanda, ma
dopo avere "postato" la sua richiesta lui si è eclissato, si è...

Ciao.
Epimeteo
---
"... le mie parole sono sassi,
precisi, aguzzi, pronti da scagliare
su facce vulnerabili e indifese,
sono nuvole sospese,
gonfie di sottointesi,
che accendono negli occhi infinite attese..."
http://www.youtube.com/watch?v=57oMTDVSfd8
(cit. verbosa)

A.D.

unread,
Feb 16, 2009, 2:14:49 AM2/16/09
to
Epimeteo <ep...@tin.it> wrote in message
499854ed$0$1110$4faf...@reader3.news.tin.it...

> Non so se l'hai già consultato e se ti può essere utile,
> ma pare che esista un "Lessico di frequenza dell'italiano
> parlato" (di De Mauro ed altri, ETAS Libri)

Grazie!
Mi sembra un ottimo punto di partenza...

A.D.

A.D.

unread,
Feb 16, 2009, 2:19:47 AM2/16/09
to
Enrico Olivetti <pi...@pippo.net> wrote in message
4998CA3D...@pippo.net...

> Su cosa ci si deve basare? Sulla letteratura, sugli
> articoli scritti su Internet? No perché non è linguaggio
> parlato. Allora diventa impossibile fare statistiche
> attendibili (e per attendibili intendo anche ripetibili).

In prima approssimazione (ma anche in termini statistici)
è verosimile che le parole più usate nel linguaggio parlato
siano più usate anche nel linguaggio scritto. Se si
considerano testi di varia natura ed origine, scritti in
italiano contemporaneo (niente opere storiche e linguaggio
estero...), è probabile che il risultato in termini di frequenza
sia non sono attendibile, ma anche ripetibile (su grandi
numeri, e quindi con procedimenti automatici).


> L'unica cosa che potrebbe dare un risultato approssimativo
> è di prendere la classificazione sulla conoscenza di una
> parola e prendere quelle classificati CO, AU, AD a
> seconda del numero di parole che si vuole raccogliere

Forse sarebbe forviante, a mio parere...

A.D.

Enrico Olivetti

unread,
Feb 16, 2009, 4:00:08 AM2/16/09
to
Epimeteo wrote:

> Forse il linguaggio usato nei niusgruppi (o in certi niusgruppi) rappresenta
> una buona approssimazione del linguaggio parlato, anche se esso è sporcato
> dalle abbreviazioni e dai termini gergali che, parlando, di solito non si
> usano...

Non credo
Prendiamo ad esempio le parole sale, aceto e olio.
Sono abbastanza usate nel linguaggio comune, ma nei testi scritti sono quasi
assenti.
Cecché ne dica AD l'analisi di testi scritti è fuorviante.


Enrico Olivetti

unread,
Feb 16, 2009, 4:01:32 AM2/16/09
to
"A.D." wrote:

> In prima approssimazione (ma anche in termini statistici)

> č verosimile che le parole piů usate nel linguaggio parlato
> siano piů usate anche nel linguaggio scritto.

Č questo postulato che č errato.

A.D.

unread,
Feb 16, 2009, 1:01:42 PM2/16/09
to
Enrico Olivetti <pi...@pippo.net> wrote in message
49992B18...@pippo.net...

> Non credo
> Prendiamo ad esempio le parole sale, aceto e olio.
> Sono abbastanza usate nel linguaggio comune, ma
> nei testi scritti sono quasi assenti.

Dipende cosa intendi per testi scritti... E' chiaro che
quello che dico io vale solo se consideri un campione
sufficientemente vasto e rappresentativo di testi scritti,
non solo "opere letterarie". Se il campione è ben scelto
(o "ben trovato") ci troverai dentro anche un certo
numero di ricette di cucina, che conterranno quasi
tutte quelle parole. Quindi sebbene la loro frequenza
in testi generici sia scarsa, sarà altissima nelle ricette
o in opere che parlano di cucina e alimentazione.
La mia ipotesi di fondo è che la quantità di testi
esistenti su questi argomenti moltiplicata per la
frequenza di uso di quelle parole in quei testi
corrisponda all'uso medio di quei termini nel
linguaggio comune. E' un'ipotesi ardita, ma non
del tutto campata in aria, e se pensi a termini
ancora più specifici dovrebbe risultare più intuitiva..


> Cecché ne dica AD l'analisi di testi scritti è fuorviante.

In generale probabilmente si (anzi, sicuramente data la
staticità dei testi scritti rispetto al linguaggio parlato),
ma per quello che chiedevo all'inizio andrebbe
più che bene...

A.D.

Gerle

unread,
Feb 16, 2009, 2:17:10 PM2/16/09
to
A.D. ha scritto:
> un elenco delle parole italiane più utilizzate


Tempo fa si parlò di un argomento simile su
it.cultura.linguistica.francese. Copio parte di un messaggio che mi sembra
utile qui.

-------------

[...] un paio di cose che potrebbero interessare:

Gougenheim, Georges, Michéa, R. Rivenc, Paul, Sauvageot, Aurélien,
L'élaboration du français fondamental (1er degré), Paris, Didier, 1967.
De Mauro, Tullio, Guida all'uso delle parole, Roma, Editori riuniti, 1982
[5 ed.].

Il primo costituisce la presentazione ufficiale di un importante lavoro
degli anni '60 che è servito alla realizzazione di un "Dictionnaire
fondamental de la langue française". Se ne trova una eco diretta anche in
"Français écrit, français parlé" di Aurélien Sauvageot. Credo che se ne
sia parlato molto. Ricordo un testo di Georges Matoré ["Histoire des
dictionnaires français"] che, fra altro, ha scritto un "Dictionnaire du
vocabulaire essentiel: les 5.000 mots fondamentaux", e un testo molto
critico di Marcel Cohen ["Français élémentaire? Non", Paris, Editions
sociales, 1955], che, pure lui, ha contribuito alla realizzazione di un
"Dictionnaire du français vivant".
Il secondo è un testo didattico che si rivolge a un pubblico di giovani e
che è legato alla creazione del "Lessico di frequenza dell'Italiano
Parlato".
[...]
In ogni caso vi si spiegano alcune delle marche d'uso che sono usate anche
nel "Dizionario della lingua italiana", che si può sempre consultare a:
http://old.demauroparavia.it/
A titolo di curiosità, allego una paginetta che copio da un programma
[elementare] di analisi lessicale fornito con la "Guida all'uso delle
parole".


" Sulla base del lavoro del Centro di Pisa è stata fatta una prima lista
delle parole italiane in ordine di uso decrescente. Le 5.000 parole di
maggiore uso sono state la prima fonte del nostro vocabolario di base.
Abbiamo verificato la reale comprensibilità di queste parole da parte di
ragazze e ragazzi di terza media e di adulti con non più che la licenza
media. Abbiamo scartato quelle non comprese dalla metà degli interrogati.
Così la rosa si è leggermente ristretta e abbiamo potuto isolare circa
4.750 parole. Tra queste vi sono 2.000 parole di maggiore uso. Esse
costituiscono il VOCABOLARIO FONDAMENTALE, cioè il nucleo più importante
all'interno del nostro vocabolario di base. Nel programma sono le parole
scritte in verde. Le parole scritte in colore blu sono le altre 2.750
circa del vocabolario di maggior uso, e costituiscono il VOCABOLARIO DI
ALTO USO. Vi sono poi circa 2.300 parole (in colore rosso nel programma),
come "abbagliante" o "zuppa", che costituiscono il VOCABOLARIO DI ALTA
DISPONIBILITÀ. Queste parole sono state isolate e controllate in vario
modo. Partendo dall'esame dei dizionari dell'italiano comune, si sono
isolate la parole di maggiore 'disponibilità'. Si tratta delle parole che
può accaderci di non dire né tantomeno di scrivere mai o quasi mai, ma
legate a oggetti, fatti, esperienze ben noti a tutte le persone adulte
nella vita quotidiana. Sono le parole che diciamo o scriviamo raramente,
ma che pensiamo con grande frequenza. Queste parole, come si è capito da
circa trent'anni, rischiano di restare fuori dalle liste di frequenza e di
uso. Per trovarle, per trovare le più importanti occorre servirsi di altre
vie. Se ci fosse una macchina ammazzacattivi, un registratore dei pensieri
che passano per la testa potremmo ricorrere alla registrazione di tutto
questo materiale ed esaminarlo. In questo caso la lista di frequenza di
parole ci darebbe le parole anche in ordine di disponibilità. Ma (per
fortuna!) il registratore dei pensieri non è stato inventato. Dunque
dobbiamo pazientemente interrogare gruppi diversi di parlanti per isolare
un po' alla volta il vocabolario di più alta disponibilità. Per l'italiano
questo lavoro è agli inizi. È parso importante offrirne i risultati più
sicuri.


--

questo articolo e` stato inviato via web dal servizio gratuito
http://www.newsland.it/news segnala gli abusi ad ab...@newsland.it


A.D.

unread,
Feb 17, 2009, 1:48:51 AM2/17/09
to
Gerle <gerle...@RTYfree.fr> wrote in message
gnce3m$5i9$1...@news.newsland.it...

> " Sulla base del lavoro del Centro di Pisa è stata fatta
> una prima lista delle parole italiane in ordine di uso
> decrescente. Le 5.000 parole di maggiore uso sono
> state la prima fonte del nostro vocabolario di base.
> [...]

E' molto interessante, e ti ringrazio per i riferimenti,
però il problema di questi lavori (dal mio punto di vista)
è che gli elenchi non sono disponibili o facilmente
reperibili su file, quindi è relativamente difficile
usarli nei software...


> Se ci fosse una macchina ammazzacattivi, un registratore
> dei pensieri che passano per la testa potremmo ricorrere
> alla registrazione di tutto questo materiale ed esaminarlo.
> In questo caso la lista di frequenza di parole ci darebbe
> le parole anche in ordine di disponibilità. Ma (per
> fortuna!) il registratore dei pensieri non è stato inventato.

Beh, si potrebbe dire che adesso non è più vero! Direi
che i blog o le chat sono una buona approssimazione di
un "registratore di pensieri"! :-)

A.D.


Nipponponpico

unread,
Feb 17, 2009, 8:45:54 AM2/17/09
to
On 17 Feb, 15:48, "A.D." <isd_...@libero.ix> wrote:
> Beh, si potrebbe dire che adesso non è più vero! Direi
> che i blog o le chat sono una buona approssimazione di
> un "registratore di pensieri"! :-)

Premesso che un operazione del genere non può avere dei risultati che
rispecchino totalmente la realtà d'uso visto che essa varia
immensamente al variare di fattori anche minimi, penso anche io che se
possa prendere ad esempio molte sezioni off topic di molti gruppi di
discussione in un buon intervallo di tempo se ne riuscirebbe a trarre
un dizionario essenziale piuttosto accurato.
Per curiosità, in un lemmario di questo tipo vanno inclusi anche i
termini grammaticali (tipo articoli, congiunzioni, ecc.)?

A.D.

unread,
Feb 17, 2009, 12:41:42 PM2/17/09
to
A.D. <isd...@libero.ix> wrote in message
c9Xll.265761$FR.5...@twister1.libero.it...
>

Intanto ringrazio tutti per i suggerimenti.
Alla fine sono riuscito a trovare qualcosa che si
avvicina molto a quello che cercavo: si tratta del
"Dizionario di base della lingua italiana" di De Mauro,
di cui nel sito dell'editore è possibile scaricare l'elenco
completo dei lemmi (previa registrazione):
http://www.paravia.it/scheda_opera.php?ID=764&complete=1

A.D.

GCPillan

unread,
Feb 17, 2009, 1:35:11 PM2/17/09
to
A.D.:

> Alla fine sono riuscito a trovare qualcosa che si
> avvicina molto a quello che cercavo: si tratta del
> "Dizionario di base della lingua italiana" di De Mauro,
> di cui nel sito dell'editore è possibile scaricare l'elenco
> completo dei lemmi (previa registrazione):http://www.paravia.it/scheda_opera.php?ID=764&complete=1

Probabilmente arrivo in ritardo, ma se vuoi un elenco dei termini
statisticamente più usati lo puoi trovare nei file dizionario del T9
ovvero quelli usati per la scrittura predittiva in telefonini e
similari. Due le differenze rispetto a un dizionario di base: contiene
i nomi propri più frequenti e contiene verbi coniugati e sostantivi
declinati.

0 new messages