Grazie,
A.D.
P.S. Prevengo la domanda: no, non mi serve per
forzare le password, ma per scrivere un software
didattico...
Non so se l'hai già consultato e se ti può essere utile, ma pare che esista
un "Lessico di frequenza dell'italiano parlato" (di De Mauro ed altri, ETAS
Libri)
http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php
Ciao.
Epimeteo
---
"...parole, parole, parole,
parole, parole, parole
soltanto parole,
parole tra noi..."
(cit. verbale)
> Non so se l'hai già consultato e se ti può essere utile, ma pare che esista
> un "Lessico di frequenza dell'italiano parlato" (di De Mauro ed altri, ETAS
> Libri)
> http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php
>
È molto difficile fare questa statistica e anche i suoi risultati sono
inattendibili.
Su cosa ci si deve basare? Sulla letteratura, sugli articoli scritti su
Internet? No perché non è linguaggio parlato. Allora diventa impossibile fare
statistiche attendibili (e per attendibili intendo anche ripetibili).
L'unica cosa che potrebbe dare un risultato approssimativo è di prendere la
classificazione sulla conoscenza di una parola e prendere quelle classificati
CO, AU, AD a seconda del numero di parole che si vuole raccogliere
> È molto difficile fare questa statistica e anche i suoi risultati sono
> inattendibili.
> Su cosa ci si deve basare? Sulla letteratura, sugli articoli scritti su
> Internet? No perché non è linguaggio parlato. Allora diventa impossibile
> fare statistiche attendibili (e per attendibili intendo anche ripetibili).
Forse il linguaggio usato nei niusgruppi (o in certi niusgruppi) rappresenta
una buona approssimazione del linguaggio parlato, anche se esso è sporcato
dalle abbreviazioni e dai termini gergali che, parlando, di solito non si
usano...
> L'unica cosa che potrebbe dare un risultato approssimativo è di prendere
> la classificazione sulla conoscenza di una parola e prendere quelle
> classificati CO, AU, AD a seconda del numero di parole che si vuole
> raccogliere
Bisogna vedere cosa ne pensa lo studioso A.D., che ha posto la domanda, ma
dopo avere "postato" la sua richiesta lui si è eclissato, si è...
Ciao.
Epimeteo
---
"... le mie parole sono sassi,
precisi, aguzzi, pronti da scagliare
su facce vulnerabili e indifese,
sono nuvole sospese,
gonfie di sottointesi,
che accendono negli occhi infinite attese..."
http://www.youtube.com/watch?v=57oMTDVSfd8
(cit. verbosa)
Grazie!
Mi sembra un ottimo punto di partenza...
A.D.
In prima approssimazione (ma anche in termini statistici)
è verosimile che le parole più usate nel linguaggio parlato
siano più usate anche nel linguaggio scritto. Se si
considerano testi di varia natura ed origine, scritti in
italiano contemporaneo (niente opere storiche e linguaggio
estero...), è probabile che il risultato in termini di frequenza
sia non sono attendibile, ma anche ripetibile (su grandi
numeri, e quindi con procedimenti automatici).
> L'unica cosa che potrebbe dare un risultato approssimativo
> è di prendere la classificazione sulla conoscenza di una
> parola e prendere quelle classificati CO, AU, AD a
> seconda del numero di parole che si vuole raccogliere
Forse sarebbe forviante, a mio parere...
A.D.
> Forse il linguaggio usato nei niusgruppi (o in certi niusgruppi) rappresenta
> una buona approssimazione del linguaggio parlato, anche se esso è sporcato
> dalle abbreviazioni e dai termini gergali che, parlando, di solito non si
> usano...
Non credo
Prendiamo ad esempio le parole sale, aceto e olio.
Sono abbastanza usate nel linguaggio comune, ma nei testi scritti sono quasi
assenti.
Cecché ne dica AD l'analisi di testi scritti è fuorviante.
> In prima approssimazione (ma anche in termini statistici)
> č verosimile che le parole piů usate nel linguaggio parlato
> siano piů usate anche nel linguaggio scritto.
Č questo postulato che č errato.
Dipende cosa intendi per testi scritti... E' chiaro che
quello che dico io vale solo se consideri un campione
sufficientemente vasto e rappresentativo di testi scritti,
non solo "opere letterarie". Se il campione è ben scelto
(o "ben trovato") ci troverai dentro anche un certo
numero di ricette di cucina, che conterranno quasi
tutte quelle parole. Quindi sebbene la loro frequenza
in testi generici sia scarsa, sarà altissima nelle ricette
o in opere che parlano di cucina e alimentazione.
La mia ipotesi di fondo è che la quantità di testi
esistenti su questi argomenti moltiplicata per la
frequenza di uso di quelle parole in quei testi
corrisponda all'uso medio di quei termini nel
linguaggio comune. E' un'ipotesi ardita, ma non
del tutto campata in aria, e se pensi a termini
ancora più specifici dovrebbe risultare più intuitiva..
> Cecché ne dica AD l'analisi di testi scritti è fuorviante.
In generale probabilmente si (anzi, sicuramente data la
staticità dei testi scritti rispetto al linguaggio parlato),
ma per quello che chiedevo all'inizio andrebbe
più che bene...
A.D.
Tempo fa si parlò di un argomento simile su
it.cultura.linguistica.francese. Copio parte di un messaggio che mi sembra
utile qui.
-------------
[...] un paio di cose che potrebbero interessare:
Gougenheim, Georges, Michéa, R. Rivenc, Paul, Sauvageot, Aurélien,
L'élaboration du français fondamental (1er degré), Paris, Didier, 1967.
De Mauro, Tullio, Guida all'uso delle parole, Roma, Editori riuniti, 1982
[5 ed.].
Il primo costituisce la presentazione ufficiale di un importante lavoro
degli anni '60 che è servito alla realizzazione di un "Dictionnaire
fondamental de la langue française". Se ne trova una eco diretta anche in
"Français écrit, français parlé" di Aurélien Sauvageot. Credo che se ne
sia parlato molto. Ricordo un testo di Georges Matoré ["Histoire des
dictionnaires français"] che, fra altro, ha scritto un "Dictionnaire du
vocabulaire essentiel: les 5.000 mots fondamentaux", e un testo molto
critico di Marcel Cohen ["Français élémentaire? Non", Paris, Editions
sociales, 1955], che, pure lui, ha contribuito alla realizzazione di un
"Dictionnaire du français vivant".
Il secondo è un testo didattico che si rivolge a un pubblico di giovani e
che è legato alla creazione del "Lessico di frequenza dell'Italiano
Parlato".
[...]
In ogni caso vi si spiegano alcune delle marche d'uso che sono usate anche
nel "Dizionario della lingua italiana", che si può sempre consultare a:
http://old.demauroparavia.it/
A titolo di curiosità, allego una paginetta che copio da un programma
[elementare] di analisi lessicale fornito con la "Guida all'uso delle
parole".
" Sulla base del lavoro del Centro di Pisa è stata fatta una prima lista
delle parole italiane in ordine di uso decrescente. Le 5.000 parole di
maggiore uso sono state la prima fonte del nostro vocabolario di base.
Abbiamo verificato la reale comprensibilità di queste parole da parte di
ragazze e ragazzi di terza media e di adulti con non più che la licenza
media. Abbiamo scartato quelle non comprese dalla metà degli interrogati.
Così la rosa si è leggermente ristretta e abbiamo potuto isolare circa
4.750 parole. Tra queste vi sono 2.000 parole di maggiore uso. Esse
costituiscono il VOCABOLARIO FONDAMENTALE, cioè il nucleo più importante
all'interno del nostro vocabolario di base. Nel programma sono le parole
scritte in verde. Le parole scritte in colore blu sono le altre 2.750
circa del vocabolario di maggior uso, e costituiscono il VOCABOLARIO DI
ALTO USO. Vi sono poi circa 2.300 parole (in colore rosso nel programma),
come "abbagliante" o "zuppa", che costituiscono il VOCABOLARIO DI ALTA
DISPONIBILITÀ. Queste parole sono state isolate e controllate in vario
modo. Partendo dall'esame dei dizionari dell'italiano comune, si sono
isolate la parole di maggiore 'disponibilità'. Si tratta delle parole che
può accaderci di non dire né tantomeno di scrivere mai o quasi mai, ma
legate a oggetti, fatti, esperienze ben noti a tutte le persone adulte
nella vita quotidiana. Sono le parole che diciamo o scriviamo raramente,
ma che pensiamo con grande frequenza. Queste parole, come si è capito da
circa trent'anni, rischiano di restare fuori dalle liste di frequenza e di
uso. Per trovarle, per trovare le più importanti occorre servirsi di altre
vie. Se ci fosse una macchina ammazzacattivi, un registratore dei pensieri
che passano per la testa potremmo ricorrere alla registrazione di tutto
questo materiale ed esaminarlo. In questo caso la lista di frequenza di
parole ci darebbe le parole anche in ordine di disponibilità. Ma (per
fortuna!) il registratore dei pensieri non è stato inventato. Dunque
dobbiamo pazientemente interrogare gruppi diversi di parlanti per isolare
un po' alla volta il vocabolario di più alta disponibilità. Per l'italiano
questo lavoro è agli inizi. È parso importante offrirne i risultati più
sicuri.
--
questo articolo e` stato inviato via web dal servizio gratuito
http://www.newsland.it/news segnala gli abusi ad ab...@newsland.it
E' molto interessante, e ti ringrazio per i riferimenti,
però il problema di questi lavori (dal mio punto di vista)
è che gli elenchi non sono disponibili o facilmente
reperibili su file, quindi è relativamente difficile
usarli nei software...
> Se ci fosse una macchina ammazzacattivi, un registratore
> dei pensieri che passano per la testa potremmo ricorrere
> alla registrazione di tutto questo materiale ed esaminarlo.
> In questo caso la lista di frequenza di parole ci darebbe
> le parole anche in ordine di disponibilità. Ma (per
> fortuna!) il registratore dei pensieri non è stato inventato.
Beh, si potrebbe dire che adesso non è più vero! Direi
che i blog o le chat sono una buona approssimazione di
un "registratore di pensieri"! :-)
A.D.
Premesso che un operazione del genere non può avere dei risultati che
rispecchino totalmente la realtà d'uso visto che essa varia
immensamente al variare di fattori anche minimi, penso anche io che se
possa prendere ad esempio molte sezioni off topic di molti gruppi di
discussione in un buon intervallo di tempo se ne riuscirebbe a trarre
un dizionario essenziale piuttosto accurato.
Per curiosità, in un lemmario di questo tipo vanno inclusi anche i
termini grammaticali (tipo articoli, congiunzioni, ecc.)?
Intanto ringrazio tutti per i suggerimenti.
Alla fine sono riuscito a trovare qualcosa che si
avvicina molto a quello che cercavo: si tratta del
"Dizionario di base della lingua italiana" di De Mauro,
di cui nel sito dell'editore è possibile scaricare l'elenco
completo dei lemmi (previa registrazione):
http://www.paravia.it/scheda_opera.php?ID=764&complete=1
A.D.
Probabilmente arrivo in ritardo, ma se vuoi un elenco dei termini
statisticamente più usati lo puoi trovare nei file dizionario del T9
ovvero quelli usati per la scrittura predittiva in telefonini e
similari. Due le differenze rispetto a un dizionario di base: contiene
i nomi propri più frequenti e contiene verbi coniugati e sostantivi
declinati.