Statistiques

42 views
Skip to first unread message

yannhardy1

unread,
Nov 22, 2021, 4:52:42 PM11/22/21
to Lexique
Bonjour, j'aimerai savoir s'il est possible d'avoir des statistiques sur les fréquences de lettres en fonction de leurs positions dans les mots??
par exemple:
sur l;ensemble des mots d'un dictionnaire la lettre "a" apparait a "X"% en premiere position,à "Y"% en deuxieme, troisieme et derniere position.
Merci d'avance de vos reponses.
cordialement yann HARDY

Christophe Pallier

unread,
Nov 23, 2021, 6:51:24 AM11/23/21
to yannhardy1, Lexique
Bonjour,

Voici un fichier (freqlettres.txt) qui contient les fréquences d'apparition des lettres par position (pondérées par la proba d'apparition des mots à l'écrit).
  - Première colonne: fréquence cumulée;
  -  Deuxième colonne: lettre,
  - Troisième colonne: position sequentielle dans le mot.

Ces nombres sont obtenus, à partir des colonnes `ortho` et `freqlivres` de la table `Lexique383.tsv`, avec le script `freq_bypos.sh` joint (mac ou linux).

Si par exemple vous voulez savoir la distribution de probabilité des lettres par position, il vous faut trier par position, et normaliser par la somme des fréquences.


--
Christophe Pallier (http://www.pallier.org)
INSERM Cognitive Neuroimaging Lab (http://www.unicog.org)


--
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Lexique".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse lexiqueorg+...@googlegroups.com.
Cette discussion peut être lue sur le Web à l'adresse https://groups.google.com/d/msgid/lexiqueorg/71db9f4a-e29f-4e7c-9331-0ea044d86b2fn%40googlegroups.com.
freqlettres.txt
freq_bypos.sh
Reply all
Reply to author
Forward
0 new messages