Fréquence

200 views
Skip to first unread message

magal...@ideal-formations.fr

unread,
Apr 28, 2019, 3:32:55 AM4/28/19
to Lexique
Bonjour,

Excusez-moi par avance pour cette question de néophyte... 
Sur le site précédent j'avais trouvé les informations suivantes sur la fréquence : <5 = très rares, <10 = rares >20 = fréquent >50 = très fréquents
Serait-il possible de retrouver des repères (certes grossiers) pour aider mon utilisation en tant que simple clinicienne (orthophoniste, j'utilise lexique.org pour contrôler au mieux les caractéristiques du matériel verbal proposé à mes patients en rééducation).

Cordialement,
Magali

Boris New

unread,
Apr 28, 2019, 5:36:00 AM4/28/19
to Lexique
C'est effectivement subjectif mais ce sont les critères que j'utilise effectivement...

Cordialement
 

Cordialement,
Magali

idealfor...@gmail.com

unread,
Apr 28, 2019, 5:43:43 AM4/28/19
to Lexique
Merci pour votre réponse, vous me confirmez donc  ces données? 
J'avais l'impression que l'échelle numérique avait changé dans la nouvelle version et dans un autre post j'ai lu le nombre de 100 PPM pour des mots fréquents.
N'étant pas linguiste, je doutais

Christophe Pallier

unread,
Apr 28, 2019, 6:46:36 AM4/28/19
to magal...@ideal-formations.fr, lexique.org
Oui, ce sont des valeurs raisonnables. Mais pour les basses fréquences (<10), vérifiez avec vos intuitions car la fiabilité n' est pas parfaite : elle dépend beaucoup du corpus.

--
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Lexique".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse lexiqueorg+...@googlegroups.com.
Pour envoyer un message à ce groupe, envoyez un e-mail à l'adresse lexiq...@googlegroups.com.
Cette discussion peut être lue sur le Web à l'adresse https://groups.google.com/d/msgid/lexiqueorg/445cdfa9-5ae4-4045-8ec5-87a5153885ba%40googlegroups.com.
Pour obtenir davantage d'options, consultez la page https://groups.google.com/d/optout.

Marie-...@hotmail.com

unread,
May 15, 2019, 7:21:34 PM5/15/19
to Lexique
Bonjour ! 
Je suis stagiaire en orthophonie et m'intéresse moi aussi à savoir quels sont les seuils pour considérer un mot comme étant "fréquent" ou "rare". Cependant, dans le cadre d'un travail, il me faudrait une source plus fiable qu'un forum pour justifier mes choix. Votre message m'aide déjà pas mal pour choisir mes items, mais je me demandais si quelqu'un connaissait un article ou un document qui reprend plus "officiellement" ces critères ? Merci d'avance,

Marie. 

Christophe Pallier

unread,
May 16, 2019, 1:31:44 AM5/16/19
to Marie-...@hotmail.com, lexique.org
Bonjour

Il faut bien réaliser que la fréquence étant une mesure continue, il n'existe a pas de catégories haute et basse fréquence en soi. 

C est un peu comme si on demandait des seuils de température pour distinguer des journées froides et des journées chaudes. On utiliserait notre intuition pour décider, mais il n'y a pas de critère "scientifique". 

En fait, dans un design expérimental, il vaut bien mieux traiter la fréquence comme une variable continue que comme une variable categorielle: ça augmente la puissance statistique, et ça évite de se poser la question des intervalles.


Si vous tenez absolument a créer des catégories,  et que vous ne voulez pas vous fier à votre intuition (ou aux nôtres) clvous pouvez effectivement examiner les seuils que les auteurs de ces expériences ont utilisé dans des expériences similaires a celle que vous voulez faire. Google scholar est votre ami pour trouver ces articles.

Une approche plus scientifique consisterait à examiner la distribution des fréquences (attention: elle suit une loi de puissance, donc ne ressemble pas du du tout a une gaussienne), et a calculer les déciles (tranches de 10% en 10%).

En fait, je vais ajouter ça sur lexique.org quand j' aurai le temps.











--
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Lexique".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse lexiqueorg+...@googlegroups.com.
Pour envoyer un message à ce groupe, envoyez un e-mail à l'adresse lexiq...@googlegroups.com.

Christophe Pallier

unread,
May 16, 2019, 8:38:35 AM5/16/19
to Lexique
Pour alimenter le débat, voici les distributions de freqlivres et freqfilms2 de Lexique382 dans les documents attachés.

Christophe

On Thursday, May 16, 2019 at 7:31:44 AM UTC+2, Christophe Pallier wrote:
Bonjour

Il faut bien réaliser que la fréquence étant une mesure continue, il n'existe a pas de catégories haute et basse fréquence en soi. 

C est un peu comme si on demandait des seuils de température pour distinguer des journées froides et des journées chaudes. On utiliserait notre intuition pour décider, mais il n'y a pas de critère "scientifique". 

En fait, dans un design expérimental, il vaut bien mieux traiter la fréquence comme une variable continue que comme une variable categorielle: ça augmente la puissance statistique, et ça évite de se poser la question des intervalles.


Si vous tenez absolument a créer des catégories,  et que vous ne voulez pas vous fier à votre intuition (ou aux nôtres) clvous pouvez effectivement examiner les seuils que les auteurs de ces expériences ont utilisé dans des expériences similaires a celle que vous voulez faire. Google scholar est votre ami pour trouver ces articles.

Une approche plus scientifique consisterait à examiner la distribution des fréquences (attention: elle suit une loi de puissance, donc ne ressemble pas du du tout a une gaussienne), et a calculer les déciles (tranches de 10% en 10%).

En fait, je vais ajouter ça sur lexique.org quand j' aurai le temps.











On Thu, May 16, 2019, 01:21 <Marie-...@hotmail.com> wrote:
Bonjour ! 
Je suis stagiaire en orthophonie et m'intéresse moi aussi à savoir quels sont les seuils pour considérer un mot comme étant "fréquent" ou "rare". Cependant, dans le cadre d'un travail, il me faudrait une source plus fiable qu'un forum pour justifier mes choix. Votre message m'aide déjà pas mal pour choisir mes items, mais je me demandais si quelqu'un connaissait un article ou un document qui reprend plus "officiellement" ces critères ? Merci d'avance,

Marie. 

Le dimanche 28 avril 2019 03:32:55 UTC-4, magal...@ideal-formations.fr a écrit :
Bonjour,

Excusez-moi par avance pour cette question de néophyte... 
Sur le site précédent j'avais trouvé les informations suivantes sur la fréquence : <5 = très rares, <10 = rares >20 = fréquent >50 = très fréquents
Serait-il possible de retrouver des repères (certes grossiers) pour aider mon utilisation en tant que simple clinicienne (orthophoniste, j'utilise lexique.org pour contrôler au mieux les caractéristiques du matériel verbal proposé à mes patients en rééducation).

Cordialement,
Magali

--
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Lexique".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse lexiqueorg+unsubscribe@googlegroups.com.
french-lexical-frequencies.html
french-lexical-frequencies.pdf

Boris New

unread,
May 16, 2019, 10:18:54 AM5/16/19
to Lexique

Voici les RT en fonction du log10 de la fréquence extrait de 

Keuleers, E., Diependaele, K., & Brysbaert, M. (2010). Practice effects in large-scale visual word recognition studies: A lexical decision study on 14,000 Dutch mono-and disyllabic words and nonwords. Frontiers in psychology1, 174.


On voit que les Temps de réaction (TR) évoluent d'une certaine façon jusqu'à 20-30. Puis d'une autre façon en dessous de 10. Cette évolution différente des TR pourrait montrer des traitements différents signe de traitements différents pour les mots de haute (>20-30) et de basse fréquence (<10). Ca peut être une façon de justifier les chiffres sur lesquels je m'appuie.

Pour info:

Log10(10) = 1

Log10(100) = 2



Cordialement


sbi...@gmail.com

unread,
May 16, 2019, 10:33:32 AM5/16/19
to Lexique
Bonjour,

Merci pour ces précisions et la discussion très intéressante.

J'ai parcouru le manuel et l'article sur le calcul des  fréquences (New et al 2007), mais je ne trouve pas sur quelle base exactement normaliser ces fréquences pour qu'elles soient "par millions de mots". Le corpus total fait 50,4M mots, mais comme la fréquence a été pondérée en fonction des 4 sous-corpus, je ne vois pas quel maximum utiliser (ou où trouver les valeurs absolues ?). L'article de 2007 laisse entendre qu'une moyenne a été faite, mais j'imagine qu'il s'agit d'une moyenne pondérée ? En tout cas 12,6M (= moyenne de mots des 4 corpus) donne des fréquences absolues très inférieures à 1 (qui donnent du coup des valeurs négatives si transformées en "Zipf scale" comme proposé dans van Heuven, Mandera, Keuleers & Brysbaert, 2014, ce qui ne devrait être le cas que pour des corpus >1 milliard de mots). 

Bien cordialement,

Serge Bibauw

Christophe Pallier

unread,
May 16, 2019, 11:10:25 AM5/16/19
to Serge Bibauw, lexique.org
Vous pouvez 'tricher' en sommant les fréquences et en applicant ensuite le coefficient multiplicateur nécessaire pour que la somme fasse 1 million. Ainsi, ensuite vous pourrez 'pretendre' avoir des fréquences par million.

C est ok du moment qu'on ne cherche pas une estimation 'absolue' précise.



Pour les fréquences de livres fournies dans lexique3, les nombres d' occurrences bruts dans le corpus initial sont disponibles dans la table Frantext listée dans la liste de bases openlexicon (mais pas encore dans l' appli en ligne)

Dans une version future de lexique, je pense qu'on devrait fournir les nombres d' occurrences bruts non normalisés, le log10 freq "a là zipf", et le percentile (rang dans la distribution), pour chaque type de fréquence estimée.






sbi...@gmail.com

unread,
May 16, 2019, 11:14:39 AM5/16/19
to Lexique
Merci beaucoup ! Effectivement, ça me paraitrait intéressant de donner les occurrences brutes... et/ou avec une simple normalisation comme "par million de mots".

Christophe Pallier

unread,
May 16, 2019, 11:31:14 AM5/16/19
to Serge Bibauw, lexique.org
Pour freqlivres, la normalisation est bien par million de mot.



On Thu, May 16, 2019, 17:14 <sbi...@gmail.com> wrote:
Merci beaucoup ! Effectivement, ça me paraitrait intéressant de donner les occurrences brutes... et/ou avec une simple normalisation comme "par million de mots".

--
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Lexique".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse lexiqueorg+...@googlegroups.com.

Pour envoyer un message à ce groupe, envoyez un e-mail à l'adresse lexiq...@googlegroups.com.

romane....@gmail.com

unread,
Jul 12, 2019, 1:47:20 PM7/12/19
to Lexique
 Bonjour Marie, 

Je suis dans la même situation que toi, aurais-tu trouver comment justifier tes fréquences lexicales de façon plus scientifique ? 

Bonne soirée ! 
Romane

Christophe Pallier

unread,
Jul 12, 2019, 3:19:03 PM7/12/19
to romane....@gmail.com, lexique.org
Essayez donc de définir petit, moyen, grand, pour la taille des gens, " de façon plus scientifique". 

--
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Lexique".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse lexiqueorg+...@googlegroups.com.
Pour envoyer un message à ce groupe, envoyez un e-mail à l'adresse lexiq...@googlegroups.com.
Reply all
Reply to author
Forward
0 new messages