Nombre de token et de types

38 views
Skip to first unread message

Mélanie Mottin

unread,
Jan 13, 2022, 6:12:50 AM1/13/22
to Lexique
Bonjour,

Excusez-moi si la question a déjà été posée, mais je ne parviens pas à trouver la réponse dans les sujets existants.

Y a-t-il une possibilité de connaître le nombre total de verbes présent dans la base de données ainsi que le nombre de token pour des verbes en particulier?

Merci d'avance!

Cordialement,
Mélanie M.

Christophe Pallier

unread,
Jan 13, 2022, 6:30:58 AM1/13/22
to Mélanie Mottin, Lexique
On the online-interface,  if you enter 'VER' in the 'CGRAM' column , you will see   64,929 entries (filtered from 142,694 total entries). These are types counts.

But of course a given verb can appear in many different rows, with different inflections.
You probably want to extract all the VER and then compute the number of unique 'lemmes'
The token counts are in the 'freqfilms' and 'freqlivres' columns.


--
Christophe Pallier (http://www.pallier.org)
INSERM Cognitive Neuroimaging Lab (http://www.unicog.org)


--
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Lexique".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse lexiqueorg+...@googlegroups.com.
Cette discussion peut être lue sur le Web à l'adresse https://groups.google.com/d/msgid/lexiqueorg/15bf58a0-50e7-4a34-9cd6-cd3d1858dd4bn%40googlegroups.com.

Mélanie Mottin

unread,
Jan 13, 2022, 9:24:43 AM1/13/22
to Lexique
Ok thank you for your answer.

Now, for instance,  if I want to use the following function (van Heuven & al. 2014) : Zipf = log10 (frequency count+1/token count+types count)+3  

for, let's say, the verb "avoir" (infinitive), I'll have to take the value of the freqlemfilms/freqlemlivres column  for "avoir" for "frequency count"  and the total entries ( 142,694) for token count?

best,
Mélanie M.

Christophe Pallier

unread,
Jan 13, 2022, 10:40:38 AM1/13/22
to Mélanie Mottin, Lexique
No :
- the 142684 entries are TYPES (not tokens). (well, given the way lexique3 was created (we parsed the input syntactically), type = orthograph+syntactic category)
- freqlivres and freqfilms are already normalized per millions tokens.
--
Christophe Pallier (http://www.pallier.org)
INSERM Cognitive Neuroimaging Lab (http://www.unicog.org)

Mélanie Mottin

unread,
Jan 14, 2022, 4:00:15 AM1/14/22
to Lexique
Ok thank you!
Reply all
Reply to author
Forward
0 new messages