Syllabation orthographique de ~50,000 mots additionnels

36 views
Skip to first unread message

Jean-François St-Pierre

unread,
Sep 30, 2024, 7:25:49 PM9/30/24
to Lexique
Bonjour,

J'ai publié aujourd'hui le code et les résultats d'un algorithme qui a pour but de corriger la syllabation orthographique d'environ 50,000 mots du Lexique 383 qui n'ont pas présentement le même nombre de syllables phonologiques qu'orthographiques dans le lexique. Par exemple :

ortho : ayons   
phono : Ej§
cv-cv : V-YV
syll : E-j§
orthosyll : ayons  ?erreur

Mon code produit la syllabation suivant : 
orthosyll_cv : ay|ons

J'utilise le "|" pour séparer les syllables et "_" pour les groupes de lettres formant un phonème dans le but d'éviter les conflits avec les mots contenant des traits d'union ou des points.  Le choix de mettre la semi-voyelle "y" du côté du "a" pour former /E/ vient de mes autres besoins. Tout cela peut se changer facilement, le code générant les formes syllabées se trouve ici :


J'ai produit un lexique aussi pour mes besoins et vous trouverez les formes syllabées à la colonne orthosyll_cv 


Le fonctionnement de l'algorithme est assez simple : Il se base sur l'association graphème-phonème du LexiqueInfra. Je n'ai donc des suggestions à offrir que pour les mots qui se trouvent aussi au LexiqueInfra qui en contient ~6000 de moins que le Lexique383.  J'ai aussi rencontré des problèmes avec une poignée de mots étrangers ou erronés dans le Lexique383, ils sont explicitement listé au début du fichier lexique.py.  

Là où il y a conflits entre ne nombre de phonèmes du Lexique 383 versus LexiqueInfra, ou encore des phonèmes qui semble se partager entre deux syllables, j'applique des corrections. 

Par exemple, les mots contenants un "x" dans Lexique383 ont souvent le phonème "k" assigné à la première syllable et le phonème "s" assigné à la deuxième syllable. Je dois donc regrouper les phonèmes "ks" pour les associer au "x" que j'ai choisi de mettre dans la 2ième syllable  :
affixé a-fik-se V-CVC-CV du Lexique383 devient : a|ff_i|x_é

mais :
accepter ak-sEp-te  lui restera : a_c|c_e_p|t_er

Finalement, j'ai trouvé 3 erreurs dans Lexique383 pour les mots ""insolent" et "violent" (forme nom, manque le phonème "@" à la fin) et le mot "boxers" qui aurait la phonolgie "bOks9R" au pluriel et "bOksER" au singulier, ce qui me semble être erroné.

(Il y a aussi 43 erreurs au LexiqueInfra que j'ai communiqué directement aux auteurs de l'article. Je n'ai pas eu d'accusé de réception, alors pour les intéressés, vous pouvez voir les 43 corrections que j'ai apporté au LexiqueInfra dans le "commit" suivant :


Je reste disponible si vous aimeriez avoir mes suggestions dans un format différent.

Cordialement,

JF

Christophe Pallier

unread,
Oct 6, 2024, 11:07:22 AM10/6/24
to Jean-François St-Pierre, Lexique
Bravo et Félicitations.

L'algorithme que j'avais implémenté pour la segmentation
"orthographique" utilisait l'algorithme de césure de LaTeX dont
j'avais modifié les patrons français.
Je n'avais jamais eu le temps de bien vérifier tous les cas et je sais
qu'il restait des bugs (sans parler des cas debattables) . Et je ne
suis pas sûr que ce découpage orthographique a jamais servi a
quelqu'un, n'ayant eu aucun retour.

Il est important de souligner que la syllabation phonetique et le
decoupage orthographique par césure ne correpondent pas forcement
(djéà pour les consonnes doubles: bal-la-de): .
Pour la syllabation phonétique, j'avais pris la décisison que les
schwas finaux ne comptaient pas donc un mot comme "arbre" est un
mono-syllabe phonetiquement dans lexique (et tout mes choix cela sont
discutables, c'est pourquoi je fourni les algorithmes sur
https://github.com/chrplr/openlexicon: afin que les gens puissent les
adapter à leurs besoins).

Dans une version future de Lexique, nous reverrons ce champ
ortho-syll, peut-être avec votre algo.
--
Christophe Pallier
Directeur de Recherche CNRS
EMR CNRS 9003 & INSERM-CEA Cognitive Neuroimaging Lab U992
(http://www.unicog.org)
Neurospin, CEA/SAC/DRF/Joliot, Point Courrier 156
91191 Gif-sur-Yvette Cedex
> --
> Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Lexique".
> Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse lexiqueorg+...@googlegroups.com.
> Cette discussion peut être lue sur le Web à l'adresse https://groups.google.com/d/msgid/lexiqueorg/cb5eb81a-0541-4d3e-97bc-895b61c5eb8cn%40googlegroups.com.
Reply all
Reply to author
Forward
0 new messages