Re: TDL à discuter tout à l'heure

7 views
Skip to first unread message

SYLVAIN COULANGE

unread,
May 12, 2020, 4:33:26 AM5/12/20
to Apprentissage des Langues Et Multimodalité, ALEM, Emilie Magnat, yoanngoudin, Alexandre DO
Salut ! Je réponds sur le forum.
Essaie d'être plus précis quand tu rapportes un bug : plusieurs fois → ça marche des fois ?
Quel est le problème exactement ? Sur Wikicolor j'imagine ?

En faisant rapidement quelques tests j'obtiens ça :
est -ce que tu y vas ? est -ce un chat ? qu’ est -ce que c’ est ?

Il semblerait que ce soit comme "d'aujourd'hui", c'est la segmentation en mots qui semble poser problème.
Il segmente "est / -ce" parce que pour lui il s'agit de deux mots.
Or dans le dictionnaire on a beaucoup de collocations (ex. "qu'est-ce que" ou "citron vert"). Mais aucune ne servent, puisque le tokéniseur (segmenteur de mots) fait son boulot en amont et sort "qu' / est / -ce / que" ou "citron / vert". Et ensuite l'aligneur phonographémique prend ces mot un par un. Vous voyez pourquoi c'est pas évident de gérer les liaisons.

On pourrait utiliser autre chose pour segmenter en mots, mais on aura jamais "citron vert", parce qu'ici c'est la définition même de "mot" qui pose problème (comme l'éternel problème de "pomme de terre") : est-ce qu'on a ici 1 ou 2 mots ?
Bien sûr, il ne s'agit pas de se contenter de segmenter sur les espaces (m'a, peut-être, peut-il, aujourd'hui, d'ores et déjà...).

Une solution pourrait être de prendre la plus longue entrée du dictionnaire qui correspond : si il y a "citron vert" il prend tout, pour "citron rouge", il s'arrête à citron, puis il prend rouge ensuite. Je vais voir comment on peut améliorer tout ça sans trop ralentir la machine.

sylvain



De: "Alexandre DO" <do.alex...@gmail.com>
À: "SYLVAIN COULANGE" <sylvain....@univ-grenoble-alpes.fr>
Cc: "Emilie Magnat" <emilie...@univ-lyon2.fr>, "yoanngoudin" <yoann...@yahoo.fr>
Envoyé: Mardi 12 Mai 2020 00:40:50
Objet: Re: TDL à discuter tout à l'heure

Sylvain, 
J'ai vu plusieurs fois un problème pour coloriser "est-ce....".
D'ailleurs, cette entrée n'existe pas seule.

Bonne nuit


Alexandre DO

unread,
May 12, 2020, 6:23:55 AM5/12/20
to Apprentissage des Langues Et Multimodalité (ALEM)
Bonjpur Sylvain,

c'est sûr que c'était pas clair. J'avais commencé le brouillon à 14h et je l'ai envoyé à minuit passé, coincé qu'il était entre plusieurs réponses. Du coup, j'ai tout envoyé sans vérifier.


Le mardi 12 mai 2020 10:33:26 UTC+2, SYLVAIN COULANGE a écrit :
Salut ! Je réponds sur le forum.
Essaie d'être plus précis quand tu rapportes un bug : plusieurs fois → ça marche des fois ?
Quel est le problème exactement ? Sur Wikicolor j'imagine ?

En faisant rapidement quelques tests j'obtiens ça :
est -ce que tu y vas ? est -ce un chat ? qu’ est -ce que c’ est ?

Il semblerait que ce soit comme "d'aujourd'hui", c'est la segmentation en mots qui semble poser problème.
Il segmente "est / -ce" parce que pour lui il s'agit de deux mots.
Or dans le dictionnaire on a beaucoup de collocations (ex. "qu'est-ce que" ou "citron vert"). Mais aucune ne servent, puisque le tokéniseur (segmenteur de mots) fait son boulot en amont et sort "qu' / est / -ce / que" ou "citron / vert". Et ensuite l'aligneur phonographémique prend ces mot un par un. Vous voyez pourquoi c'est pas évident de gérer les liaisons.

On pourrait utiliser autre chose pour segmenter en mots, mais on aura jamais "citron vert", parce qu'ici c'est la définition même de "mot" qui pose problème (comme l'éternel problème de "pomme de terre") : est-ce qu'on a ici 1 ou 2 mots ?
Bien sûr, il ne s'agit pas de se contenter de segmenter sur les espaces (m'a, peut-être, peut-il, aujourd'hui, d'ores et déjà...).

Une solution pourrait être de prendre la plus longue entrée du dictionnaire qui correspond : si il y a "citron vert" il prend tout, pour "citron rouge", il s'arrête à citron, puis il prend rouge ensuite. Je vais voir comment on peut améliorer tout ça sans trop ralentir la machine.

sylvain




Reply all
Reply to author
Forward
0 new messages