Résoudre le problème d'agglutination pour la langue arabe

218 views
Skip to first unread message

ammar chihebeddine

unread,
Apr 19, 2015, 11:44:44 AM4/19/15
to unitex-...@googlegroups.com
Bonjour,

La langue arabe est une langue fortement agglutinante du fait que les clitiques se collent aux substantifs, verbes, adjectifs auxquels ils se rapportent. De ce fait,  nous trouvons des particules qui se collent aux radicaux en empêchant leurs détections, comme par exemple le mot «وبلعبه» / « et + par + jeu + sa »  avec « و /et » indique une conjonction,  «ب/par » présente une préposition, «لعب/ jeu» est un nom et   «ه/ sa » désigne un pronom personnel. Ce qui rend son analyse automatique une tâche pénible à réaliser. 
D’ailleurs, contrairement aux langues romaines, son analyse ne nécessite pas seulement la vérification de l’appartenance de chaque mot du texte au  dictionnaire et à la liste de formes fléchies et dérivées qui en découle mais aussi de donner tous les découpages potentiels en morphèmes. 

Je voudrai créer un transducteur (éventuellement de prétraitement) qui détecte et résout (en annotant les lettres agglutinantes postérieures et antérieures)  le problème d'agglutination pour la langue arabe.

Le principe de ce transducteur est de tester si le mot commence par ب bi, ف fa, ك ka, ل  li, و wa. Si c’est le cas, alors on parcourt le reste du mot. Si la catégorie grammaticale du reste du mot est un nom ou un adjectif alors la sortie de cette grammaire sera l’annotation du premier alphabet composant le mot concerné par sa catégorie grammaticale correspondante : CONJ pour conjonction, PREP pour préposition et ARTDEF pour l’outil de détermination.  
Pareils pour l'agglutination antérieure.

J'ai remarqué que dans UNITEX, contrairement à NOOJ, le transducteur ne marque pas un état pour le premier caractère du mot, c-à-d, si je mets le premier caractère dans une boite et le reste de caractères dans une autre, alors il ne fait rien!!

J'ai essayé plusieurs solutions mais en vain.. j'ai essayé avec les graphes de flexion (3.5.2 dans le manuel) mais apparemment ça ne marche que sur les dictionnaires.. j'ai essayé avec le "#" pour éliminer les espaces...pareil.....
Est ce que quelqu'un as une solution ou conseil pour résoudre ce problème?

Merci par avance,
Cordialement,
Chihebeddine Ammar
---------------------------------------------------------------------------------
Ph.D. Computer Science Student

MIRACL Laboratory

Faculty of Economics and Management of Sfax

Faculty of Sciences of Sfax

Higher Institute of Computer Science and Mulimedia of Sfax
---------------------------------------------------------------------------------

eric.laporte

unread,
Sep 22, 2015, 8:57:46 AM9/22/15
to Unitex-GramLab
Bonjour,

Unitex a une fonctionnalité faite justement pour les langues dans lesquelles beaucoup de mots ou morphèmes ne sont pas séparés graphiquement : ce sont les graphes-dictionnaires morphologiques (manuel, section 3.7.4). Cette fonctionnalité a été testée avec succès pour l'arabe par Alexis Neme (cf. son annonce du 15 février 2014 sur ce forum) : les résultats de l'analyse sont distribués avec Unitex dans le corpus Fishing-Earthquakes-Water.
Amicalement,

Eric Laporte

Reply all
Reply to author
Forward
0 new messages