Lemmatisation sans dictionnaire morphologique

49 views
Skip to first unread message

JB

unread,
Nov 30, 2018, 5:52:29 AM11/30/18
to Unitex-GramLab
Bonjour,
Est-il possible de lemmatiser un texte sans devoir ajouter un dictionnaire morphologique ? J'aimerais lemmatiser tous les noms d'un texte à l'aides des métadonnées du dictionnaire DELA pour le français, mais il me semble que ce dictionnaire n'est pas accessible, donc ne peut pas être placé dans le répertoire des dictionnaires morphologiques.

L'idée du graphe est de récupérer les noms dans une variable $1$ et de les remplacer par le lemme qui leur est associé dans le dictionnaire dela, à l'aide du schéma : $1.LEMMA$
Si je met les chevrons violets autour de $1$, Unitex ne trouve aucun résultat et si je ne les met pas il trouve tous les noms du texte mais ne les lemmatise pas.

D'avance merci pour votre aide !



essaigraphlem.png

eric.laporte

unread,
Nov 30, 2018, 11:09:23 AM11/30/18
to Unitex-GramLab
Hi,
Yes, I made a test with version 3.2 alpha 82 and it works. Here are several details that may have gone wrong in your experiment:
  • Declare one or several morphological-mode dictionaries, for example dela-fr-public.bin which is distributed with Unitex. It needn't be in a particular directory: you just access Info > Preferences > Morphological-mode dictionaries and you add the file.
  • In the 'Locate Pattern' dialog box, check 'Replace recognized sequences', otherwise box outputs are ignored.
  • In the 'Located Sequences' dialog box, choose the 'Modify text' area and set the name of the lemmatized file.
  • After clicking GO, the lemmatized file does not display by itself, you have to open it with a text editor or with Unitex.
Best regards,
Eric Laporte

Jean-Baptiste Fiancette

unread,
Dec 5, 2018, 9:25:05 AM12/5/18
to eric.l...@univ-paris-est.fr, unitex-...@googlegroups.com
Bonjour, merci pour vos réponses. La difficulté résidait dans le fait que le dictionnaire dela-fr-public.bin et dela-fr-public.inf est un dictionnaire système et est caché, donc accessible seulement depuis la recherche dans l'ordinateur (j'ai essayé sur mac et ubuntu).
Par ailleurs, j'en profite pour vous poser une question supplémentaire : il m'est impossible de copier coller du texte depuis et vers Unitex sur un mac (dans l'éditeur de fichiers ou dans un graphe). Ce problème est-il déjà apparu chez d'autres personnes ?
Cordialement

--
You received this message because you are subscribed to the Google Groups "Unitex-GramLab" group.
To unsubscribe from this group and stop receiving emails from it, send an email to unitex-gramla...@googlegroups.com.
To post to this group, send email to unitex-...@googlegroups.com.
Visit this group at https://groups.google.com/group/unitex-gramlab.
To view this discussion on the web visit https://groups.google.com/d/msgid/unitex-gramlab/15af948e-518d-47bb-bafe-d38bc4db623d%40googlegroups.com.
For more options, visit https://groups.google.com/d/optout.

Oto Vale

unread,
Dec 5, 2018, 10:52:35 AM12/5/18
to Jean-Baptiste Fiancette, eric.l...@univ-paris-est.fr, unitex-...@googlegroups.com
Bonjour,

Pour les Mac il y a une particularité due à l'interface Java. Celle-ci ne semble pas reconnaître les combinaisons "traditionnelles" de la touche CMD des Macintosh.

On doit utiliser la touche CTRL pour toutes opérations:

Ctrl-C pour copier
Ctrl-X pour couper 
Ctrl-V pour coller
Ctrl-L pour Locate 
...

Cordialement 

Oto A.Vale 


For more options, visit https://groups.google.com/d/optout.
--
Oto Araujo Vale
Professor Associado
Universidade Federal de São Carlos
Rodovia Washington Luís, km 235 - SP-310
São Carlos - São Paulo - Brasil 
CEP 13565-905
Reply all
Reply to author
Forward
0 new messages