Re: Concord.ind, concord.offsets, positions dans le texte original et mots composés

106 views
Skip to first unread message
Message has been deleted

eric.laporte

unread,
May 18, 2017, 4:27:50 AM5/18/17
to Unitex-GramLab
Hi,
Offsets like 0.0.0 4.5.0 in concord.ind occur also in the form @0.0.0-4.5.0 in text.tfst, and they are described in the manual, section 14.5.1., under @a.b.c-x.y.z. Hope this helps.
Best,
Eric Laporte


Gilles Vollant

unread,
May 18, 2017, 8:58:22 AM5/18/17
to Unitex-GramLab
Donnez nous l'ensemble des commandes appelée pour le traitement.

Lisez aussi UnitexLibAndJni/UnitexJniDemo.java

On utilise l'outils concord pour lire le conconrd.ind et avoir une version avec les offset lisible

Le mercredi 17 mai 2017 02:11:17 UTC+2, Stella Zevio a écrit :
Bonjour,

J'ai une question concernant la réconciliation des positions de match données dans le fichier concord.offsets et des match donnés dans le fichier concord.ind.
Comment retrouver les positions de match dans le texte original pour les mots composés dans le concord.ind ?


Voici l'exemple qui ne fonctionne pas (fichiers concord.ind et concord.offsets joints).

Le texte est : "cancer du rectum sai"

Et voici ma méthode pour réconcilier les positions de match :
- J'itère sur les match trouvés dans concord.ind
- J'itère sur les positions A B dans concord.offsets (positions dans le texte original)
- Si l'un des ID du mot dans concord.ind est différent des ID précédents, je passe à la position suivante dans concord.offsets


termID from to term lineID
-8310922913896777417 0 6 cancer 1

-7786143066220798086 0 6 cancer 1

6922496444877256695 0 6 cancer 1

-7786143066220798086 0 6 cancer 1

1594337135076683083 7 9 du 1

-2338339785243132358 7 9 du 1

-4454175685498229259 7 9 du 1

235403431773756686 7 9 du 1

5551697063349540978 7 9 du 1

-5306134730382258828 7 9 du 1

391554790895645142 7 9 du 1

1078567423265359515 7 9 du 1

-6314445134243994414 7 9 du 1

2998185714986388907 7 9 du 1

24964792180944916 7 9 du 1

3060221448903768654 10 16 cancer du rectum 1

-5550434980473380055 10 16 cancer du rectum 1

-2317174096351890937 10 16 cancer du rectum 1

4695142649738281102 10 16 rectum 1

344934841869736741 10 16 rectum 1

3060221448903768654 17 20 cancer du rectum 1

6933238188653628273 17 20 cancer du rectum sai 1

-6956188436807987100 17 20 rectum sai 1

-4883830636129614437 17 20 sai 1

Il me manque clairement des étapes.
Comment procéder ?

Merci à vous,

Stella

Stella Zevio

unread,
May 19, 2017, 11:59:39 AM5/19/17
to Unitex-GramLab
Bonjour,

Merci pour votre réponse.
J’ai parcouru la doc et l’exemple JNI.
Voici le lien vers la classe de mon programme qui réalise les appels à UnitexToolLogger : https://github.com/zevio/recognizer/blob/master/src/Unitex.cpp 
La méthode locatePattern en particulier gère l’appel au Concord.

Quel serait le moyen d’améliorer mon appel à Concord pour obtenir directement un fichier clair reliant annotations présentes dans le concord.ind et positions originales dans le texte ?

Bien à vous,

Gilles Vollant

unread,
May 20, 2017, 3:19:52 AM5/20/17
to Stella Zevio, Unitex-GramLab

De mémoire

Concord.ind est produit par locate

 

L’outils concord produit concord.txt à partir de concord.ind en mettant les bonnes infos d’offset

 

Nous pouvons nous telephoner 0680109192

 

De : unitex-...@googlegroups.com [mailto:unitex-...@googlegroups.com] De la part de Stella Zevio
Envoyé : vendredi 19 mai 2017 18:00
À : Unitex-GramLab
Objet : [Unitex-GramLab] Re: Concord.ind, concord.offsets, positions dans le texte original et mots composés

--  

Stella Zevio

unread,
May 22, 2017, 6:57:13 AM5/22/17
to Unitex-GramLab, stell...@gmail.com
Effectivement, j'ai réussi à obtenir le bon format de sortie en mode texte, et avec l'option --uima.
Merci à vous pour votre aide.
Reply all
Reply to author
Forward
0 new messages