fonctionnalité offset d'Unitex

52 views
Skip to first unread message

Gilles Vollant

unread,
Feb 4, 2015, 4:28:52 AM2/4/15
to unitex-...@googlegroups.com

Bonjour,

La fonctionnalité Offset introduite dans Unitex 3.0 est très peu utilisée, sans doute insuffisamment documentée et qui, pourtant, pourrait être très utile.

 

Les outils Tokenize, Locate, Concord , Normalize, Fst2Txt d’Unitex permettent de créer des fichiers de correspondance d’offset.

 

Il s'agit de suivre les différentes transformations à travers toutes les étapes

de façon à pouvoir calculer des retours au texte initial

donc pouvoir dire qu'un match x,y dans le SNT ça correspond à la zone a,b dans le texte initial

 

Pour l’utiliser, on appelle de Nomalize avec --output_offsets pour créer un premier fichier d’offset

 

Puis appels successif de Fst2Txt, puis Tokenize, en enchainant les fichiers offset : chaque utilitaire crée son fichier d’offset, et le fichiers créer par l’outil précédent (spécifié dans --output_offsets) est réinjecté dans l’outils suivant (avec --input_offset)

 

Voici les explication de Sébastien Paumier sur ce fichier :

Les fichiers d'offsets sont constituées de lignes contenant 4 entiers A B C D. Chaque ligne correspond à une modification du texte, exprimée de la façon suivante:

 

l'intervalle [A;B[ du texte  avant tout traitement  correspond à l'intervalle [C;D[ après traitement, A, B, C et D étant des positions en caractères dans les fichiers textes.

 

Par exemple, si on applique le programme Normalize sur le texte "Hello world" (avec deux espaces entre les deux mots), on aura une ligne comme

ceci:

 

5 7 5 6

 

signifiant qu'une séquence de deux caractères (les 2 espaces) a été remplacée par une séquence d'un seul caractère.

 

Le principe est donc de produire un nouveau fichier d'offsets pour chaque application de programme modifiant le texte, en prenant en entrée le fichier d'offsets produit par le programme précédent. Ainsi, en regardant le dernier fichier d'offsets produit, on sait que pour chaque ligne A B C D, l'intervalle [C;D[ dans le fichier .snt correspond à l'intervalle [A;B[ dans le fichier .txt de départ.

 

 

Je trouve qu’il serait bien d’introduire une explication plus claire de cette fonctionnalité dans le manuel Unitex, et que les participants de la mailing list qui le peuvent mettent en œuvre cette fonctionnalité et partagent ici leur retour d’expérience.

 

A bientôt

Gilles Vollant

Reply all
Reply to author
Forward
0 new messages