Bonjour,
La fonctionnalité Offset introduite dans Unitex 3.0 est très peu utilisée, sans doute insuffisamment documentée et qui, pourtant, pourrait être très utile.
Les outils Tokenize, Locate, Concord , Normalize, Fst2Txt d’Unitex permettent de créer des fichiers de correspondance d’offset.
Il s'agit de suivre les différentes transformations à travers toutes les étapes
de façon à pouvoir calculer des retours au texte initial
donc pouvoir dire qu'un match x,y dans le SNT ça correspond à la zone a,b dans le texte initial
Pour l’utiliser, on appelle de Nomalize avec --output_offsets pour créer un premier fichier d’offset
Puis appels successif de Fst2Txt, puis Tokenize, en enchainant les fichiers offset : chaque utilitaire crée son fichier d’offset, et le fichiers créer par l’outil précédent (spécifié dans --output_offsets) est réinjecté dans l’outils suivant (avec --input_offset)
Voici les explication de Sébastien Paumier sur ce fichier :
Les fichiers d'offsets sont constituées de lignes contenant 4 entiers A B C D. Chaque ligne correspond à une modification du texte, exprimée de la façon suivante:
l'intervalle [A;B[ du texte avant tout traitement correspond à l'intervalle [C;D[ après traitement, A, B, C et D étant des positions en caractères dans les fichiers textes.
Par exemple, si on applique le programme Normalize sur le texte "Hello world" (avec deux espaces entre les deux mots), on aura une ligne comme
ceci:
5 7 5 6
signifiant qu'une séquence de deux caractères (les 2 espaces) a été remplacée par une séquence d'un seul caractère.
Le principe est donc de produire un nouveau fichier d'offsets pour chaque application de programme modifiant le texte, en prenant en entrée le fichier d'offsets produit par le programme précédent. Ainsi, en regardant le dernier fichier d'offsets produit, on sait que pour chaque ligne A B C D, l'intervalle [C;D[ dans le fichier .snt correspond à l'intervalle [A;B[ dans le fichier .txt de départ.
Je trouve qu’il serait bien d’introduire une explication plus claire de cette fonctionnalité dans le manuel Unitex, et que les participants de la mailing list qui le peuvent mettent en œuvre cette fonctionnalité et partagent ici leur retour d’expérience.
A bientôt
Gilles Vollant