Concord Merge et offsets

22 views
Skip to first unread message

Gilles Vollant

unread,
Jun 9, 2015, 2:38:37 PM6/9/15
to unitex-...@googlegroups.com

 

 

Bonjour,

 

Je viens d’enrichir Concord pour pouvoir produire un fichier d’offsets en cas de merge.

Ainsi, un Concord en mode merge est considéré, comme Unxmlize, Normalize ou Fst2Txt comme un outils modifiant un fichier texte et produisant un fichier offset permettant de repérer les positions de ces modifications dans le fichiers d’origine.

 

 

Tokenize "--alphabet=.\src\Alphabet.txt" "Corpus\Corpus.snt"  --output_offsets=Corpus\Corpus_snt\offsetuima.txt --input_offsets=Corpus\Corpus_snt\offset_previous.txt

 

Locate  ".\src\French\Graphs\graph.fst2" "--text=Corpus\Corpus.snt" --replace "--alphabet=.\src\Alphabet.txt" --longest_matches --all

 

Concord "Corpus\Corpus_snt\concord.ind"  "--uima=Corpus\Corpus_snt\offsetuima.txt" "--merge=Corpus\Corpus.sntmerge" "--output_offsets=Corpus\Corpus_snt\offsetconcord.txt"

 

 

On ajoute à Tokenize le paramètre optionnel --input_offsets pour repasser les offsets issus Normalize (ou de Concord, si on chaine les executions), (au format "fichier d’offsets de différence", cf manuel section 14.13.10) et on lui fait fabriquer un fichier "offset uima" (section 14.13.12)

 

Concord, lors du merge, en lui passant --uima=<fichier offset uima fabriqué par Tokenize> --merge=XXX –output_offsets=YYY refabrique désormais un fichier d’offset de différence prenant en compte les modifications apportée par le merge .

Attention, il faut mettre le paramètre --merge= APRES --uima=

 

 

Merci de me tenir au courant de tout essai, qu’il soit couronné de succès ou non !

 

A bientôt

Gilles Vollant

Reply all
Reply to author
Forward
0 new messages