Concord Merge et offsets

24 views

announcementoffsets

Skip to first unread message

Gilles Vollant

unread,

Jun 9, 2015, 2:38:37 PM6/9/15

to unitex-...@googlegroups.com

Bonjour,

Je viens d’enrichir Concord pour pouvoir produire un fichier d’offsets en cas de merge.

Ainsi, un Concord en mode merge est considéré, comme Unxmlize, Normalize ou Fst2Txt comme un outils modifiant un fichier texte et produisant un fichier offset permettant de repérer les positions de ces modifications dans le fichiers d’origine.

Tokenize "--alphabet=.\src\Alphabet.txt" "Corpus\Corpus.snt" --output_offsets=Corpus\Corpus_snt\offsetuima.txt --input_offsets=Corpus\Corpus_snt\offset_previous.txt

Locate ".\src\French\Graphs\graph.fst2" "--text=Corpus\Corpus.snt" --replace "--alphabet=.\src\Alphabet.txt" --longest_matches --all

Concord "Corpus\Corpus_snt\concord.ind" "--uima=Corpus\Corpus_snt\offsetuima.txt" "--merge=Corpus\Corpus.sntmerge" "--output_offsets=Corpus\Corpus_snt\offsetconcord.txt"

On ajoute à Tokenize le paramètre optionnel --input_offsets pour repasser les offsets issus Normalize (ou de Concord, si on chaine les executions), (au format "fichier d’offsets de différence", cf manuel section 14.13.10) et on lui fait fabriquer un fichier "offset uima" (section 14.13.12)

Concord, lors du merge, en lui passant --uima=<fichier offset uima fabriqué par Tokenize> --merge=XXX –output_offsets=YYY refabrique désormais un fichier d’offset de différence prenant en compte les modifications apportée par le merge .

Attention, il faut mettre le paramètre --merge= APRES --uima=

Merci de me tenir au courant de tout essai, qu’il soit couronné de succès ou non !

A bientôt

Gilles Vollant

Reply all

Reply to author

Forward

0 new messages