Bonjour,
Je viens d’enrichir Concord pour pouvoir produire un fichier d’offsets en cas de merge.
Ainsi, un Concord en mode merge est considéré, comme Unxmlize, Normalize ou Fst2Txt comme un outils modifiant un fichier texte et produisant un fichier offset permettant de repérer les positions de ces modifications dans le fichiers d’origine.
Tokenize "--alphabet=.\src\Alphabet.txt" "Corpus\Corpus.snt" --output_offsets=Corpus\Corpus_snt\offsetuima.txt --input_offsets=Corpus\Corpus_snt\offset_previous.txt
Locate ".\src\French\Graphs\graph.fst2" "--text=Corpus\Corpus.snt" --replace "--alphabet=.\src\Alphabet.txt" --longest_matches --all
Concord "Corpus\Corpus_snt\concord.ind" "--uima=Corpus\Corpus_snt\offsetuima.txt" "--merge=Corpus\Corpus.sntmerge" "--output_offsets=Corpus\Corpus_snt\offsetconcord.txt"
On ajoute à Tokenize le paramètre optionnel --input_offsets pour repasser les offsets issus Normalize (ou de Concord, si on chaine les executions), (au format "fichier d’offsets de différence", cf manuel section 14.13.10) et on lui fait fabriquer un fichier "offset uima" (section 14.13.12)
Concord, lors du merge, en lui passant --uima=<fichier offset uima fabriqué par Tokenize> --merge=XXX –output_offsets=YYY refabrique désormais un fichier d’offset de différence prenant en compte les modifications apportée par le merge .
Attention, il faut mettre le paramètre --merge= APRES --uima=
Merci de me tenir au courant de tout essai, qu’il soit couronné de succès ou non !
A bientôt
Gilles Vollant