Bonjour,
Je travaille actuellement avec Unitex 3.1 sur de la reconnaissance et extraction d'entités spatiales depuis un mois et demi, et voila que je bloque.
Voici mon problème : je fais de l'extraction d'entités dans le but de créer un graphe de connaissance, or il se trouve qu'il y a plusieurs fois les mêmes occurrences d'entité dans le texte ce qui fait planter la création de mon graphe rdf.
Ce que j'aimerai, c'est que lorsque je reconnais une entité, je lui affecte un nombre unique entre des balises <id>.
J'ai remarqué que lors de la tokenisation du texte (pendant le preprocess), unitex crée un fichier "tokenize.out.offsets" dans le dossier snt sur lequel, pour chaque token, on a 3 nombres. Si j'ai bien compris, ces 3 nombres sont le numéro du token, sa position de début dans le texte et sa position de fin. Serait-il possible donc que lorsqu'une grammaire reconnaît un token, je puisse écrire en sorti sa position dans le texte (qui deviendrait son id) ? Ou à défaut créer une variable compteur ?
Je vous mets un exemple pour que se soit plus parlant :
« Aubière, à laquelle sera réuni Pérignat. Il y aura à Pérignat un oratoire. »
résultat voulu :
<esn><id>345</id>Aubière</esn>, à laquelle sera réuni <esn><id>376</id>Pérignat</esn>. Il y aura à <esn><id>411</id>Pérignat</esn> un oratoire
Merci d'avance pour votre aide,
Antoine