Elastic Search et indexation > 32766

58 views
Skip to first unread message

Fabien S

unread,
Sep 11, 2019, 4:23:40 AM9/11/19
to phrasea-install-fr
Bonjour,

Nous rencontrons un pb lors de nos tests au moment d'uploader des PDF volumineux : l'indexation part en erreur (Exceptions java), ce qui est visible dans les logs elasticsearch :
java.lang.IllegalArgumentException: Document contains at least one immense term in field="caption_all.raw" (whose UTF8 encoding is longer than the max length 32766), all of which were skipped.

Par ailleurs, lorsque l'indexation ElasticSearch plante de cette manière, le document semble dans un état intermédiaire : il n'est pas visible côté front, et n'est plus "uploadable" car un hash identique existe dans la table Record.

Visiblement, cette limite serait du côté de Lucène.
Le champ en question semble être le contenu texte du PDF (caption_all.raw).

De quelle manière pourrait-on contourner ce problème ?
En segmentant ce champ (comment l'indiquer dans phraseanet ?), en indiquant une limite type "ignore_above" (où l'indiquer ?) voire en n'indexant pas (au pire) ce contenu en solution dégradée pour permettre malgré tout l'upload / l'accès du fichier ?

Merci par avance pour vos retours,
Fabien
Reply all
Reply to author
Forward
0 new messages