Versionning vs taille de l'index

42 views
Skip to first unread message

Antoine

unread,
Apr 26, 2012, 3:27:30 PM4/26/12
to Elasticsearch FR
Bonjour à toute la communauté francophone d’ElasticSearch,

Bon allé, je me lance pour une première question sur cette liste de
diffusion !!

Voici le contexte : j’aimerais utiliser la fonctionnalité de
versionning pour gérer la concurrence d’accès avec approche
optimiste : http://www.elasticsearch.org/guide/reference/api/index_.html
Fonctionnellement, je n’ai pas besoin d’accéder aux versions plus
anciennes d’un document indexé. Qui plus est, pour des problématiques
de performance, j’aimerais avoir un fichier d’index Lucene le plus
petit possible.

A votre connaissance, y’a-t-il moyen de paramétrer ElasticSearch pour
qu’il ne conserve que la version la plus récente du document indexé ?
ou bien les N dernières versions ? (ce qui reviendrait au même).
Sinon, existe-t-il un mécanisme pour purger les anciennes versions ?

Merci d’avance pour vos éclaircissements,

Antoine

Elasticsearch FR

unread,
Apr 26, 2012, 3:29:39 PM4/26/12
to elastics...@googlegroups.com
Elasticsearch ne conserve pas les n versions du document à ma connaissance.

David ;-)
Twitter : @dadoonet / @elasticsearchfr
> --
> ---
> Vous pouvez également poster et consulter les réponses en anglais sur le groupe Elasticsearch https://groups.google.com/group/elasticsearch
>
> Si vous avez également posté votre question sur la mailing list elasti...@googlegroups.com, merci d'indiquer ici le lien vers cette discussion pour faciliter le suivi.
>
> Twitter : @ElasticsearchFR https://twitter.com/#!/ElasticsearchFR
> Site web (English) : http://www.elasticsearch.org/

Jérôme Mainaud

unread,
Apr 26, 2012, 4:44:34 PM4/26/12
to elastics...@googlegroups.com

Il me semble aussi que le numéro de version ne sert que pour effectuer une verrou optimiste et que seule la dernière version est conservée.

Jérôme Mainaud

Antoine

unread,
Apr 28, 2012, 1:41:53 PM4/28/12
to Elasticsearch FR
Merci David et Jérôme pour votre réponse. Il semblerait que vous ayez
raison. Le versionning d'ES fonctionne similairement à celui
d'Hibernate.

Avec un collègue, nous avons effectué quelques tests à partir d'un
article dédié au versionning posté sur le blog d'ES :
http://www.elasticsearch.org/blog/2011/02/08/versioning.html
Techniquement, lorsqu'une nouvelle version du document est indexée, ES
crée un nouvel index et supprime le précédent index. D'après l'outil
Luke permettant de consulter un index Lucene, ES le marque comme
DELETED. Le soucis est que Lucene ne prends pas toujours en compte la
suppression du précédent index, et plus particulièrement lorsque le
même document est mis à jour de manière très rapproché. De ce fait, le
scoring Lucene (Similarity) est faussé au niveau du calcul de l'IDF
car le maxDocs est surévalué. Pour notre projet, nous pensons
désactiver l'idf en suivant les indications de Shay Banon sur la liste
de diffusion officielle :
https://groups.google.com/group/elasticsearch/browse_thread/thread/c0136702bfa88f1/252eb86bf8dffba1?lnk=gst&q=similarity#252eb86bf8dffba1

Antoine

On 26 avr, 22:44, Jérôme Mainaud <jer...@mainaud.com> wrote:
> Il me semble aussi que le numéro de version ne sert que pour effectuer une
> verrou optimiste et que seule la dernière version est conservée.
>
> Jérôme Mainaud
> Le 26 avr. 2012 21:29, "Elasticsearch FR" <elasticsearc...@gmail.com> a
> écrit :
>
>
>
>
>
>
>
> > Elasticsearch ne conserve pas les n versions du document à ma connaissance.
>
> > David ;-)
> > Twitter : @dadoonet / @elasticsearchfr
>
> > Le 26 avr. 2012 à 21:27, Antoine <antoine....@gmail.com> a écrit :
>
> > > Bonjour à toute la communauté francophone d’ElasticSearch,
>
> > > Bon allé, je me lance pour une première question sur cette liste de
> > > diffusion !!
>
> > > Voici le contexte : j’aimerais utiliser la fonctionnalité de
> > > versionning pour gérer la concurrence d’accès avec approche
> > > optimiste :http://www.elasticsearch.org/guide/reference/api/index_.html
> > > Fonctionnellement, je n’ai pas besoin d’accéder aux versions plus
> > > anciennes d’un document indexé. Qui plus est, pour des problématiques
> > > de performance, j’aimerais avoir un fichier d’index Lucene le plus
> > > petit possible.
>
> > > A votre connaissance, y’a-t-il moyen de paramétrer ElasticSearch pour
> > > qu’il ne conserve que la version la plus récente du document indexé ?
> > > ou bien les N dernières versions ? (ce qui reviendrait au même).
> > > Sinon, existe-t-il un mécanisme pour purger les anciennes versions ?
>
> > > Merci d’avance pour vos éclaircissements,
>
> > > Antoine
>
> > > --
> > > ---
> > > Vous pouvez également poster et consulter les réponses en anglais sur le
> > groupe Elasticsearchhttps://groups.google.com/group/elasticsearch
>
> > > Si vous avez également posté votre question sur la mailing list
> > elasti...@googlegroups.com, merci d'indiquer ici le lien vers cette
> > discussion pour faciliter le suivi.
>
> > > Twitter : @ElasticsearchFRhttps://twitter.com/#!/ElasticsearchFR
> > > Site web (English) :http://www.elasticsearch.org/
>
> > --
> > ---
> > Vous pouvez également poster et consulter les réponses en anglais sur le
> > groupe Elasticsearchhttps://groups.google.com/group/elasticsearch
>
> > Si vous avez également posté votre question sur la mailing list
> > elasti...@googlegroups.com, merci d'indiquer ici le lien vers cette
> > discussion pour faciliter le suivi.
>
> > Twitter : @ElasticsearchFRhttps://twitter.com/#!/ElasticsearchFR
Reply all
Reply to author
Forward
0 new messages