[Débutant] Quelques questions générales

Jean Wisser

unread,

Apr 29, 2015, 3:01:39 PM4/29/15

to elastics...@googlegroups.com

Bonjour !

Débutant sur elasticsearch je dois mettre en place pour ma boite une appli de recherche et d'analyse sur les CVs internes.
J'ai déjà installé Sructmydocs et créé ma propre appli de recherche en utilisant l'API Java pour comprendre le fonctionnement.

Mais j'avoue être un peu perdu entre toutes les solutions possibles :
- Créer une appli du type Scrutmydocs (+ rajouter partie analyse graphique)
- Utiliser FSriver + Kibana qui possède déjà la partie analyse graphique
- ...

Sachant que je souhaiterai plus tard pouvoir parser mes CV avec Apache Tika (Nous avons un format de CV défini en interne).

Quels conseils pouvez vous me donner ?

Merci d'avance,

Jean.

Camilo Sierra

unread,

Apr 30, 2015, 8:56:05 AM4/30/15

to elastics...@googlegroups.com

pour l'utilisation de FSriver j'ai une doute car je pense que les River avec ES vont être deprecated. Regarde le lien publie par shay banon => https://www.elastic.co/blog/deprecating_rivers

David Pilato

unread,

Apr 30, 2015, 9:32:53 AM4/30/15

to elastics...@googlegroups.com

Oui FSRiver va être déprécié au même titre que les rivers.

C’est d’ailleurs une des raisons pour lesquelles nous réécrivons scrutmydocs dès que nous avons un peu de temps libre (c’est à dire rarement :( )…

Pour répondre à la question, ça dépends du besoin et des moyens que tu as.

Pour la transformation de tes PDF en JSON, utilise directement Tika (ou attends la sortie d’un composant pour logstash).

Ensuite indexe toi même dans elasticsearch (ou utilise Logstash)

Pour l’interface, si Kibana te suffit, alors tu peux prendre ça.

Si non, il faut que tu bâtisses ta propre IHM qui à reprendre scrutmydocs (actuel)

Ou sinon attends une potentielle sortie de scrutmydocs mais honnêtement je ne pense pas que nous ayons le temps de finir le projet avant l’été.

--

David Pilato - Developer | Evangelist

elastic.co

@dadoonet | @elasticsearchfr | @scrutmydocs

--
--
---
Vous pouvez également poster et consulter les réponses en anglais sur le groupe Elasticsearch https://groups.google.com/group/elasticsearch

Si vous avez également posté votre question sur la mailing list elasti...@googlegroups.com, merci d'indiquer ici le lien vers cette discussion pour faciliter le suivi.

Twitter : @ElasticsearchFR https://twitter.com/#!/ElasticsearchFR
Site web (English) : http://www.elasticsearch.org/
---
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Elasticsearch FR".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse elasticsearch-...@googlegroups.com.
Pour envoyer un message à ce groupe, envoyez un e-mail à l'adresse elastics...@googlegroups.com.
Visitez ce groupe à l'adresse http://groups.google.com/group/elasticsearch-fr.
Cette discussion peut être lue sur le Web à l'adresse https://groups.google.com/d/msgid/elasticsearch-fr/b7fe2512-7ff7-4813-b63e-b67be0a6cee5%40googlegroups.com.
Pour obtenir davantage d'options, consultez la page https://groups.google.com/d/optout.

Jean Wisser

unread,

Apr 30, 2015, 11:08:21 AM4/30/15

to elastics...@googlegroups.com

Merci beaucoup pour vos réponses !

les River avec ES vont être deprecated

Si je comprend bien, cela veut dire que d'ici peu, nous devrons utiliser les API des différents languages fournis ou utiliser logstash (+plugins éventuellement) pour intégrer les datas dans ES ?

Pour la transformation de tes PDF en JSON, utilise directement Tika

Pour le moment, j'utilise mapper-attachements. Crois-tu qu'il est possible de modifier le plugin pour parser le contenu extrait par Tika, ou alors est-il préférable de parser avec tika et créer mon propre mapper ?

Ensuite indexe toi même dans elasticsearch (ou utilise Logstash)

Pour pouvoir indexer les fichiers d'un dossier, je devrai créer ma "propre fsriver" en Java en quelque sorte ?

Merci beaucoup !

David Pilato

unread,

Apr 30, 2015, 11:13:25 AM4/30/15

to elastics...@googlegroups.com

les River avec ES vont être deprecated

Si je comprend bien, cela veut dire que d'ici peu, nous devrons utiliser les API des différents languages fournis ou utiliser logstash (+plugins éventuellement) pour intégrer les datas dans ES ?

Oui. L’idée est que de faire faire la fonction ETL par un node elasticsearch n’est pas une bonne idée en prod.

Mieux vaut avoir un process externe plus souple et plus contrôlable.

Pour la transformation de tes PDF en JSON, utilise directement Tika

Pour le moment, j'utilise mapper-attachements. Crois-tu qu'il est possible de modifier le plugin pour parser le contenu extrait par Tika, ou alors est-il préférable de parser avec tika et créer mon propre mapper ?

Integrér Tika oui. Je ne vois pas l’intérêt de faire son propre mapper par contre.

Un exemple de bout de code pour faire de l’extraction: https://github.com/elastic/elasticsearch-mapper-attachments/blob/master/src/test/java/org/elasticsearch/index/mapper/attachment/test/standalone/StandaloneRunner.java

Ensuite indexe toi même dans elasticsearch (ou utilise Logstash)

Pour pouvoir indexer les fichiers d'un dossier, je devrai créer ma "propre fsriver" en Java en quelque sorte ?

Oui c’est une idée.

Ou attendre que Logstash propose qqchose.

Merci beaucoup !

--
--
---
Vous pouvez également poster et consulter les réponses en anglais sur le groupe Elasticsearch https://groups.google.com/group/elasticsearch

Si vous avez également posté votre question sur la mailing list elasti...@googlegroups.com, merci d'indiquer ici le lien vers cette discussion pour faciliter le suivi.

Twitter : @ElasticsearchFR https://twitter.com/#!/ElasticsearchFR
Site web (English) : http://www.elasticsearch.org/
---
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Elasticsearch FR".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse elasticsearch-...@googlegroups.com.
Pour envoyer un message à ce groupe, envoyez un e-mail à l'adresse elastics...@googlegroups.com.
Visitez ce groupe à l'adresse http://groups.google.com/group/elasticsearch-fr.

Cette discussion peut être lue sur le Web à l'adresse https://groups.google.com/d/msgid/elasticsearch-fr/c6d8b3a6-4bb0-4cb3-936b-0dfdaa47523a%40googlegroups.com.

Jean Wisser

unread,

May 4, 2015, 5:09:14 AM5/4/15

to elastics...@googlegroups.com

Merci pour tes réponses David.

J'ai encore un doute sur un point et m'excuse si cela parait trivial mais je n'ai pas trouvé ma réponse sur google.

J'utilise ES de 2 façons différentes :
- Directement téléchargé et installé depuis elastic.co que j'accède via localhost:9200 et communique en Json via l'API Rest.
- En utilisant l'API java dans laquelle je créé mes noeuds et déploie sur glassfish grâce aux dépendances maven

Comment faire pour installer Kibana par exemple sur l'instance ES de glassfish ?
Ou alors comment faire pour accéder à la première instance depuis mon code java ?
Quelle est la meilleure façon de procéder ?

Merci beaucoup !

David Pilato

unread,

May 4, 2015, 6:26:02 AM5/4/15

to elastics...@googlegroups.com

Kibana est un process/projet autonome avec un backend en NodeJS. Il ne tourne pas en Java donc je ne pense pas qu’il se déploie dans glassfish.

--

David Pilato - Developer | Evangelist

elastic.co

@dadoonet | @elasticsearchfr | @scrutmydocs

--
--
---
Vous pouvez également poster et consulter les réponses en anglais sur le groupe Elasticsearch https://groups.google.com/group/elasticsearch

Si vous avez également posté votre question sur la mailing list elasti...@googlegroups.com, merci d'indiquer ici le lien vers cette discussion pour faciliter le suivi.

Twitter : @ElasticsearchFR https://twitter.com/#!/ElasticsearchFR
Site web (English) : http://www.elasticsearch.org/
---
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Elasticsearch FR".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse elasticsearch-...@googlegroups.com.
Pour envoyer un message à ce groupe, envoyez un e-mail à l'adresse elastics...@googlegroups.com.
Visitez ce groupe à l'adresse http://groups.google.com/group/elasticsearch-fr.

Cette discussion peut être lue sur le Web à l'adresse https://groups.google.com/d/msgid/elasticsearch-fr/e2ce9ed4-1b73-4db6-8126-a68a0c08bbb4%40googlegroups.com.

Reply all

Reply to author

Forward