You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to elastics...@googlegroups.com
Подскажите пожалуйста как у эластика с поддержкой различных языков, в частности русского.
В документации [1] сказано что стандартный токенайзер подходит для большинства европейских языков, также в [2] написано что стоп фильтр работает втч и для русского. Однако попробовав включить плагин [3] imotov/elasticsearch-analysis-morphology и сравнив с поиском без плагина заметил что качество в случае плагина лучше (например с плагином умеет склонять по окончаниям Японский/Японские, но в то же время не ищет по слову Япония; без плагина не умеет даже склонять, хорошо хоть без относительно регистра ищет).
Изучив плагин, понял что он использует уже встроенные в ES (lucene ?) языковые возможности.
Может существуют какие-то настройки для включения различных языков без плагинов?
Попутно смежный вопрос, что бы не заполнять стоп слова, можно ли использовать common terms query [4], хорошо ли он работает?
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to elastics...@googlegroups.com
Плагин imotov/elasticsearch-analysis-morphology выполняет стематизацию. Это его единственная функция. Стоп фильтр и перевод в нижний регистр выполняется другими фильтрами токенов, которые действительно встроены в Elasticsearch. В Elasticsearch так же есть встроенный стемер "hunspell", который работает с разными языками. Однако поиск по различным языкам это проблема сложная. Теоретически, если язык документа известен, то можно воспользоваться полем _analyzer для задания анализатора для каждого документа. Но одновременный поиск документов на разных языках, если язык запроса не известен, достаточно сложен.
Сommon terms query должен работать, лучше чем стоп слова.