Добрый день.
В словарях некоторые слова есть - я попробовал поискать
тут те, которые пришли на ум, почти все были (возможно, из-за недостатка фантазии :)
В идеале, недостающие слова бы добавить в официальный словарь OpenCorpora. Можно им написать тут:
https://github.com/OpenCorpora/opencorpora/issues или тут:
https://groups.google.com/forum/?fromgroups#!forum/opencorpora-dev.
Можно еще собрать свой словарь с дополнительными словами самостоятельно. Чтоб сделать это, нужно:
1. Скачать XML-словарь OpenCorpora;
2. добавить туда недостающие слова;
3. скомпилировать в формат, который понимает pymorphy2.
В репозитории
https://github.com/kmike/pymorphy2-dicts есть скрипты для (1) и (3) - см.
update_ru.py; (2) нужно как-то автоматизировать самому. Формат XML словаря описан
тут, но там вроде описание немного устаревшее - вот
этот пример тоже может быть полезен.
Третий вариант - написать свой "unit", который бы выдавал информацию из дополнительного словаря, и добавить его в units, передаваемые MorphAnalyzer. Весь анализ (и по словарю, и эвристики для предсказания) реализован через эти "юниты", они все лежат тут:
https://github.com/kmike/pymorphy2/tree/master/pymorphy2/units. API не задокументирован, но я его менять не планирую. По умолчанию используется вот
этот набор юнитов; юнит с кастомным словарем,думаю, можно добавить в группу с units.DictionaryAnalyzer().
Мне кажется, что иметь такой юнит для подключения кастомный словарей в самом pymorphy2 - хорошее дело, так что если будет PR с этой фичей, то постараюсь его смерджить.
понедельник, 1 июня 2015 г., 19:37:17 UTC+5 пользователь
iskh...@gmail.com написал: