новый релиз: pymorphy2 v0.4

97 views
Skip to first unread message

Mikhail Korobov

unread,
Oct 19, 2013, 3:21:32 PM10/19/13
to pymo...@googlegroups.com
Привет.

Выложил только что новый релиз pymorphy2. Главное изменение - pymorphy2 теперь возвращает условную вероятность тега P(tag|word) и сортирует разборы по этой вероятности. Если человеческим языком, то первый разбор теперь будет правильным чаще, чем раньше. Вероятность оценивается на основе слов из OpenCorpora, для которых неоднозначность уже снята. Не знаю, почему до этого раньше не додумался. Почему-то казалось, что распределения вероятностей на основе OpenCorpora оценивать неправильно, пока снятие неоднозначности там не завершено (из-за того, как в OpenCorpora устроен процесс разметки). И действительно, оценка P(tag|tag-1), скорее всего, будет пока очень перекошенная, т.к. пока снимаются только определенные типы неоднозначности. Но с P(tag|word)-то проблем быть не должно, т.к. если для слова уже снята неоднозначность, то без разницы, какого типа она была - она ведь была одинаковой для всех экземпляров этого слова.

По моим оценкам (да-да, скрипты в открытый доступ пока не выложил, остается верить на слово), точность первого варианта разбора увеличилась с 72% до 79% (или с 87% до 93%, если брать во внимание только часть речи). Я все это дело не очень оптимизировал; скорость может раза в полтора-два упасть (новое поведение отключаемое).

Для обновления необходимо обновить зависимости до последних версий, со старыми DAWG, DAWG-Python и pymorphy2-dicts работать не будет.

Чуть больше информации - в документации: http://pymorphy2.readthedocs.org/en/0.4/user/guide.html#id8
Reply all
Reply to author
Forward
0 new messages