Да, я согласен, что pymorphy нужен спец. анализатор для фамилий, который бы предсказывал слово как фамилию, если оно начинается с большой буквы (и, наверное, если оно похоже на фамилию). Все фамилии в словарь добавить нереально. Большинство имен и отчеств в словаре должно уже быть, по крайней мере из СССР. Западные имена было бы очень хорошо в OpenCorpora добавить.
Изменить вероятности - наверное, можно, хотя сходу не соображу, как конкретно. По коду - там есть класс
SingleTagProbabilityEstimator (
https://github.com/kmike/pymorphy2/blob/master/pymorphy2/analyzer.py#L62 ), который вероятности назначает; можно в конструктор MorphAnalyzer свой подобный класс передать.
А не поделитесь набором ФИО?
Если уж с машинным обучением начинаете работать, то, наверное, лучше использовать предсказания pymorphy2 как фичи, наравне с окончаниями и т.д., и брать классификатор, который не подразумевает условной независимости фич (логистическую регрессию, например).
вторник, 1 июля 2014 г., 19:45:40 UTC+6 пользователь Kostya Gukoff написал: