Добрый день!
Меня зовут Женя, я пишу дипломную работу, одной из задач которой является извлечение санскритских имен собственных (н-р., "вайшампаяны", "Кала", "вед")
из русского текста (Махабхараты) и их лемматизирование.
На данный момент мне удалось извлечь бОльшую их часть с помощью проверки на вхождение в словарь Зализняка и Ефремовой. Для лемматизации использую Deeppavlov (pymorphy2 отдельно справляется хуже), дает точность (именно этих слов) 47%, род определяет с точностью в 75%.
Помимо лемматизации, интересует также образование словоформ. Для некоторых санскритских имен pymorphy2 не предлагает ни одного разбора имени как существительного. Как можно это исправить?
Может быть, вы также знаете какие-то инструменты, которые могут быть полезны в данной задаче? Заранее спасибо за ответ!