Задача NLP: извлечение санскритских имен собственных

42 views
Skip to first unread message

ejoun...@gmail.com

unread,
Mar 3, 2020, 3:13:14 AM3/3/20
to pymorphy

Добрый день!


Меня зовут Женя, я пишу дипломную работу, одной из задач которой является извлечение санскритских имен собственных (н-р., "вайшампаяны", "Кала", "вед") из русского текста (Махабхараты) и их лемматизирование.

На данный момент мне удалось извлечь бОльшую их часть с помощью проверки на вхождение в словарь Зализняка и Ефремовой. Для лемматизации использую Deeppavlov (pymorphy2 отдельно справляется хуже), дает точность (именно этих слов) 47%, род определяет с точностью в 75%.


Помимо лемматизации, интересует также образование словоформ. Для некоторых санскритских имен pymorphy2 не предлагает ни одного разбора имени как существительного. Как можно это исправить?

Может быть, вы также знаете какие-то инструменты, которые могут быть полезны в данной задаче? Заранее спасибо за ответ!

Reply all
Reply to author
Forward
0 new messages