pymorphy2 и казахский язык

182 views
Skip to first unread message

aidy...@gmail.com

unread,
Mar 22, 2017, 8:28:18 AM3/22/17
to pymorphy, aidyn....@yandex.kz
Добрый день!

Скажите пожалуйста, возможно ли добавить в pymorphy2 казахский язык ?
И если возможно, то что для этого мне необходимо сделать?

Sergey Slepov

unread,
Mar 23, 2017, 7:49:15 AM3/23/17
to pymorphy, aidyn....@yandex.kz, aidy...@gmail.com
Добрый день! А какую Вы решаете задачу? Вот программа склонения словосочетаний на казахском: http://morpher.ru/DemoKZ.aspx.

aidy...@gmail.com

unread,
Mar 23, 2017, 11:37:56 AM3/23/17
to pymorphy, aidyn....@yandex.kz, aidy...@gmail.com
Описание задачи:

Есть некоторые "текстовые данные", полученные с помощью Adobe Finereader. Необходимо получить начальную форму слова для каждого слова в текстовом файле.
Как вы поняли, в тексте возможно встретятся "бутявки", поэтому программа, предложенная вами выше не подойдет для решения данной задачи.
Важным условием является бесплатность используемых ресурсов, собственно и назревает вопрос: "Что необходимо мне сделать для добавления казахского языка в pymorphy2 ?"

четверг, 23 марта 2017 г., 17:49:15 UTC+6 пользователь Sergey Slepov написал:

Sergey Slepov

unread,
Mar 24, 2017, 7:21:31 PM3/24/17
to pymorphy, aidyn....@yandex.kz, aidy...@gmail.com
Добрый день! 

"Что необходимо мне сделать для добавления казахского языка в pymorphy2 ?"

Вот примерный план:

1. Составить словарь аффиксов.и соответствующих им граммем.
2. Научить pymorphy2 работать с агглютинативными языками - отщеплять произвольное количество аффиксов.
3. Учесть специфичные для казахского законы сингармонизма гласных и согласных при отщеплении аффиксов, а также возможное выпадение гласных в корне.
4. Добавить словарь начальных форм (он у вас есть, кстати?) с указанием частей речи, т.к. набор аффиксов свой у каждой части речи.

Покажите пример ваших "текстовых данных" - я посмотрю, на что хватит моих знаний казахской грамматики. Возможно, все не так страшно. :)

Robert Reynolds

unread,
Mar 24, 2017, 10:04:55 PM3/24/17
to pymorphy, aidyn....@yandex.kz, aidy...@gmail.com

Посмотрите http://wiki.apertium.org/wiki/Kazakh. Это не питон, но все уже готово. Первая ссылка Apertium-kaz наверное то, что вы ищете.

Роберт


--
Вы получили это сообщение, поскольку подписаны на группу "pymorphy".
Чтобы отменить подписку на эту группу и больше не получать от нее сообщения, отправьте письмо на электронный адрес pymorphy+u...@googlegroups.com.
Чтобы настроить другие параметры, перейдите по ссылке https://groups.google.com/d/optout.
--
Rob Reynolds
Assistant Research Professor
Office of Digital Humanities
Brigham Young University
+1 801-830-6391 (personal cell)

aidy...@gmail.com

unread,
Mar 25, 2017, 7:47:12 PM3/25/17
to pymorphy, aidyn....@yandex.kz, aidy...@gmail.com, reyno...@gmail.com
Хорошо, я ознакомлюсь.

По плану: словарь аффиксов имеется. В принципе морфологический анализатор уже реализован на phpmorphy, я бы хотел переписать его на python. Словаря начальных форм к сожалению пока нет.

суббота, 25 марта 2017 г., 8:04:55 UTC+6 пользователь Robert Reynolds написал:
Reply all
Reply to author
Forward
0 new messages