Named-entity recognition по русски

1,216 views
Skip to first unread message

briskly

unread,
Jun 19, 2012, 4:01:16 AM6/19/12
to nltk-r...@googlegroups.com
У меня появилась интересная задачка. Смысл в том чтобы, вытаскивать сущности из текстов на русском языке. На английском я без проблем нашел примерчики. А что же делать с великим могучим, может кто подскажет куда двигаться. Как я понял из всего прочитоного мною, нам нужен граматный морфологический анализатор который имеет nltk-подобный формат и тогда мы сможем по аналогии с https://gist.github.com/792451 исползовать nltk.batch_ne_chunk  и вытаскивать именнованые сущности. Вообще хотелось бы сделать программку которая тренировала сама себя. Может подскажите куда копать?

Рамиль Бикмаев

unread,
Jun 19, 2012, 4:46:48 AM6/19/12
to nltk-r...@googlegroups.com
можно посмотреть морфологический анализатор русского языка, которые реализован на питоне Михаилом Коробановым.

http://pymorphy.readthedocs.org/en/v0.5.6/index.html 

--
С уважением, Рамиль Бикмаев

briskly

unread,
Jun 19, 2012, 5:15:51 AM6/19/12
to nltk-r...@googlegroups.com
POS-tagger  для русского найти реально, больше интересует в правильном ли направлении я двигаюсь?

вторник, 19 июня 2012 г., 12:46:48 UTC+4 пользователь Рамиль Бикмаев написал:

Dmitry Granovsky

unread,
Jun 19, 2012, 5:20:31 AM6/19/12
to nltk-r...@googlegroups.com
В правильном, без POS-таггера можно даже не начинать.

Вы же правда смотрели уже 4-ю неделю NLP Class про это?
https://class.coursera.org/nlp/lecture/preview

PS. Правильная фамилия Михаила - Коробов.

19 июня 2012 г., 13:15 пользователь briskly <knia...@gmail.com> написал:

--
Best regards,
Dmitry V. Granovsky

briskly

unread,
Jun 19, 2012, 6:35:17 AM6/19/12
to nltk-r...@googlegroups.com
Спасибо за наводку на уроки

вторник, 19 июня 2012 г., 13:20:31 UTC+4 пользователь Dmitry Granovsky написал:
В правильном, без POS-таггера можно даже не начинать.

Вы же правда смотрели уже 4-ю неделю NLP Class про это?
https://class.coursera.org/nlp/lecture/preview

Best regards,
Dmitry V. Granovsky

briskly

unread,
Jun 20, 2012, 7:56:30 AM6/20/12
to nltk-r...@googlegroups.com
нашел хорочший теггер http://nlp.lsi.upc.edu/freeling/
сейчас в процессе написания перевода freeling теггов  в nltk. ne_chunker не работает выдает пустые массивы. Все таки он работает не только на основе частей речи а чего то еще

Anton Frolov

unread,
Nov 19, 2013, 3:30:39 PM11/19/13
to nltk-r...@googlegroups.com
Привет! У меня появилась похожая задача. Прошел год - может быть ты изобрел уже велосипед? :)

среда, 20 июня 2012 г., 14:56:30 UTC+3 пользователь briskly написал:
Reply all
Reply to author
Forward
0 new messages