Анализ тональности русскоязычных комментариев

egens

unread,

Jun 28, 2012, 8:38:46 AM6/28/12

to nltk-r...@googlegroups.com

Требуется произвести анализ тональности текста на множестве пользовательских комментариев определенной тематики. На данный момент принято решение проводить классификацию по трем классам — негативной, нейтральной и позитивной тональности. Для исследования алгоритмов вручную размечено 1500 комментариев. Размеры классов в тестовой выборке отличаются не более, чем в два раза. По примеру зарубежных коллег был применен метод опорных векторов в пространстве бинарных признаков, обозначающих наличие слов в комментариях. Правильность классификации составляет менее 60%. Анализ тональности английских текстов показывал эффективность в 80%.

Одна из предположительно значимых проблем — многочисленные ошибки в комментариях, как орфографические, так и грамматические. Существнна также бОльшая сложность русского языка. И малое количество открытых инструментов для анализа русского языка. Код пишу на Python, удалось найти только реализацию стеммера Портера, а также библиотеку анализа морфологии pymorphy.

Буду признателен советам любого рода. Есть ли другие удобные и проверенные инструменты для анализа русского языка желательно с реализацией на Python? Правилен ли выбор SVM, как алгоритма классификации, может есть более эффективные классификаторы? Известны ли более эффективные пространства признаков?

Message has been deleted

briskly

unread,

Jul 4, 2012, 7:57:28 AM7/4/12

to nltk-r...@googlegroups.com

есть хорошая библиотека поддерживает русский язык, а так же имеет АПИ на python, perl, php и многих дргих языках. freeling

четверг, 28 июня 2012 г., 16:38:46 UTC+4 пользователь egens написал:

Alisa Z.

unread,

Aug 2, 2012, 1:54:09 AM8/2/12

to nltk-r...@googlegroups.com

Привет всем!

Я что-то немного выпала из процесса. Мне тут приспичило перевести 2ю главу. Ее еще никто не брал?
А кто-то уже разобрался, откуда берем главы для перевода и в каком формате их переводим? Помогите разобраться, пожалуйса!

Заранее спаисбо!

-
С уважением,
Alisa mailto:alisa...@gmail.com

Max Sokolov

unread,

Aug 2, 2012, 2:09:31 AM8/2/12

to nltk-r...@googlegroups.com

Алиса, привет.

Главы берем здесь: https://github.com/nltk/nltk_book/tree/master/book Переводить желательно тоже в формате RST с сохранением всей разметки.

Вторая глава сейчас разобрана частично (см. https://docs.google.com/spreadsheet/ccc?key=0AiUjSSR01L0odFJtODlnZzJyOVQyM0FmenVQN3hIN2c#gid=0). Большая ее часть еще свободна.

Макс

2012/8/2 Alisa Z. <alisa...@gmail.com>

--
Maxim Sokolov
+ 7 (926) 756-02-64

briskly

unread,

Nov 20, 2012, 4:13:09 PM11/20/12

to nltk-r...@googlegroups.com

Вы используете стеммер? где брали коллекцию ? какую реализацю SVM используете

четверг, 28 июня 2012 г., 16:38:46 UTC+4 пользователь egens написал:

Требуется произвести анализ тональности текста на множестве пользовательских комментариев определенной тематики. На данный момент принято решение проводить классификацию по трем классам — негативной, нейтральной и позитивной тональности. Для исследования алгоритмов вручную размечено 1500 комментариев. Размеры классов в тестовой выборке отличаются не более, чем в два раза. По примеру зарубежных коллег был применен метод опорных векторов в пространстве бинарных признаков, обозначающих наличие слов в комментариях. Правильность классификации составляет менее 60%. Анализ тональности английских текстов показывал эффективность в 80%.

Egor Erohin

unread,

Nov 23, 2012, 8:48:24 AM11/23/12

to nltk-r...@googlegroups.com

Уже неактуально. В итоге было решено использовать семантический парсер стороннего разработчика, который оказался более эффективен, чем методы машинного обучения.

21 ноября 2012 г., 1:13 пользователь briskly <knia...@gmail.com> написал:

Konstantin Varik

unread,

Jun 12, 2013, 5:35:57 AM6/12/13

to nltk-r...@googlegroups.com

а что за парсер?

Egor Erohin

unread,

Jun 13, 2013, 3:27:27 PM6/13/13

to nltk-r...@googlegroups.com

Я думаю на меня не обидятся, вроде инфа открытая - семантический парсер от ABBYY.

12 июня 2013 г., 13:35 пользователь Konstantin Varik <kostia...@gmail.com> написал:

--
You received this message because you are subscribed to a topic in the Google Groups "nltk-russian" group.
To unsubscribe from this topic, visit https://groups.google.com/d/topic/nltk-russian/cYZQK-6Rjp8/unsubscribe?hl=en.
To unsubscribe from this group and all its topics, send an email to nltk-russian...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.

Konstantin Varik

unread,

Jun 14, 2013, 5:53:36 AM6/14/13

to nltk-r...@googlegroups.com

Егор, спасибо!

Может еще подскажите контакт, с кем вы общались в Abbyy? )

To unsubscribe from this topic, visit https://groups.google.com/d/topic/nltk-russian/cYZQK-6Rjp8/unsubscribe.

Egor Erohin

unread,

Jun 14, 2013, 9:03:42 AM6/14/13

to nltk-r...@googlegroups.com

Я думаю, вы можете позвонить по телефону, указанному на сайте

http://www.abbyy.ru/contacts/

там вам помогут.

14 июня 2013 г., 13:53 пользователь Konstantin Varik <kostia...@gmail.com> написал:

Konstantin Varik

unread,

Jun 14, 2013, 11:32:44 AM6/14/13

to nltk-r...@googlegroups.com

:-)

Спасибо!

Reply all

Reply to author

Forward