Анализ тональности русскоязычных комментариев

1,653 views
Skip to first unread message

egens

unread,
Jun 28, 2012, 8:38:46 AM6/28/12
to nltk-r...@googlegroups.com
Требуется произвести анализ тональности текста на множестве пользовательских комментариев определенной тематики. На данный момент принято решение проводить классификацию по трем классам — негативной, нейтральной и позитивной тональности. Для исследования алгоритмов вручную размечено 1500 комментариев. Размеры классов в тестовой выборке отличаются не более, чем в два раза. По примеру зарубежных коллег был применен метод опорных векторов в пространстве бинарных признаков, обозначающих наличие слов в комментариях. Правильность классификации составляет менее 60%. Анализ тональности английских текстов показывал эффективность в 80%.

Одна из предположительно значимых проблем — многочисленные ошибки в комментариях, как орфографические, так и грамматические. Существнна также бОльшая сложность русского языка. И малое количество открытых инструментов для анализа русского языка. Код пишу на Python, удалось найти только реализацию стеммера Портера, а также библиотеку анализа морфологии pymorphy.

Буду признателен советам любого рода. Есть ли другие удобные и проверенные инструменты для анализа русского языка желательно с реализацией на Python? Правилен ли выбор SVM, как алгоритма классификации, может есть более эффективные классификаторы? Известны ли более эффективные пространства признаков?
Message has been deleted

briskly

unread,
Jul 4, 2012, 7:57:28 AM7/4/12
to nltk-r...@googlegroups.com
есть хорошая библиотека поддерживает русский язык,  а так же имеет АПИ на python, perl, php и многих дргих языках. freeling

четверг, 28 июня 2012 г., 16:38:46 UTC+4 пользователь egens написал:

Alisa Z.

unread,
Aug 2, 2012, 1:54:09 AM8/2/12
to nltk-r...@googlegroups.com
Привет всем! 

Я что-то немного выпала из процесса.  Мне тут приспичило перевести 2ю главу. Ее еще никто не брал?  
А  кто-то уже разобрался, откуда берем главы для перевода и в каком формате их переводим?  Помогите разобраться, пожалуйса! 

Заранее спаисбо! 


С уважением,
 Alisa                          mailto:alisa...@gmail.com

Max Sokolov

unread,
Aug 2, 2012, 2:09:31 AM8/2/12
to nltk-r...@googlegroups.com
Алиса, привет.

Главы берем здесь: https://github.com/nltk/nltk_book/tree/master/book Переводить желательно тоже в формате RST с сохранением всей разметки.
Вторая глава сейчас разобрана частично (см. https://docs.google.com/spreadsheet/ccc?key=0AiUjSSR01L0odFJtODlnZzJyOVQyM0FmenVQN3hIN2c#gid=0). Большая ее часть еще свободна.

Макс

2012/8/2 Alisa Z. <alisa...@gmail.com>



--
Maxim Sokolov
+ 7 (926) 756-02-64

briskly

unread,
Nov 20, 2012, 4:13:09 PM11/20/12
to nltk-r...@googlegroups.com
Вы используете стеммер? где брали коллекцию ? какую реализацю SVM используете


четверг, 28 июня 2012 г., 16:38:46 UTC+4 пользователь egens написал:
Требуется произвести анализ тональности текста на множестве пользовательских комментариев определенной тематики. На данный момент принято решение проводить классификацию по трем классам — негативной, нейтральной и позитивной тональности. Для исследования алгоритмов вручную размечено 1500 комментариев. Размеры классов в тестовой выборке отличаются не более, чем в два раза. По примеру зарубежных коллег был применен метод опорных векторов в пространстве бинарных признаков, обозначающих наличие слов в комментариях. Правильность классификации составляет менее 60%. Анализ тональности английских текстов показывал эффективность в 80%.

Egor Erohin

unread,
Nov 23, 2012, 8:48:24 AM11/23/12
to nltk-r...@googlegroups.com
Уже неактуально. В итоге было решено использовать семантический парсер стороннего разработчика, который оказался более эффективен, чем методы машинного обучения.


21 ноября 2012 г., 1:13 пользователь briskly <knia...@gmail.com> написал:

Konstantin Varik

unread,
Jun 12, 2013, 5:35:57 AM6/12/13
to nltk-r...@googlegroups.com
а что за парсер?

Egor Erohin

unread,
Jun 13, 2013, 3:27:27 PM6/13/13
to nltk-r...@googlegroups.com
Я думаю на меня не обидятся, вроде инфа открытая - семантический парсер от ABBYY.


12 июня 2013 г., 13:35 пользователь Konstantin Varik <kostia...@gmail.com> написал:

--
You received this message because you are subscribed to a topic in the Google Groups "nltk-russian" group.
To unsubscribe from this topic, visit https://groups.google.com/d/topic/nltk-russian/cYZQK-6Rjp8/unsubscribe?hl=en.
To unsubscribe from this group and all its topics, send an email to nltk-russian...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.
 
 

Konstantin Varik

unread,
Jun 14, 2013, 5:53:36 AM6/14/13
to nltk-r...@googlegroups.com
Егор, спасибо!

Может еще подскажите контакт, с кем вы общались в Abbyy? )
 

Egor Erohin

unread,
Jun 14, 2013, 9:03:42 AM6/14/13
to nltk-r...@googlegroups.com
Я думаю, вы можете позвонить по телефону, указанному на сайте
там вам помогут.


14 июня 2013 г., 13:53 пользователь Konstantin Varik <kostia...@gmail.com> написал:

Konstantin Varik

unread,
Jun 14, 2013, 11:32:44 AM6/14/13
to nltk-r...@googlegroups.com
:-)

Спасибо!
Reply all
Reply to author
Forward
0 new messages