Некорректное отображение русского языка при выводе слов из своего корпуса

686 views
Skip to first unread message

Vic N

unread,
Jul 25, 2013, 4:38:51 AM7/25/13
to nltk-r...@googlegroups.com
Python 2.7.5 on Windows 7  with Winpython pack, NLTK 3.0a1
Проблема: в консоль русские буквы не выводит исли они взяты из txt файла, а просто print или если строкой русский текст задан - то выводит и обрабатывает

Пример:

from nltk.stem import SnowballStemmer           #подключение словаря и импорт SnowballStemmer
russian_stemmer = SnowballStemmer('russian')    #выбор русского языка для извлечения корня
print (russian_stemmer.stem(u'приветственный')) #вывод на экран корня слова

- это работает, выводит в консоли pycharm:

>>приветствен


А вот файл из моего корпуса, файл создал вручную в Блокноте и в нем только русские буквы.

agit_corpus_words = agit_corpus.words('agitacia/discreditacia11.txt')
print agit_corpus_words

>>[u'\u041f\u043e\u0447\u0435\u043c\u0443', u'74', u'%', ...]

А мне нужно, чтобы в списке были нормальные русские буквы.
Что делал: сохранял текстовый файл в UTF-8, Юникод, ANSI - все попробовал блокнотом (и еще там есть странный вариант сохранить с кодировкой Юникод Big Endian) - ноль эмоций, без ошибок работает только вариант UTF-8.

Mikhail Korobov

unread,
Jul 25, 2013, 6:05:32 AM7/25/13
to nltk-r...@googlegroups.com
вроде тут разобрались: https://github.com/nltk/nltk/issues/449

четверг, 25 июля 2013 г., 14:38:51 UTC+6 пользователь Vic N написал:
Reply all
Reply to author
Forward
0 new messages