Vic N
unread,Jul 25, 2013, 4:38:51 AM7/25/13Sign in to reply to author
Sign in to forward
You do not have permission to delete messages in this group
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to nltk-r...@googlegroups.com
Python 2.7.5 on Windows 7 with Winpython pack, NLTK 3.0a1
Проблема: в консоль русские буквы не выводит исли они взяты из txt файла, а просто print или если строкой русский текст задан - то выводит и обрабатывает
Пример:
from nltk.stem import SnowballStemmer #подключение словаря и импорт SnowballStemmer
russian_stemmer = SnowballStemmer('russian') #выбор русского языка для извлечения корня
print (russian_stemmer.stem(u'приветственный')) #вывод на экран корня слова
- это работает, выводит в консоли pycharm:
>>приветствен
А вот файл из моего корпуса, файл создал вручную в Блокноте и в нем только русские буквы.
agit_corpus_words = agit_corpus.words('agitacia/discreditacia11.txt')
print agit_corpus_words
>>[u'\u041f\u043e\u0447\u0435\u043c\u0443', u'74', u'%', ...]
А мне нужно, чтобы в списке были нормальные русские буквы.
Что делал: сохранял текстовый файл в UTF-8, Юникод, ANSI - все попробовал блокнотом (и еще там есть странный вариант сохранить с кодировкой Юникод Big Endian) - ноль эмоций, без ошибок работает только вариант UTF-8.