On 3 апр, 20:31, Mikhail Korobov <kmik...@googlemail.com> wrote:
> Сама глава:http://nltk.googlecode.com/svn/trunk/doc/book/ch02.html
>
> Accessing Text Corpora
> В этом разделе обзор различных корпусов текста, которые есть в nltk. Мне
> кажется, тут хорошо бы все оставить как есть, но первым пунктом добавить
> обзор русского корпуса (opencorpora?).
>
> WordNet
> Может иметь смысл как-то использоватьhttp://wordnet.ru/- но у меня тут
Попытался выделить из текста 2-ой главы те ресурсы nltk, которые
содержат в том числе и русский язык. Естественно, получилось немного,
но что-то есть:
1) stopwords corpus
2) swadesh corpus
3) UnivDecl of Human Rights
Наверное, при переводе стоит как-то выделять ресурсы nltk, которые уже
есть на русском.
Примеры тоже лучше давать с русским, где это возможно.
Я, правда, не очень понял, насколько все это позволяет лицензия
книги...
Пример с русскими ресурсами:
import nltk
from nltk.corpus import *
def print_real(text):
print repr(text).decode("unicode_escape")
print "\nstopwords"
ru = stopwords.words('russian')
print stopwords.encoding('russian')
ru = [s.decode('utf-8') for s in ru]
print_real(ru)
print "\nswadesh"
ru2en = swadesh.entries(['ru', 'en'])
ru2en = [(s[0].decode('utf-8'), s[1]) for s in ru2en]
print_real(ru2en)
print "\nudhr"
ru = udhr.sents('Russian-UTF8')
for s in ru:
print_real(" ".join(s))