Адаптация главы 2

127 views
Skip to first unread message

Mikhail Korobov

unread,
Apr 3, 2012, 9:31:43 PM4/3/12
to nltk-r...@googlegroups.com
Сама глава: http://nltk.googlecode.com/svn/trunk/doc/book/ch02.html

Accessing Text Corpora

В этом разделе обзор различных корпусов текста, которые есть в nltk. Мне кажется, тут хорошо бы все оставить как есть, но первым пунктом добавить обзор русского корпуса (opencorpora?).

WordNet

Может иметь смысл как-то использовать http://wordnet.ru/ - но у меня тут опыта нет никакого.

Итог:
1. Сделать и описать интерфейс к русскому корпусу;
2. Решить, что делать с wordnet'ом.

Что-то упустил?

Alisa_IPN

unread,
Apr 4, 2012, 12:34:50 AM4/4/12
to nltk-russian
по п2
Я бы Wordnet описывала как есть, оригинальный, а в конце бы упомянула
или примечанием, что есть автоматически сгенеррованная русская
версия. Там вес равно описания синсетов на английском, так что какая-
то языковая каша выйдет. Лучше придерживаться оргинала, т.к. там все
ясно, как что создавалось, а большинство переводных версий просто
сгенерированы авт. переводом. Т.е. там нет никакой идеи или процесса,
характерных для конкретного языка.

On 3 апр, 20:31, Mikhail Korobov <kmik...@googlemail.com> wrote:
> Сама глава:http://nltk.googlecode.com/svn/trunk/doc/book/ch02.html
>
> Accessing Text Corpora
> В этом разделе обзор различных корпусов текста, которые есть в nltk. Мне
> кажется, тут хорошо бы все оставить как есть, но первым пунктом добавить
> обзор русского корпуса (opencorpora?).
>
> WordNet

> Может иметь смысл как-то использоватьhttp://wordnet.ru/- но у меня тут

Vitaly Inflianskas

unread,
Apr 11, 2012, 9:15:31 AM4/11/12
to nltk-russian
Здравствуйте!

Попытался выделить из текста 2-ой главы те ресурсы nltk, которые
содержат в том числе и русский язык. Естественно, получилось немного,
но что-то есть:
1) stopwords corpus
2) swadesh corpus
3) UnivDecl of Human Rights

Наверное, при переводе стоит как-то выделять ресурсы nltk, которые уже
есть на русском.
Примеры тоже лучше давать с русским, где это возможно.
Я, правда, не очень понял, насколько все это позволяет лицензия
книги...

Пример с русскими ресурсами:
import nltk
from nltk.corpus import *

def print_real(text):
print repr(text).decode("unicode_escape")

print "\nstopwords"
ru = stopwords.words('russian')
print stopwords.encoding('russian')
ru = [s.decode('utf-8') for s in ru]
print_real(ru)

print "\nswadesh"
ru2en = swadesh.entries(['ru', 'en'])
ru2en = [(s[0].decode('utf-8'), s[1]) for s in ru2en]
print_real(ru2en)

print "\nudhr"
ru = udhr.sents('Russian-UTF8')
for s in ru:
print_real(" ".join(s))

Reply all
Reply to author
Forward
0 new messages