Адаптация ресурсов #2

Mikhail Korobov

unread,

Jun 5, 2012, 5:06:39 AM6/5/12

to nltk-r...@googlegroups.com

Привет. Стивен письмо написал о том, как он адаптацию ресурсов видит:

I would like to suggest the Japanese translation of the NLTK book as a model.

(a) the examples in the book are left as-is, since changing them would require changing the surrounding discussion, which is not appropriate for a non-author to do.

(b) an extra chapter is added to the end of the book, discussing particular challenges of processing Russian text.

(c) a small amount of extra data and code is added to NLTK (e.g. a small POS-tagged corpus and corpus reader) that can be used in (b).

Please let me know what you think, thanks.
-Steven

Что думаете? У кого-нибудь есть возражения? Мне кажется, вполне разумно все.

"small POS-tagged corpus and corpus reader" предлагаю на основе OpenCorpora сделать. Отсюда вопрос - сколько примерно времени потребуется, чтоб "small POS-tagged corpus" собрать в каком-то более-менее законченном виде (не обязательно полном), успеваем к окончанию перевода?

Max Sokolov

unread,

Jun 5, 2012, 5:11:20 AM6/5/12

to nltk-r...@googlegroups.com

Учитывая скорость, с которой у нас движется перевод, трудно не успеть:)

И потом, у нас желающих делать инженерную работу записывалось едва ли не больше, чем переводчиков.

2012/6/5 Mikhail Korobov <kmi...@googlemail.com>

--
Maxim Sokolov
+ 7 (926) 756-02-64

Victor Bocharov

unread,

Jun 7, 2012, 5:40:18 PM6/7/12

to nltk-r...@googlegroups.com

Привет!

По поводу small POS-tagged корпуса на основе OpenCorpora.org я как раз хотел
написать. Мы начали работу по снятию морфологической омонимии. Поскольку
это довольно трудоёмкая задача, мы разделили её на наборы однотипных заданий,
большинство из которых может выполнять любой носитель русского языка, т.к.
почти всегда мы легко можем отличить единственное число от множественного,
а мужской род от женского, а существительное от глагола.

По поводу скорости: за неделю разметили около 20 тыс. таких заданий.
Надо разметить где-то 4-5 млн (исходя из того, что в корпусе сейчас
700 тыс. словоупотреблений, и на большинство из них будет 2-3 вопроса
задано трём разным людям).

Через некоторое время (не прямо сейчас, т.к. это потребует ещё программирования)
можно будет выделять подмножество предложений с уже снятой омонимией
для тех задач, где частично снятая не подходит.

Если вы хотите присоединиться к этой деятельности, то воспользуйтесь
инструкцией, которая сейчас выложена во вконтакт:

http://vk.com/wall-29874644_8

Работы очень много и мы будем благодарны как за непосредственное участие
в разметке, так и за "рассказать друзьям / студентам / коллегам" про эту задачу
и её смысл.

Интерфейс разметки работает и на мобильных устройствах тоже, т.е. при наличии
Интернета на телефоне размечать можно даже по дороге на работу ;)

С уважением,
Бочаров Виктор
OpenCorpora.org

5 июня 2012 г., 13:06 пользователь Mikhail Korobov
<kmi...@googlemail.com> написал:

Reply all

Reply to author

Forward