адаптация ресурсов к русскому языку

1,215 views
Skip to first unread message

Alisa_IPN

unread,
Mar 28, 2012, 7:37:36 PM3/28/12
to nltk-russian, nlp-p...@googlegroups.com
Цитирую с форума nlp-class:

"Там проблема в том, что в книге много чего заточено на английский
язык, и на русский 1 в 1 не перекладывается. Было бы интересно к
русскому ее адаптировать: интерфейс для русского корпуса сделать
(opencorpora.org или http://ruscorpora.ru/), русский POS-теггер
(http://pymorphy.readthedocs.org c каким-то nltk-совместимым
интерфейсом?) и тд. " по Mikhail Korobov.

Да, про это же говорится и в инструкции:

5. Language resources¶

Annotated corpora can be conveniently distributed using NLTK's corpus
downloader. Where possible, obtain permission to redistribute existing
corpora (or corpus samples) in the language, and add these to NLTK's
corpus collection. Submit a ticket to NLTK's issue tracker, giving the
URL of the corpus, stating its license, and describing any agreement
with the provider of the data.


Давайте это обсудим здесь.

Egor Kazachkov

unread,
Mar 29, 2012, 2:27:16 AM3/29/12
to nltk-russian
Большой вопрос по поводу какой корпус выбрать. С одной стороны,
ruscorpora только online, для offline предлагается небольшая часть,
вопросы с лицензией. Зато сам корпус богаче. Opencorpora гораздо
меньше, зато полностью свободна, и развивается на открытых началах.

Статистику, на беглый взгляд, они дают схожую.

On Mar 29, 3:37 am, Alisa_IPN <alisa.zh...@gmail.com> wrote:
> Цитирую с форума nlp-class:
>
> "Там проблема в том, что в книге много чего заточено на английский
> язык, и на русский 1 в 1 не перекладывается. Было бы интересно к
> русскому ее адаптировать: интерфейс для русского корпуса сделать
> (opencorpora.org илиhttp://ruscorpora.ru/), русский POS-теггер

> (http://pymorphy.readthedocs.orgc каким-то nltk-совместимым

Mikhail Korobov

unread,
Mar 29, 2012, 8:34:18 AM3/29/12
to nltk-r...@googlegroups.com
Небольшая размеченная offline-часть ruscorpora вроде сильно больше, чем вся размеченная часть opencorpora. 
Кроме того, opencorpora развивается (и это очень хорошо), а ruscorpora более-менее зафиксирован (offline-часть, по крайней мере) - по этой причине ruscorpora может быть проще добавить в nltk. 

Мне кажется, хорошо бы сделать интерфейсы и к тому, и к другому - а этом ничего особо сложного нет, а польза большая. Какой из корпусов выбрать для перевода - думаю, этот вопрос лучше отложить на как можно более позднее время, opencorpora до какого-то состояния разовьется, с ruscorpora могут какие-то вопросы решиться (раньше ведь offline-части совсем не было).

Вопрос там еще в том, что обозначения для грамматической информации у всех разные: у opencorpora один формат, у ruscorpora второй, у pymorphy (и aot.ru) третий, на ДИАЛОГ-2010 был четвертый, у большинства других морф. анализаторов тоже свои форматы. У меня была идея сделать библиотеку для преобразования между различными форматами представления грам. информации для русского языка ( https://github.com/kmike/russian-tagsets ) через общий формат-посредник ( http://ufal.mff.cuni.cz/~hana/morph/rutags.html ), но я успел только перевести этот формат-посредник в питоний код, нахлынули другие дела и все подзаглохло, не доделал, короче говоря.

четверг, 29 марта 2012 г. 12:27:16 UTC+6 пользователь Egor Kazachkov написал:

Alisa_IPN

unread,
Mar 31, 2012, 8:39:40 PM3/31/12
to nltk-russian
Пока ничего не могу сказать по поводу преимуществ того или иного
корпуса.
А что там с лицензией оффлайн корпуса?

Еще нужно учесть, что перевод вместе с переводом ресурсов хотелось
бы закончить за какое-то ограниченное время, макс. за полгода.
Поэтому, если ждать "доделывания" ресурсов неизвестно сколько, лучше в
какой-то момент воспользоваться тем, что есть.


Alisa_IPN

unread,
Apr 3, 2012, 4:01:55 PM4/3/12
to nltk-russian
Я тут нашла такую штуку: http://nltk.googlecode.com/svn/trunk/doc/api/nltk.stem.snowball.RussianStemmer-class.html

Пока не смотрела, может, пригодится.

А вообще, чтобы систематизировать адаптация, думаю, стоит
воспользоваться списком из Предисловия:

Language processing task NLTK modules Functionality
Accessing corpora nltk.corpus standardized interfaces to corpora and
lexicons
String processing nltk.tokenize, nltk.stem tokenizers,
sentence tokenizers, stemmers
Collocation discovery nltk.collocations t-test, chi-squared, point-
wise mutual information
Part-of-speech tagging nltk.tag n-gram, backoff, Brill, HMM, TnT
Classification nltk.classify, nltk.cluster decision
tree, maximum entropy, naive Bayes, EM, k-means
Chunking nltk.chunk regular expression, n-gram, named-
entity
Parsing nltk.parse chart, feature-based,
unification, probabilistic, dependency
Semantic interpretation nltk.sem, nltk.inference lambda calculus,
first-order logic, model checking
Evaluation metrics nltk.metrics precision, recall,
agreement coefficients
Probability and estimation nltk.probability frequency distributions,
smoothed probability distributions
Applications nltk.app, nltk.chat graphical concordancer,
parsers, WordNet browser, chatbots
Linguistic fieldwork nltk.toolbox manipulate data in SIL Toolbox
format

Вот если бы к каждому пунткту русский аналог пристроить... Тогда
можно было бы переводить спокойной.

Может быть, адаптирующие, аналогично переводчикам, разберут себе
каждый по несколько пунктов и посмотрят. Наверняка есть модули,
которые не зависят от языка.

Mikhail Korobov

unread,
Apr 3, 2012, 8:02:56 PM4/3/12
to nltk-r...@googlegroups.com
Насчет лицензии - "для свободного пользования предоставляется случайная выборка предложений". 

http://ruscorpora.ru/corpora-usage.html

Но перед этим мутно как-то написано, "Все результаты интеллектуальной деятельности, используемые в НКРЯ и размещаемые в сети Интернет по адресу http://www.ruscorpora.ru/, доступны исключительно для некоммерческого использования в научно-исследовательских и учебных целях (в соответствии со статьей 1274 ГК РФ). Они не предназначены ни для чтения/просмотра, ни для копирования, ни для иных видов использования: их можно использовать в режиме поиска как источники примеров (цитат), иллюстрирующих то или иное языковое явление. При цитировании примеров, полученных с помощью НКРЯ, необходимо ссылаться на НКРЯ как источник примеров, а также указывать имена всех авторов и название произведения, из которого заимствован пример."

И непонятно, входит ли случайная выборка предложений в "все результаты интеллектуальной деятельности, ...". 

Короче, посмотрел еще раз и туда, и в opencorpora - предлагаю использовать opencorpora, там вполне большой и хороший корпус, который развивается и без проблем с лицензиями.
 
воскресенье, 1 апреля 2012 г. 6:39:40 UTC+6 пользователь Alisa_IPN написал:

Dmitry Granovsky

unread,
Apr 4, 2012, 2:53:35 AM4/4/12
to nltk-r...@googlegroups.com, Victor Bocharov
Привет,

Я, конечно, заинтересованное лицо (как один из разработчиков
OpenCorpora), но тем не менее :-)

Лицензия НКРЯ несовместима с какими-либо свободными лицензиями и с
вероятностью 99% никогда не будет. Подробности можно у Вити спросить
(в копии).

4 апреля 2012 г. 4:02 пользователь Mikhail Korobov
<kmi...@googlemail.com> написал:

--
Best regards,
Dmitry V. Granovsky

Kairat Rakhim

unread,
Apr 5, 2012, 1:59:55 PM4/5/12
to nltk-r...@googlegroups.com, nlp-p...@googlegroups.com
Меня вот что беспокоит. Не завязнем ли мы, пытаясь адаптировать по максимуму с результатом, который не стыдно засабмитить в NLTK и опубликовать в книге? Стивен Бёрд перечислил языковые ресурсы, которые следовало бы иметь для идеальной адаптации, но он не упомянул, что в таком случае придется переписать заново значительную часть текста книги. Просто потому, что язык другой, с другими закономерностями. Взять хотя бы флексии. В оригинале нормализации текста посвящены две страницы, английские примеры и без нее будут прилично работать. А русские? Вообще насколько выполнима идеальная адаптация, и что при этом останется от оригинала, кроме структуры?
С другой стороны, это в рассылке автор писал о возможной идеальной адаптации, но в руководстве по переводу вовсе не требуют переделывать текст и примеры. Там рекомендуется делать к главам приложения или собрать how-to в одном месте (руководство, раздел 4).
Хотелось бы посмотреть, кто как адаптирует. Но польский и португальский переводы, по-видимому, заглохли. Вышел из печати только японский. Японцы добавили дополнительную главу, посвященную национальной специфике (гуглоперевод). Содержание главы:

Handling of the Japanese in Python
12.1 Handling of Japanese corpus

    12.1.1 plain text corpus
    12.1.2 corpus with tags
    12.1.3 parsed corpus dependency structure
    Corpus of text processing using 12.1.4
    12.1.5 Japanese WordNet
    12.1.6 Other Japanese corpus

Japanese morphological analysis 12.2

    12.2.1 morphological analysis algorithm
    12.2.2 use the character segmentation unit
    12.2.3 MeCab use
    12.2.4 JUMAN use
    12.2.5 other topics

Japanese parsing 12.3

    Structural analysis of clause 12.3.1
    Chunking clause 12.3.2
    12.3.3 CaboCha use
    Use the 12.3.4 KNP
    12.3.5 dependency parsing

12.4 Japanese semantic analysis

    12.4.1 of its acquisition of case frames
    12.4.2 Japanese LFG
    Japanese phrase structure grammar 12.4.3 (ICOT JPSG)
    12.4.4 Other Japanese HPSG
    Predicate structure analysis section 12.4.5
    12.4.6 anaphora resolution

12.5 to learn more

    12.5.1 Website
    12.5.2 general textbook
    12.5.3 morphological analysis
    Kana-Kanji conversion 12.5.4
    12.5.5 parsing and semantic analysis
    12.5.6 machine translation
    12.5.7 Information Retrieval

Exercise 12.6
Acknowledgment
Reference

Будем ли переделывать примеры, если это влечет переписывание текста? Разрешено ли такое вмешательство в текст? (возможно, что нет. В руководстве говорится, что переводчики будут считаться авторами приложений, но не соавторами книги) Если не будем/не разрешено, то стоит ли переделывать простые примеры со строками?
Если выделять национальную специфику в приложения, то к каждой главе или собрать их вместе?

Maxim Sokolov

unread,
Apr 5, 2012, 2:23:02 PM4/5/12
to nltk-russian
Поддерживаю Кайрата.
Речь все-таки идет о переводе авторской книги, а не о ее вольной
переработке, и границы для свободы творчества заданы Стивеном довольно
жестко - дополнения, но не переделка самого текста.
Кроме того, в качестве одного из основных преимуществ использования
Python для NLP авторы называют простоту и ясность кода на этом языке.
Если адаптировать все примеры к русскому языку, эта ясность частично
исчезнет. И с методической точки зрения, мне кажется, читателю будет
проще сначала понять принцип на более простом английском примере, а
уже потом переносить эти идеи на русский язык.

Максим

On Apr 5, 9:59 pm, Kairat Rakhim <qaj...@gmail.com> wrote:
> Меня вот что беспокоит. Не завязнем ли мы, пытаясь адаптировать по
> максимуму с результатом, который не стыдно засабмитить в NLTK и
> опубликовать в книге? Стивен Бёрд перечислил

> <http://groups.google.com/group/nltk-russian/browse_thread/thread/b086...>языковые


> ресурсы, которые следовало бы иметь для идеальной адаптации, но он не
> упомянул, что в таком случае придется переписать заново значительную часть
> текста книги. Просто потому, что язык другой, с другими закономерностями.
> Взять хотя бы флексии. В оригинале нормализации текста посвящены две
> страницы, английские примеры и без нее будут прилично работать. А русские?
> Вообще насколько выполнима идеальная адаптация, и что при этом останется от
> оригинала, кроме структуры?

> С другой стороны, это в рассылке автор писал о *возможной *идеальной


> адаптации, но в руководстве по переводу вовсе не требуют переделывать текст
> и примеры. Там рекомендуется делать к главам приложения или собрать how-to

> в одном месте (руководство<http://code.google.com/p/nltk/wiki/TranslatorsGuide>,


> раздел 4).
> Хотелось бы посмотреть, кто как адаптирует. Но польский и португальский

> переводы, по-видимому, заглохли. Вышел из печати только японский<http://www.oreilly.co.jp/books/9784873114705/>.
> Японцы добавили дополнительную главу<http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html>,
> посвященную национальной специфике (гуглоперевод<http://translate.google.com/translate?sl=ja&tl=en&js=n&prev=_t&hl=en&...>).

> > (opencorpora.org илиhttp://ruscorpora.ru/), русский POS-теггер

> > (http://pymorphy.readthedocs.orgc каким-то nltk-совместимым

Egor Kazachkov

unread,
Apr 5, 2012, 2:36:14 PM4/5/12
to nltk-russian
Я тоже за умеренную адаптацию. Лучше сделать перевод, ориентированный
на имеющиеся возможности NLTK, дополнив приложением о русской
специфике. Когда это получится, можно подумать и об адаптации NLTK на
третий питон, и о новом варианте перевода.

> > > (http://pymorphy.readthedocs.orgcкаким-то nltk-совместимым

Mikhail Korobov

unread,
Apr 5, 2012, 4:07:00 PM4/5/12
to nltk-r...@googlegroups.com, nlp-p...@googlegroups.com
Мне лично просто перевод с минимальной адаптацией не очень интересен: можно и на английском книгу прочитать, каждый уважающий себя специалист должен уметь читать материалы на английском языке и так, большая часть информации на английском ведь написана. Поэтому мне лично кажется, что просто перевод книги на русский язык без адаптации не очень полезен - получим книгу на русском языке, которую к русскому языку непонятно как и применять-то.

Вопросы адаптации "в общем" обсуждать сложно, может конкретно по каждой главе смотреть, что можно сделать?

Кстати, про лицензию книги - она и правда ограничивающая: http://creativecommons.org/licenses/by-nc-nd/3.0/us/ , сразу этого не заметил. "No Derivative Works — You may not alter, transform, or build upon this work." Т.е. книгу "NLTK для русского языка" писать нельзя, похоже. И ошибки в книге исправлять нельзя. Это полное право авторов издавать книгу под любой лицензией, но, думаю, вопрос о лицензии можно все-таки поднять (конкретно с nltk прецедент уже был: раньше код был под GPL, но потом поменяли на менее ограничивающую Apache License).

четверг, 5 апреля 2012 г. 23:59:55 UTC+6 пользователь Kairat Rakhim написал:

Mikhail Korobov

unread,
Apr 5, 2012, 5:10:30 PM4/5/12
to nltk-r...@googlegroups.com, nlp-p...@googlegroups.com
Неправильно выразился: русский перевод книги - это очень хорошее и полезное дело; мне просто кажется, что если книгой сразу можно будет пользоваться применительно к русскому языку, то перевод будет еще полезнее.

пятница, 6 апреля 2012 г., 2:07:00 UTC+6 пользователь Mikhail Korobov написал:

Max Sokolov

unread,
Apr 5, 2012, 5:18:56 PM4/5/12
to nltk-r...@googlegroups.com
Нам ничего не мешает с помощью дополнений сделать так, чтобы книгой сразу можно было пользоваться применительно к русскому языку. При этом, мне кажется, возможность писать о русском языке именно в дополнениях дает нам даже большую гибкость по сравнению с необходимостью придерживаться жестко заданной структуры исходного текста.
Главное - грамотно продумать структуру и расставить перекрестные ссылки, чтобы, прочитав кусок с английским примером, читатель мог быстро перейти к соответствующему русскому примеру.

2012/4/6 Mikhail Korobov <kmi...@googlemail.com>



--
Maxim Sokolov
+ 7 (926) 756-02-64

Victor Bocharov

unread,
Apr 6, 2012, 10:49:43 AM4/6/12
to nltk-r...@googlegroups.com
Привет!

Я тоже заинтересованное лицо, т.к. занимаюсь OpenCorpora.

Добавлю ещё один комментарий про корпуса.

Многие корпуса текстов на русском языке несовместимы
со свободными лицензиями ввиду того, что включают тексты,
защищённые законом об авторском праве.

Эта же ситуация имеет место и с НКРЯ: можно придумать способ
сделать его более доступным чем сейчас (перемешанные выборки,
отобрать тексты, находящиеся в public domain, ...), но сделать его
свободным целиком в смысле Creative Commons мне кажется
слишком дорогостоящей затеей, т.к. в него входят тексты нескольких
десятков тысяч авторов, и со всеми придётся как-то договариваться.

Есть смысл написать обращение / позвонить коллегам из НКРЯ
с просьбой предоставить перемешанную выборку на условиях
Creative Commons и увеличить её объём, чтобы эти данные можно
было использовать для русского перевода NLTK.

Даже если эта просьба останется без ответа, это будет ещё один
шаг к тому, чтобы НКРЯ был более доступен, и я буду благодарен
всем, кто напишет и позвонит, т.к. уже около года стараюсь убедить
их в том, что всё это стоит делать.

Координаты есть на сайте Национального корпуса.

Про использование OpenCorpora.org в NLTK:

- Какие есть требования к русскому корпусу для NLTK?
- Какого объёма он должен быть?
- С какой разметкой?
- К какому моменту времени всё это нужно?

С уважением,
Бочаров Виктор
OpenCorpora.org


4 апреля 2012 г. 10:53 пользователь Dmitry Granovsky
<dima.gr...@gmail.com> написал:

Mikhail Korobov

unread,
Apr 8, 2012, 12:11:35 AM4/8/12
to nltk-r...@googlegroups.com
Привет!

Начал делать питоний интерфейс к OpenCorpora: https://github.com/kmike/opencorpora-tools

Там пока утилита командной строки для скачивания последней версии текстов + класс, который позволяет из здоровенного xml от opencorpora выдирать и парсить отдельные тексты без загрузки всего файла в память (и без построения всего DOM-дерева) - "в лоб" парсить xml на 250Мб не получается. Немного тестов есть, работать все должно на python 2.6, 2.7, 3.2, на pypy 1.8.

Это все сейчас никак не завязано на nltk (мне так удобнее), но интерфейс к корпусу будет совместимый с nltk (там требований четких нет, у разных корпусов в nltk интерфейсы разные, но некоторые соглашения все же есть, и в opencorpora-tools их постараюсь придерживаться).

пятница, 6 апреля 2012 г., 20:49:43 UTC+6 пользователь Victor Bocharov написал:
Не могу отвечать за всех, и "требования" тоже вряд ли есть четкие. В идеале хотелось бы иметь размеченный корпус максимального объема со снятой неоднозначностью в токенизации и морфологии. 

пятница, 6 апреля 2012 г., 20:49:43 UTC+6 пользователь Victor Bocharov написал:

Victor Bocharov

unread,
Apr 9, 2012, 12:29:38 PM4/9/12
to nltk-r...@googlegroups.com
В OpenCorpora сейчас полностью вручную сделана сегментация. Снятие
морфологической
омонимии планируем запустить в ближайшее время. В данный момент тестируем
пользовательский интерфейс и отлаживаем процессы, связанные с этим.

Есть ещё один вопрос про текстовые ресурсы. Кажется вполне реалистичным вытащить
тексты из источников, опубликованных под Creative Commons (русские
разделы Википедии
и Викиновостей, Частный корреспондент, ...), и собрать их в вместе в
один текстовый ресурс.
В таком ресурсе не будет ручной лингвистической разметки, но будут
вручную проставленные
тематические метки и, иногда, имя автора, т.е. можно будет выбирать
себе наборы текстов
по автору, по теме, по дате и т.д.. Такой ресурс будет тоже свободен
от проблем с правами.

Что вы об этом думаете?
Будет ли это нужно, например, при адаптации шестой главой nltk-book?

8 апреля 2012 г. 8:11 пользователь Mikhail Korobov

Mikhail Korobov

unread,
Apr 9, 2012, 1:00:33 PM4/9/12
to nltk-r...@googlegroups.com
понедельник, 9 апреля 2012 г., 22:29:38 UTC+6 пользователь Victor Bocharov написал:
В OpenCorpora сейчас полностью вручную сделана сегментация. Снятие
морфологической
омонимии планируем запустить в ближайшее время. В данный момент тестируем
пользовательский интерфейс и отлаживаем процессы, связанные с этим.

Есть ещё один вопрос про текстовые ресурсы. Кажется вполне реалистичным вытащить
тексты из источников, опубликованных под Creative Commons (русские
разделы Википедии
и Викиновостей, Частный корреспондент, ...), и собрать их в вместе в
один текстовый ресурс.
В таком ресурсе не будет ручной лингвистической разметки, но будут
вручную проставленные
тематические метки и, иногда, имя автора, т.е. можно будет выбирать
себе наборы текстов
по автору, по теме, по дате и т.д.. Такой ресурс будет тоже свободен
от проблем с правами.

Что вы об этом думаете?
Будет ли это нужно, например, при адаптации шестой главой nltk-book?


Да, такой ресурс конечно же будет полезен. Вроде в нынешнем XML многое из этого уже есть ведь? Ответил тут: https://groups.google.com/forum/?fromgroups#!topic/nltk-russian/Cht36tw5C-A

Victor Bocharov

unread,
Apr 10, 2012, 4:44:14 AM4/10/12
to nltk-r...@googlegroups.com

Есть, но в количество текстов в корпусе, размеченном вручную, существенно меньше, чем в источниках, откуда взяты текста. Тематическая классификация и другие метки в источниках уже проставлены авторами. Т.е. создание текстового ресурса с текстами и метками - это в существенной мере техническая работа, а не ручная доразметка.

09.04.2012 21:00 пользователь "Mikhail Korobov" <kmi...@googlemail.com> написал:

Leonīds Sošinskis

unread,
Apr 10, 2012, 5:57:14 AM4/10/12
to nltk-r...@googlegroups.com
Виктор, я думаю одним из наиболее эффективных способов было бы написать им письмо (возможно, уже на основе написанных вами) с пояснением почему так необходимы подобные тексты в свободном доступе и подписаться под ним большим количеством народа. Как вам такая идея? Я подпишусь и человек 5 ко мне в этом присоединится :)

Alisa Zhila

unread,
May 31, 2012, 3:10:28 AM5/31/12
to Leonīds Sošinskis, nltk-r...@googlegroups.com
Привет всем!

Я тут нахожусь на российской конф. по комп. лингвистике.  Здесь вполне можно договориться  об использовании какого-то корпуса. Нас  в первую очередь НКРЯ интересует?   И его полное открытое использование по лицензии Creative Commons? 
 
Вы писали 10 апреля 2012 г., 13:57:14:

-- 
С уважением,
 Alisa                          
mailto:alisa...@gmail.com

Dmitry Granovsky

unread,
May 31, 2012, 3:33:04 AM5/31/12
to nltk-r...@googlegroups.com, Leonīds Sošinskis
С НКРЯ можно даже не пробовать :-)

31 мая 2012 г., 11:10 пользователь Alisa Zhila <alisa...@gmail.com> написал:

Lenny Soshinskiy

unread,
May 31, 2012, 3:38:52 AM5/31/12
to nltk-r...@googlegroups.com, Leonīds Sošinskis
Ну, знаете, что стоило бы сделать — так это объединиться всем учёным, занимающимся компьютерной лингвистикой, и вместе создавать этот корпус и устранять в нём неоднозначности. Вот рассказать об этом как можно большему числу учёных — вот это стоило бы, imho.

Alisa Zhila

unread,
May 31, 2012, 4:14:36 AM5/31/12
to Lenny Soshinskiy, nltk-r...@googlegroups.com
Ну, если мы еще и корпус булем создавать в рамках адаптации книги НЛТК, то так  мы никогда не закончим. 
 Может, подписи собрать об открытии доступа и использовани НКРЯ? Как , кажется, Вы же и предлагали.  
А про открытый корпус - так  это OPenCorpus проект, наверное. 

 

Вы писали 31 мая 2012 г., 11:38:52:

Dmitry Granovsky

unread,
May 31, 2012, 4:21:37 AM5/31/12
to nltk-r...@googlegroups.com, Lenny Soshinskiy
Собирать подписи, боюсь, не поможет. Там юридические ограничения. Нельзя открыть НКРЯ.

31 мая 2012 г., 12:14 пользователь Alisa Zhila <alisa...@gmail.com> написал:

Виталий Инфлянскас

unread,
May 31, 2012, 8:05:33 AM5/31/12
to nltk-r...@googlegroups.com
Я месяц-два назад написал в НКРЯ вопрос по-поводу лицензии (просил разъяснить ограничения, у них на сайте какая-то фигня написана), но они мне, естественно, не ответили. 

Я думаю, что если кому-то так нужен корпус, то надо не свой велосипед разрабатывать, а присоединяться к opencorpora.org
Вообще, конечно, глупо, что у нас нац.корпус закрыт, но что же тут поделаешь...


31 мая 2012 г., 12:21 пользователь Dmitry Granovsky <dima.gr...@gmail.com> написал:

Alisa Zhila

unread,
May 31, 2012, 1:54:26 PM5/31/12
to Виталий Инфлянскас, nltk-r...@googlegroups.com
Я только что, после прослушивания доклада Вити Бочкарева на Диалоге, зарегистрировалась на opencorpora.org,  хорошая инициатива. 
А кто реально занимается адаптацией НЛТК  ресурсов для русского языка, говорили, что opencorpora не подходит? Маловат? Или вполне можно было бы работать? а  корпус бы тем временем вырос (переводим же мы не очень быстро ;)


Вы писали 31 мая 2012 г., 16:05:33:

Alisa Zhila

unread,
May 31, 2012, 1:58:49 PM5/31/12
to Виталий Инфлянскас, nltk-r...@googlegroups.com
Пардон, Виктор Бочаров, конечно,  описалась чутка :)

Вы писали 31 мая 2012 г., 16:05:33:

Reply all
Reply to author
Forward
0 new messages