"Там проблема в том, что в книге много чего заточено на английский
язык, и на русский 1 в 1 не перекладывается. Было бы интересно к
русскому ее адаптировать: интерфейс для русского корпуса сделать
(opencorpora.org или http://ruscorpora.ru/), русский POS-теггер
(http://pymorphy.readthedocs.org c каким-то nltk-совместимым
интерфейсом?) и тд. " по Mikhail Korobov.
Да, про это же говорится и в инструкции:
5. Language resources¶
Annotated corpora can be conveniently distributed using NLTK's corpus
downloader. Where possible, obtain permission to redistribute existing
corpora (or corpus samples) in the language, and add these to NLTK's
corpus collection. Submit a ticket to NLTK's issue tracker, giving the
URL of the corpus, stating its license, and describing any agreement
with the provider of the data.
Давайте это обсудим здесь.
Статистику, на беглый взгляд, они дают схожую.
On Mar 29, 3:37 am, Alisa_IPN <alisa.zh...@gmail.com> wrote:
> Цитирую с форума nlp-class:
>
> "Там проблема в том, что в книге много чего заточено на английский
> язык, и на русский 1 в 1 не перекладывается. Было бы интересно к
> русскому ее адаптировать: интерфейс для русского корпуса сделать
> (opencorpora.org илиhttp://ruscorpora.ru/), русский POS-теггер
> (http://pymorphy.readthedocs.orgc каким-то nltk-совместимым
Еще нужно учесть, что перевод вместе с переводом ресурсов хотелось
бы закончить за какое-то ограниченное время, макс. за полгода.
Поэтому, если ждать "доделывания" ресурсов неизвестно сколько, лучше в
какой-то момент воспользоваться тем, что есть.
Пока не смотрела, может, пригодится.
А вообще, чтобы систематизировать адаптация, думаю, стоит
воспользоваться списком из Предисловия:
Language processing task NLTK modules Functionality
Accessing corpora nltk.corpus standardized interfaces to corpora and
lexicons
String processing nltk.tokenize, nltk.stem tokenizers,
sentence tokenizers, stemmers
Collocation discovery nltk.collocations t-test, chi-squared, point-
wise mutual information
Part-of-speech tagging nltk.tag n-gram, backoff, Brill, HMM, TnT
Classification nltk.classify, nltk.cluster decision
tree, maximum entropy, naive Bayes, EM, k-means
Chunking nltk.chunk regular expression, n-gram, named-
entity
Parsing nltk.parse chart, feature-based,
unification, probabilistic, dependency
Semantic interpretation nltk.sem, nltk.inference lambda calculus,
first-order logic, model checking
Evaluation metrics nltk.metrics precision, recall,
agreement coefficients
Probability and estimation nltk.probability frequency distributions,
smoothed probability distributions
Applications nltk.app, nltk.chat graphical concordancer,
parsers, WordNet browser, chatbots
Linguistic fieldwork nltk.toolbox manipulate data in SIL Toolbox
format
Вот если бы к каждому пунткту русский аналог пристроить... Тогда
можно было бы переводить спокойной.
Может быть, адаптирующие, аналогично переводчикам, разберут себе
каждый по несколько пунктов и посмотрят. Наверняка есть модули,
которые не зависят от языка.
Я, конечно, заинтересованное лицо (как один из разработчиков
OpenCorpora), но тем не менее :-)
Лицензия НКРЯ несовместима с какими-либо свободными лицензиями и с
вероятностью 99% никогда не будет. Подробности можно у Вити спросить
(в копии).
4 апреля 2012 г. 4:02 пользователь Mikhail Korobov
<kmi...@googlemail.com> написал:
--
Best regards,
Dmitry V. Granovsky
Handling of the Japanese in Python
12.1 Handling of Japanese corpus
12.1.1 plain text corpus
12.1.2 corpus with tags
12.1.3 parsed corpus dependency structure
Corpus of text processing using 12.1.4
12.1.5 Japanese WordNet
12.1.6 Other Japanese corpus
Japanese morphological analysis 12.2
12.2.1 morphological analysis algorithm
12.2.2 use the character segmentation unit
12.2.3 MeCab use
12.2.4 JUMAN use
12.2.5 other topics
Japanese parsing 12.3
Structural analysis of clause 12.3.1
Chunking clause 12.3.2
12.3.3 CaboCha use
Use the 12.3.4 KNP
12.3.5 dependency parsing
12.4 Japanese semantic analysis
12.4.1 of its acquisition of case frames
12.4.2 Japanese LFG
Japanese phrase structure grammar 12.4.3 (ICOT JPSG)
12.4.4 Other Japanese HPSG
Predicate structure analysis section 12.4.5
12.4.6 anaphora resolution
12.5 to learn more
12.5.1 Website
12.5.2 general textbook
12.5.3 morphological analysis
Kana-Kanji conversion 12.5.4
12.5.5 parsing and semantic analysis
12.5.6 machine translation
12.5.7 Information Retrieval
Exercise 12.6
Acknowledgment
Reference
Максим
On Apr 5, 9:59 pm, Kairat Rakhim <qaj...@gmail.com> wrote:
> Меня вот что беспокоит. Не завязнем ли мы, пытаясь адаптировать по
> максимуму с результатом, который не стыдно засабмитить в NLTK и
> опубликовать в книге? Стивен Бёрд перечислил
> <http://groups.google.com/group/nltk-russian/browse_thread/thread/b086...>языковые
> ресурсы, которые следовало бы иметь для идеальной адаптации, но он не
> упомянул, что в таком случае придется переписать заново значительную часть
> текста книги. Просто потому, что язык другой, с другими закономерностями.
> Взять хотя бы флексии. В оригинале нормализации текста посвящены две
> страницы, английские примеры и без нее будут прилично работать. А русские?
> Вообще насколько выполнима идеальная адаптация, и что при этом останется от
> оригинала, кроме структуры?
> С другой стороны, это в рассылке автор писал о *возможной *идеальной
> адаптации, но в руководстве по переводу вовсе не требуют переделывать текст
> и примеры. Там рекомендуется делать к главам приложения или собрать how-to
> в одном месте (руководство<http://code.google.com/p/nltk/wiki/TranslatorsGuide>,
> раздел 4).
> Хотелось бы посмотреть, кто как адаптирует. Но польский и португальский
> переводы, по-видимому, заглохли. Вышел из печати только японский<http://www.oreilly.co.jp/books/9784873114705/>.
> Японцы добавили дополнительную главу<http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html>,
> посвященную национальной специфике (гуглоперевод<http://translate.google.com/translate?sl=ja&tl=en&js=n&prev=_t&hl=en&...>).
> > (opencorpora.org илиhttp://ruscorpora.ru/), русский POS-теггер
> > (http://pymorphy.readthedocs.orgc каким-то nltk-совместимым
> > > (http://pymorphy.readthedocs.orgcкаким-то nltk-совместимым
Я тоже заинтересованное лицо, т.к. занимаюсь OpenCorpora.
Добавлю ещё один комментарий про корпуса.
Многие корпуса текстов на русском языке несовместимы
со свободными лицензиями ввиду того, что включают тексты,
защищённые законом об авторском праве.
Эта же ситуация имеет место и с НКРЯ: можно придумать способ
сделать его более доступным чем сейчас (перемешанные выборки,
отобрать тексты, находящиеся в public domain, ...), но сделать его
свободным целиком в смысле Creative Commons мне кажется
слишком дорогостоящей затеей, т.к. в него входят тексты нескольких
десятков тысяч авторов, и со всеми придётся как-то договариваться.
Есть смысл написать обращение / позвонить коллегам из НКРЯ
с просьбой предоставить перемешанную выборку на условиях
Creative Commons и увеличить её объём, чтобы эти данные можно
было использовать для русского перевода NLTK.
Даже если эта просьба останется без ответа, это будет ещё один
шаг к тому, чтобы НКРЯ был более доступен, и я буду благодарен
всем, кто напишет и позвонит, т.к. уже около года стараюсь убедить
их в том, что всё это стоит делать.
Координаты есть на сайте Национального корпуса.
Про использование OpenCorpora.org в NLTK:
- Какие есть требования к русскому корпусу для NLTK?
- Какого объёма он должен быть?
- С какой разметкой?
- К какому моменту времени всё это нужно?
С уважением,
Бочаров Виктор
OpenCorpora.org
4 апреля 2012 г. 10:53 пользователь Dmitry Granovsky
<dima.gr...@gmail.com> написал:
Есть ещё один вопрос про текстовые ресурсы. Кажется вполне реалистичным вытащить
тексты из источников, опубликованных под Creative Commons (русские
разделы Википедии
и Викиновостей, Частный корреспондент, ...), и собрать их в вместе в
один текстовый ресурс.
В таком ресурсе не будет ручной лингвистической разметки, но будут
вручную проставленные
тематические метки и, иногда, имя автора, т.е. можно будет выбирать
себе наборы текстов
по автору, по теме, по дате и т.д.. Такой ресурс будет тоже свободен
от проблем с правами.
Что вы об этом думаете?
Будет ли это нужно, например, при адаптации шестой главой nltk-book?
8 апреля 2012 г. 8:11 пользователь Mikhail Korobov
В OpenCorpora сейчас полностью вручную сделана сегментация. Снятие
морфологической
омонимии планируем запустить в ближайшее время. В данный момент тестируем
пользовательский интерфейс и отлаживаем процессы, связанные с этим.Есть ещё один вопрос про текстовые ресурсы. Кажется вполне реалистичным вытащить
тексты из источников, опубликованных под Creative Commons (русские
разделы Википедии
и Викиновостей, Частный корреспондент, ...), и собрать их в вместе в
один текстовый ресурс.
В таком ресурсе не будет ручной лингвистической разметки, но будут
вручную проставленные
тематические метки и, иногда, имя автора, т.е. можно будет выбирать
себе наборы текстов
по автору, по теме, по дате и т.д.. Такой ресурс будет тоже свободен
от проблем с правами.Что вы об этом думаете?
Будет ли это нужно, например, при адаптации шестой главой nltk-book?
Есть, но в количество текстов в корпусе, размеченном вручную, существенно меньше, чем в источниках, откуда взяты текста. Тематическая классификация и другие метки в источниках уже проставлены авторами. Т.е. создание текстового ресурса с текстами и метками - это в существенной мере техническая работа, а не ручная доразметка.