Адаптация главы 6

99 views
Skip to first unread message

Mikhail Korobov

unread,
Apr 9, 2012, 12:59:59 PM4/9/12
to nltk-r...@googlegroups.com

В нынешнем xml от opencorpora есть много того, что будет полезно для адаптации главы 6:

  <tags>
    <tag>Год:2008</tag>
    <tag>Дата:10/11</tag>
    <tag>Тема:ЧасКор:В мире</tag>
    <tag>Тема:ЧасКор:В мире/Война и мир</tag>
  </tags>

Можно подумать, что бы еще хотелось.

Задачи главы 6:

* классификация по полу автора (нужна метка с полом автора у текстов); 
* классификация по позитивности/негативности (тут нужна база каких-то отзывов, не уверен, что имеет смысл ее делать);
* определение частей речи (подойдет любой корпус со снятой омонимией по частям речи);
* разбиение текста на предложение (корпус с разбитым на предложения текстом - в opencorpora и так сегментация на предложения ручная);
* классификация по типам диалогов (по-моему смысла нет адаптировать, т.к. усилий на составление подобного корпуса много можно потратить);
* RTE (нужен опять-таки еще корпус с гипотезами и текстами, что, как мне кажется, сильно за рамки перевода выходит);

Если резюмировать, то половину главы можно будет проиллюстрировать на русском корпусе со снятой омонимией, в котором у некоторых текстов проставлены метки пола автора. 

Mikhail Korobov

unread,
Apr 9, 2012, 1:06:02 PM4/9/12
to nltk-r...@googlegroups.com
Хотя не понятно, можно ли, с учетом лицензии книги. 

понедельник, 9 апреля 2012 г., 22:59:59 UTC+6 пользователь Mikhail Korobov написал:
Reply all
Reply to author
Forward
0 new messages