В нынешнем xml от opencorpora есть много того, что будет полезно для адаптации главы 6:
<tags>
<tag>Год:2008</tag>
<tag>Дата:10/11</tag>
<tag>Тема:ЧасКор:В мире</tag>
<tag>Тема:ЧасКор:В мире/Война и мир</tag>
</tags>
Можно подумать, что бы еще хотелось.
Задачи главы 6:
* классификация по полу автора (нужна метка с полом автора у текстов);
* классификация по позитивности/негативности (тут нужна база каких-то отзывов, не уверен, что имеет смысл ее делать);
* определение частей речи (подойдет любой корпус со снятой омонимией по частям речи);
* разбиение текста на предложение (корпус с разбитым на предложения текстом - в opencorpora и так сегментация на предложения ручная);
* классификация по типам диалогов (по-моему смысла нет адаптировать, т.к. усилий на составление подобного корпуса много можно потратить);
* RTE (нужен опять-таки еще корпус с гипотезами и текстами, что, как мне кажется, сильно за рамки перевода выходит);
Если резюмировать, то половину главы можно будет проиллюстрировать на русском корпусе со снятой омонимией, в котором у некоторых текстов проставлены метки пола автора.