Всем привет. Более-менее довел до вменяемого состояния питоний интерфейс к OpenCorpora:
https://github.com/kmike/opencorpora-tools . API почти такой же, как в CorpusReader из NLTK, но с небольшими тонкостями (это вроде ОК, так и в NLTK у разных корпусов API разный). Пробовал только под макосью, работать должно под python 2.6, 2.7 и 3.2; покрытие тестами примерно 85%. Пожелания, предложения, баг-репорты и прочая помощь приветствуется)
Сделал отдельным проектом, а не pull request'ом в NLTK, т.к. не хочется фиксировать текущую версию корпуса (он развивается постоянно) + хорошо бы еще проверить, как все работает.