[rhvoice] Синтезатор белорусской речи

492 views
Skip to first unread message

Anatoli Babenia

unread,
Sep 2, 2015, 10:11:32 AM9/2/15
to hackersp...@googlegroups.com
Всем привет,

Если кто не в курсе, мы тут с нашими незрячими типа решили сами
себе помочь и запилить синтезатор белорусской речи на основе
RHVoice. Попутно пригласить всех, кто не прочь помочь с процессом.
Всё это дело мы решили пиарить в рассылке
https://groups.google.com/forum/#!forum/bel-voice
но т.к. о ней никто ничего не знает и давно никто ничего не пишет, то
я отпишусь здесь, т.к. тема, как мне кажется, интересная.


Я решил поработать с лабораторией синтеза речи в ОИПИ, чтобы
рассказать ребятам о том, что такое GPLный RHVoice, а заодно
устранить пробелы по цепям маркова и нейросетям в собственном
образовании, выявленные в результате CTF игр в команде ZenSecurity,
и внести свой вклад в развитие беларускамоунага суберспэйсу.

Зарплата моя будет 700000 брб. - это 0.25 ставки МНС (младший науч.
сотрудник) и берётся из бюджета, поэтому, как вы понимаете - это
общественно полезная отработка во исполнение декрета президента
РБ "О Тунеядцах". В планах, чтобы не сдохнуть с голоду (и не сесть на
шею к родителям) - либо найти дядю без наследников, который перепишет
на меня завещание для отпущения грехов перед Господом, либо подача
заявления на программу Horizon 2020. Она Европейская, со всеми
осложнениями. Т.е. реально, но не очень.

Для лаборатории меня попросили составить план работ. Вот чего
планирую сделать попутно с просвещением людей о том, что такое
опенсурс и как он работает. Т.к. результаты этой работы будут открыты,
мне кажется, это вполне себе влазит в рамки проекта МХС. =)

Как обычно - вся помощь и весь фидбек приветствуется.

---

Исследование возможностей синтезатора RHVoice с открытым
исходным кодом от Ольги Яковлевой с целью добавления поддержки
модуля белорусского языка и голосов

1. Компиляция и запуск синтезатора RHVoice с базами голосов для русского, английского и эсперанто
2. Пакетирование для незрячих пользователей под Ubuntu + Fedora
3. Допиливание API для работы с синтезатором из Python на основании модуля для NLTK, упаковка и заливка на PyPI
4. Исследование и описание принципов работы синтезатора и его особенностей
5. Исследование компонентов, необходимых для добавления новых языков
(и в частности белорусского) для RHVoice и других синтезаторах основанных
на HTS
6. Исследование компонентов, необходимых для добавления новых голосов для поддержки белорусского языка в RHVoice и другие основанные на HTS
синтезаторы
7. Разработка схемы обновлений и уточнений языковых модулей на уровне
пользователя

Результаты работы будут опубликованы в открытом доступе под open source
лицензией и допускают софинансирование от заинтересованных сторон.


Создание открытого корпуса текстов на белорусском языке

1. Анализ норм авторского права РБ для выборки произведений входящих в
корпус (истёкший копирайт или согласие автора или его родственников)
2. Экспорт мета-данных о произведениях белорусских авторов и
произведениях на белорусском языке в публично доступные семантические
БД для построения запросов (Wikidata как план минимум)
3. Разработка механизма поддержки (периодического обновления и
синхронизации) мета-данных во внешних публично доступных БД
4. Запрос, выборка текстов, оцифровка (если потребуется) с передачей
оцифрованных копий в фонды библиотек, частные коллекции и ресурсы
5. Организация хакатона по полученным открытым текстам


Создание речевого корпуса для подготовки модуля белорусского языка на
RHVoice (совместно с сообществом незрячих и других неравнодушных к теме
людьми)

1. Выбор текста для надиктовки (анализ требований, разработка алгоритмов
оценки текста, и непосредственно выбор самого текста)
2. Надиктовка текста с описанием процесса
3. Разметка текста под требование модели RHVoice
4. Тренировка RHVoice и компиляция полученных голосов
5. Тестирование, исправление недочётов, дополнение БД
6. Публичные разборки и выяснение отношений участников процесса
    (определение интересов, точек конфлифкта и их разрешение)

Как-то так. =) В общем, я бы хотел, чтобы в этом процессе могли
поучаствовать как можно больше людей, которым интересна тема, и
т.е. мне будут платить за это деньги, то я так и быть, взвалю на себя
ответственность побыть общественно доступным координатором
процесса с написанием периодических отчётов и устраиванием движухи.
Reply all
Reply to author
Forward
0 new messages