Всех приветствую!!!
Очередное обновление касается дополнительной обработки текста и синтеза.
Подходим к профессиональному уровню.
Для расстановки ударений с помощью руакцент, добавлен фонемизатор Ruphon.
В омографах, руакцент косячит, но с фонемизатором, по ощущению, в
словах, делает ошибок меньше.
При использовании лёгких библиотек, опять же, по ощущению, речь стала
ровнее.
В программе присутствуют две модели ruphon, big и small.
Big прикручена по умолчанию и имеет 28 миллионов параметров. Модель
small, в два раза меньше.
Если вдруг, использование большой модели сказывается ощутимо, на
скорости синтеза, то открываем файл воркера, в блокноте, поиском находим
big, встречается три раза, и заменяем на small.
Или же, переходим на использование пользовательских словарей.
Здесь, возможности расширил многократно.
Программы, о которых речь пойдёт ниже, удобны и полезны для всех
синтезаторов, а не только для Vosk-TTS.
В папку с программой, добавил утилиту Yorick. Она находится в папке distr.
Штука эта предназначена, как нетрудно догадаться по названию, для замены
е на ё в fb2 файлах.
Единственный недостаток, отсутствие возможности добавления своих правил.
А покрывает она потребности процентов на семьдесят.
Работает максимально просто. Закидываем в папку distr, fb2 файл или
пачку таковых, запускаем экзешник, проходим один раз табом до кнопки
пуск и тут же наблюдаем за процессом, до появления надписи Готово.
Всё. Программу закрыли, отправили на конвертацию в текстовый формат. В
этой же папке находится ярлык на сайт конвертер, а также, программа от
Маргариты Мельниковой. За что ей спасибо. Получилась простая, но очень
хорошая программка.
Далее, в папку программы, также добавил ещё одну программу ruRoberta-GUI.
Это программа для определения и расстановки в тексте все и всё.
Работает на мощных обученных моделях локально.
Для неё специально написал доступный для нас интерфейс.
Ярлык для запуска находится в папке основной программы и называется
Start ruRoberta-GUI.cmd.
Для тех, кто планирует её использовать на видео карте, необходимо из
папки ruRoberta-GUI, выкинуть в основную папку установщик компонентов
Install ruRoberta-GUI GPU.cmd и выполнить установку компонентов
виртуального окружения.
Для процессора, всё установлено и настроено, кроме самих моделей.
Они загрузяться при первом старте, после выбора и запуска обработки текста.
В программе поддерживаются четыре модели.
Модели весят по несколько Гб и и имеют по несколько сотен миллионов
параметров. Дюже умные, короче.
ai-forever/ruRoberta-large
DeepPavlov/rubert-base-cased-conversational
sberbank-ai/ruBert-large
DeepPavlov/rubert-base-cased
Модель от Сбера, имеет наибольшее количество параметров, а модель
DeepPavlov/rubert-base-cased-conversational, на тестах, как пишут на
форуме, даёт наилучший результат. Поэтому, нужно пробовать и сравнивать,
в итоге, выбрав наилучшую.
При первом запуске обработки, как писал ранее, нужно дождаться загрузки
модели. В дальнейшем, она будет запускаться локально и побыстрому.
На процессоре, у меня работает очень шустро. Книги можно загружать
целиком, в текстовом формате.
В общем, эти добавления, отнимут немного времени для предварительной
обработки текста перед синтезом, но существенно улучшат конечный результат.
По старинке, даю две ссылки. Первая на архив с программой, вторая, на
архив с моделями, если вдруг, у кого их ещё нет.
Архив с программой.
https://yadi.sk/d/aP4vfSIQ_Fo9dg
Архив с голосовыми моделями.
https://yadi.sk/d/RVKfLhDB1_qT0A
Всем добра!