Всех приветствую!!!
Подъехала модель, позволяющая синтезировать голос с клонированием.
И всё это на процессоре и в реальном, а не со ссылкой на вечность, времени.
Модель маленькая, всего 100 м параметров.
Несмотря на это, выдаёт неплохой результат.
Поддерживает двадцать языков, по утверждению разработчиков.
Да, заявлено языков двадцать, но по факту, реально обучены только два.
Китайский и английский.
База для остальных, на фоне этих двух, капля в море.
Поэтому, так как модель требует дообучения, ждём обновлений. Будем
надеяться, они последуют.
Референты нужно подбирать тщательно, отталкиваясь оттого, какой результат
хотим получить.
А он может быть совсем непредсказуем. Для примера, положил файлик с
испанским диктором. При его использовании, для прочтения некоторых
рассказов, реально, Камеди клаб отдыхает.
Это я к тому, что книгу, возможно сделать будет затруднительно, а вот для
креативного контента, возможности очень широки и интересны.
К этой модели, разработчики написали программу, которую можно использовать в
нескольких вариантах.
Не без труда, удалось собрать всё в кучу. Единственно, не удалось установить
пакет, который отвечает за обработку текста для синтеза. Есть там и такая
фишка.
Поэтому, кое-как получилось эту фишку отключить, чтобы программа, хоть
как-то запустилась.
В этом варианте имеется вэб интерфейс. Предназначен он для процессоров с
использованием onnx.
В него добавил кнопку загрузки полученного файла. Иначе его сохранить, тоже,
по непонятным причинам, не получается.
Так же, не удалось отключить режим стрима. То есть, не понял для чего это
нужно, но синтез происходит в реальном времени. Синтезируем и слушаем
одновременно.
Собака, подозреваю, порылась в кривизне одного флажка, который, кстати, тоже
убрать не удалось.
Поэтому, чтобы этой штукой воспользоваться, перед запуском синтеза, снимаем
флажок
под текстовым редактором находим кнопку
кнопка свёрнуто ▸ Generation Options
Здесь находятся различные настройки.
Перемещаясь по флажкам, находим и снимаем
Realtime Streaming Decode флажок отмечено
Тогда синтезируемую речь мы будем слышать естественно, а не рывками.
Об этом баге даже пишут в комментариях на одном из сайтов.
Как это исправить, пока не понял ни я, ни Дипсик, ни оба мы вместе.
С управлением программой в этом окне, разобраться не сложно. Там, по
быстрому, можно прослушать демки разных голосов на разных языках. Их я
подключил, здесь проблем нет.
Стартуем файлом Start_moss-tts-nano.cmd
Интерфейс открываем файлом start_web
В корне папки программы, присутствует ещё один файл, Start_narrator.cmd
Это уже моя простенькая разработка.
Для того, чтобы генерить в ней, в папку books закидываем текстовик или
пачку, но обрабатываться будет первый в очереди.
Сейчас там находится тестовый текстовик, с фразой, очень неудобной для
нейроголосов. По её озвучиванию, можно определить качество используемого
референта.
Референтные файлы кладём в папку ref.
Программа, подхватывает файл, который называется ref.wav.
Также, в этой папке есть папка для создания референтов. Разные способы
обрезки, обрезание тишины и прочие.
Выбрать есть из чего. Остальное, можно удалить. Обрабатываемый файл, должен
находиться в этой папке.
Длина референта должна быть в пределах от трёх до пятнадцати секунд
звучания.
Если меньше, то результат будет соответственный, если больше, можем получить
либо пустой файл, либо полное зависание компа.
Поэтому, ориентируемся на длинну референтов в этих пределах.
В неё положил несколько готовых файлов, для быстрого теста. По которому
сразу станет понятно, как это работает и как, смех, не работает совсем.
Инструкции для файлов подготовки референтов смотрим в блокноте.
Открываем файл cmd и видим:
set /p input="Файл: " - вводим название обрабатываемого файла с расширением.
Например, 1.mp3.
set /p start="Начало (сек): "
set /p dur="Длительность (сек): "
set /p output="Сохранить как: " - название с расширением выходного файла.
После запуска норратора, вводим всего один параметр.
Параметр количества потоков. По умолчанию два, для моего древнего
процессора, самый оптимальный.
Можно назначить до тридцати двух потоков.
По окончании синтеза, услышим звуковой сигнал.
Результат смотрим в файле synthesis.log
Вот, собственно, всё, что успел сделать на это время.
После распаковки, программу размещаем на диске C. На других дисках, не
пробовал.
Для тестирования и ознакомления с программой, переходим по ссылке и
скачиваем.
https://transfiles.ru/2snm1
Всем добра!!!