Радиопередачи о Джорже Харрисоне

быданов юрий

unread,

Apr 29, 2026, 10:11:33 AM (2 days ago) Apr 29

to audio...@googlegroups.com

Привет всем!

Тип записи: Радиопередача
Страна (Издатель): BBC Russian
Автор: Сева Новгородцев
Исполнитель: Джордж Харрисон
Год: 2001
Формат: MP3
Битрейт: 64 Kbps
Средняя продолжительность выпуска: 00:29:55
Общая продолжительность раздачи: 01:55:44

Описание:
4 радио передачи о Джордже Харрисоне, вышедшие в эфир в декабре 2001 года.
https://disk.yandex.ru/d/sj5oAdutuowLDg
приятного прослушивания!

--
Быданов Юрий

byd...@yandex.ru

Георгий Майоров

unread,

Apr 30, 2026, 5:29:37 AM (yesterday) Apr 30

to audio...@googlegroups.com

Всех приветствую!!!

Подъехала модель, позволяющая синтезировать голос с клонированием.
И всё это на процессоре и в реальном, а не со ссылкой на вечность, времени.
Модель маленькая, всего 100 м параметров.
Несмотря на это, выдаёт неплохой результат.
Поддерживает двадцать языков, по утверждению разработчиков.
Да, заявлено языков двадцать, но по факту, реально обучены только два.
Китайский и английский.
База для остальных, на фоне этих двух, капля в море.
Поэтому, так как модель требует дообучения, ждём обновлений. Будем
надеяться, они последуют.
Референты нужно подбирать тщательно, отталкиваясь оттого, какой результат
хотим получить.
А он может быть совсем непредсказуем. Для примера, положил файлик с
испанским диктором. При его использовании, для прочтения некоторых
рассказов, реально, Камеди клаб отдыхает.
Это я к тому, что книгу, возможно сделать будет затруднительно, а вот для
креативного контента, возможности очень широки и интересны.
К этой модели, разработчики написали программу, которую можно использовать в
нескольких вариантах.
Не без труда, удалось собрать всё в кучу. Единственно, не удалось установить
пакет, который отвечает за обработку текста для синтеза. Есть там и такая
фишка.
Поэтому, кое-как получилось эту фишку отключить, чтобы программа, хоть
как-то запустилась.
В этом варианте имеется вэб интерфейс. Предназначен он для процессоров с
использованием onnx.
В него добавил кнопку загрузки полученного файла. Иначе его сохранить, тоже,
по непонятным причинам, не получается.
Так же, не удалось отключить режим стрима. То есть, не понял для чего это
нужно, но синтез происходит в реальном времени. Синтезируем и слушаем
одновременно.
Собака, подозреваю, порылась в кривизне одного флажка, который, кстати, тоже
убрать не удалось.
Поэтому, чтобы этой штукой воспользоваться, перед запуском синтеза, снимаем
флажок
под текстовым редактором находим кнопку
кнопка свёрнуто ▸ Generation Options
Здесь находятся различные настройки.
Перемещаясь по флажкам, находим и снимаем
Realtime Streaming Decode флажок отмечено
Тогда синтезируемую речь мы будем слышать естественно, а не рывками.
Об этом баге даже пишут в комментариях на одном из сайтов.
Как это исправить, пока не понял ни я, ни Дипсик, ни оба мы вместе.
С управлением программой в этом окне, разобраться не сложно. Там, по
быстрому, можно прослушать демки разных голосов на разных языках. Их я
подключил, здесь проблем нет.
Стартуем файлом Start_moss-tts-nano.cmd
Интерфейс открываем файлом start_web
В корне папки программы, присутствует ещё один файл, Start_narrator.cmd
Это уже моя простенькая разработка.
Для того, чтобы генерить в ней, в папку books закидываем текстовик или
пачку, но обрабатываться будет первый в очереди.
Сейчас там находится тестовый текстовик, с фразой, очень неудобной для
нейроголосов. По её озвучиванию, можно определить качество используемого
референта.
Референтные файлы кладём в папку ref.
Программа, подхватывает файл, который называется ref.wav.
Также, в этой папке есть папка для создания референтов. Разные способы
обрезки, обрезание тишины и прочие.
Выбрать есть из чего. Остальное, можно удалить. Обрабатываемый файл, должен
находиться в этой папке.
Длина референта должна быть в пределах от трёх до пятнадцати секунд
звучания.
Если меньше, то результат будет соответственный, если больше, можем получить
либо пустой файл, либо полное зависание компа.
Поэтому, ориентируемся на длинну референтов в этих пределах.
В неё положил несколько готовых файлов, для быстрого теста. По которому
сразу станет понятно, как это работает и как, смех, не работает совсем.
Инструкции для файлов подготовки референтов смотрим в блокноте.
Открываем файл cmd и видим:
set /p input="Файл: " - вводим название обрабатываемого файла с расширением.
Например, 1.mp3.
set /p start="Начало (сек): "
set /p dur="Длительность (сек): "
set /p output="Сохранить как: " - название с расширением выходного файла.
После запуска норратора, вводим всего один параметр.
Параметр количества потоков. По умолчанию два, для моего древнего
процессора, самый оптимальный.
Можно назначить до тридцати двух потоков.
По окончании синтеза, услышим звуковой сигнал.
Результат смотрим в файле synthesis.log
Вот, собственно, всё, что успел сделать на это время.
После распаковки, программу размещаем на диске C. На других дисках, не
пробовал.
Для тестирования и ознакомления с программой, переходим по ссылке и
скачиваем.
https://transfiles.ru/2snm1
Всем добра!!!

Светлый

unread,

Apr 30, 2026, 8:49:44 AM (yesterday) Apr 30

to audio...@googlegroups.com

Здравствуйте!
А я блин, не ту нашел и вечность на проце это точно про нее, но зато
качество говорят лучше.
Нашел F5 обзывается. И это еще самая простая. Остальные на процах вообще
запускаться не умеют. Но там качество вообще не отличишь от оригинала.
В вашей не нашел примеров готовых на выходе файлов. Напишите какой проц,
сколько времени создает и число символов.
Ну и для примера что на входе и что на выходе. В смысле оригинальный аудио
файл и то что получилось из произвольного текста.Кстати, F5 помимо wav на
входе требует и еще текстовую расшифровку. Слово в слово.
И опять же, сколько не мучал ffmpeg, так и не заставил разрезать как мне
надо. Пришлось аж свою разрезалку написать.
Режет из любого аудиофайла, длительность, частота на выходе, число проходов,
уровень тишины между паузами, все выставляется.
Потом выводит список. Можно пощелкать ентером и послушать, и понравившийся
кусок и сохранить. А так как это все делал для F5, то еще и распозновалку
прикрутил, так что сохранит еще и распознанный текст.
Надо? Прислать?
Удачи!

Георгий Майоров

unread,

Apr 30, 2026, 11:19:55 AM (yesterday) Apr 30

to audio...@googlegroups.com

Всех приветствую!!!

Светлый пишет:

> Здравствуйте!
> А я блин, не ту нашел и вечность на проце это точно про нее, но зато
> качество говорят лучше.
> Нашел F5 обзывается. И это еще самая простая. Остальные на процах вообще
> запускаться не умеют. Но там качество вообще не отличишь от оригинала.

...
Да, я внимательно слежу за веткой на 4pba, где в большей степени, как раз
народ сидит на f5-TTS.
Пробовать её на своём компе, даже не рискнул.
Хотя, перепробовал всё остальное. А остального, не мало.
Что-то запустилось, что-то нет. Что-то запустилось лихо, но результата так и
не дождался.
Из того, что запустилось и дало результат, зашла модель Qwen3-TTS. Сделал
даже для неё мод, с работающими переключалками всяких плюшек. Но, опять же,
на процессоре, пара тройка предложений генерится минут более десяти, что уже
почти вечность. Ну, если книгу зарядить, да подождать пару недель, смех.
Далее:

> В вашей не нашел примеров готовых на выходе файлов. Напишите какой проц,
> сколько времени создает и число символов.
> Ну и для примера что на входе и что на выходе. В смысле оригинальный аудио
> файл и то что получилось из произвольного

...
Во вложении прикрепил демки. Маленькую зарисовку. Испанский референт читает
русский текст. Текст пурга полная и он в нём запутывается. Пробовал этот
текст ещё усугубить, но на пользу не пошло. Вообще не выгребает. Также,
вложил лог с данными синтеза другого текста. В логе, отражена вся
информация, Вас интересующая.
Далее:

.Кстати, F5 помимо wav на
> входе требует и еще текстовую расшифровку. Слово в слово.

...
Да, такие условия встречаются у некоторых моделей. Референт должен
сопровождаться текстом.
Далее:

> И опять же, сколько не мучал ffmpeg, так и не заставил разрезать как мне
> надо. Пришлось аж свою разрезалку написать.
> Режет из любого аудиофайла, длительность, частота на выходе, число
> проходов, уровень тишины между паузами, все выставляется.
> Потом выводит список. Можно пощелкать ентером и послушать, и понравившийся
> кусок и сохранить. А так как это все делал для F5, то еще и распозновалку
> прикрутил, так что сохранит еще и распознанный текст.
> Надо? Прислать?

...
Конечно надо. Улыбка. Инструментов лишних небывает. Всегда может
пригодиться.
Заранее, благодарствую!

Демки.7z

Вячеслав Сурченко

unread,

5:39 AM (14 hours ago) 5:39 AM

to audio...@googlegroups.com

Привет всем.

При закачки идёт сообщение: ссылка не найдена.

Прошу повторить. С уважением Вячеслав.

Светлый

unread,

10:00 AM (10 hours ago) 10:00 AM

to audio...@googlegroups.com

From: Георгий Майоров

Конечно надо. Улыбка. Инструментов лишних небывает. Всегда может
пригодиться.

Здравствуйте!
https://transfiles.ru/ng785
Накидал все в одну папку, но по идее все будет лежать рядом с моделью. Потом
решу с какой.
Читать меня.txt не помешает.
Ну и во вложении то что я пробовал и что на выходе.
Исходник вообще первый самый большой поздравление полное от президента.
Можно и из него резать, но я вырезал ранее второй короткий для другой
нейронки и все вручную.
Можно скармливать любой, но разрезка будет идти дольше. Минут 10 любого у
меня режется секунд за 15.
На Выходе out.wav. Президента взял для того, чтобы понять сходство.
На моем стареньком ноутбучном проце I3 данный выход писался минут 10-15. На
хорошем проце влезет в минут 3-5, не более! А вот если взять RTX 3060
хотябы, то все это дело пролетит за секунды.
И просто представьте качество. Ваша модель 100 миллионов параметров, F5
примерно так же.
А вот GPT-SoVITS, и Qwen3-TTS уже имеют модели под 2 миллиарда и работают
только на видюхах. Да еще и могут создавать голоса по описанию. Короче
бомба.
Я все это дело все равно окультурю до одного интерфейса где можно и референс
нарезать и выбрать и через что писать, вернее на чем модель запускать, и
настройки всякие и так далее.
Так что утверждение, что незрячим не нужны мощные дискретные видеокарты
разрушается прямо на глазах.
Нейронки это и распознование речи ,и написание музыки, и создание аудиокниг,
и написание кода и так далее и тому подобное и все это на своем компе и без
интернета. Но нужны хорошие видеокарты. А с творчеством у незрячих на мой
взгляд проблем нет.
Удачи!

путин.mp3

reference.wav

out.wav

Эдуард

unread,

10:53 AM (9 hours ago) 10:53 AM

to audio...@googlegroups.com

Всем здоровья, всех с праздником Вот ссылка
https://disk.yandex.ru/d/yxk_n-j3cCGPKQ

01.05.2026 12:39, Вячеслав Сурченко пишет:

> Привет всем.
>
> При закачки идёт сообщение: ссылка не найдена.
>
> Прошу повторить. С уважением Вячеслав.
>

--
С уважением, Эдуард Сауков.

Almus

unread,

11:01 AM (9 hours ago) 11:01 AM

to audio...@googlegroups.com

ох и не зря я купил компухтор с RTX-4050.
А раззорялся-то сначала, жаба блин душила.

--
📧 Almus ✍️

Дима

unread,

12:50 PM (7 hours ago) 12:50 PM

to Светлый

Здравствуйте, Светлый , цитата:
С> Накидал все в одну папку, но по идее все будет лежать рядом с моделью. Потом
С> решу с какой.

Прикольно, всё понятно и всё работает, и ридмишка есть.
Нарезал файлик Вашей штукой, сгенирировал через штуку Георгия.
Понятно, что голос похожий, но говорит как помесь русского китайца с индусом.
А вот во вложении класс 👍
Можно такую штуку заполучить?

Спасибо!

Свобода от возможности принимать решения - это тоже свобода.
С приветом из Ижевска ;) !
С уважением Дима!
dmitr...@yandex.ru
skype: dmitriydru1

Reply all

Reply to author

Forward