ПОРТАТИВНЫЙ ГЕНЕРАТОР АУДИОКНИГ VOSK TTS

31 views
Skip to first unread message

Юрий

unread,
Mar 13, 2026, 1:41:27 AMMar 13
to audio...@googlegroups.com

Здравствовать всем!
Попросил зрячего друга сделать для меня указанную в теме сборку.
Понравилось, решил поделиться, может кому пригодится.
Размер архива 903 Mb, после извлечения размер каталога VOSK_TTS_PORTABLE 1.32 Gb.
Программа VOSK_TTS_PORTABLE работает из любого места, можно ложить на диск C, можно на диск D, при этом нет разницы в корень диска, или в какой либо каталог на диске.
Содержимое архива содержит всё необходимое для конвертации аудиокниг.
Ознакомившись с файлами README.txt, и Инструкция.txt, Вы сможете легко приступить к конвертации своих книг.

Скачать архив:
VOSK_TTS_PORTABLE.rar — Яндекс Диск
https://disk.yandex.com/d/kxsgLFTFBiq4-A


С уважением,
Юрий mailto:kis...@mail.ru

Юрий

unread,
Mar 13, 2026, 1:41:40 AMMar 13
to teamta...@googlegroups.com, audio...@googlegroups.com
--С уважением,
Юрий mailto:kis...@mail.ru

yuniks

unread,
Mar 13, 2026, 1:47:43 AMMar 13
to 'Юрий' via Информационно-дискуссионный лист AUDIO-CLUB.NET
Доброго времени суток всем!
'Юрий' via Информационно-дискуссионный лист AUDIO-CLUB.NET в письме от 13.03.2026; 7:36 пишет:

ЮvИдлACN> Ознакомившись с файлами README.txt, и Инструкция.txt, Вы сможете
ЮvИдлACN> легко приступить к конвертации своих книг.

Не заводится на видеокарте, тупо конвертирует на обычном процессоре, в связи с
чем нужен серьёзный камень, хотя могла бы завестись даже на скромных видюхах,
потому, как требует для своей работы меньше 2 гб памяти.
На AMD Ryzen 5 (6 ядер, 12 потоков 4.1 ггц на
ядро) 30 минут конвертировала совсем скромный текст:
Символов: 238547
Слов: 33929
Предложений: 1518
А теперь представьте, сколько это будет обрабатываться на среднем ноуте за
15-20 ка?
--
Regards, yuniks, e-mail: dyu...@ya.ru,
jabber: yun...@s-mc.net, KICQ: 1757988
https://new.s-mc.net

Георгий Майоров

unread,
Mar 13, 2026, 2:14:15 AMMar 13
to audio...@googlegroups.com
Всех приветствую!

13.03.2026 7:36, 'Юрий' via Информационно-дискуссионный лист
AUDIO-CLUB.NET пишет:
> Попросил зрячего друга сделать для меня указанную в теме сборку.
> Понравилось, решил поделиться, может кому пригодится.
> Размер архива 903 Mb, после извлечения размер каталога VOSK_TTS_PORTABLE 1.32 Gb.
> Программа VOSK_TTS_PORTABLE работает из любого места, можно ложить на диск C, можно на диск D, при этом нет разницы в корень диска, или в какой либо каталог на диске.
> Содержимое архива содержит всё необходимое для конвертации аудиокниг.
> Ознакомившись с файлами README.txt, и Инструкция.txt, Вы сможете легко приступить к конвертации своих книг.
> ...
Обязательно посмотрю этот вариант. Вдруг есть чего интересного.

Юрий

unread,
Mar 13, 2026, 2:50:31 AMMar 13
to yuniks, audio...@googlegroups.com
Здравствуйте, yuniks.

Технически сделать выбор использования cpu или gpu сделать можно, но есть важный нюанс именно по этой сборке **VOSK_TTS_PORTABLE**.
### Как это работает в Vosk
Vosk (движок, который мы используем) по умолчанию очень хорошо оптимизирован под **CPU**. Он использует инструкции процессора (AVX/AVX2), поэтому даже на обычном офисном компьютере конвертация идет быстрее, чем человек успевает слушать.
Чтобы задействовать **GPU (видеокарту)**, нужны две вещи:
1. **NVIDIA**: Должна быть видеокарта от NVIDIA (AMD или встроенная графика Intel не подойдут).
2. **Библиотеки CUDA**: Нужно скачать и прописать в сборку около 3-4 ГБ дополнительных библиотек от NVIDIA.
### Стоит ли это делать?

Для озвучки текста в аудио (TTS) видеокарта дает небольшой прирост по сравнению с хорошим процессором, но при этом:
* Сборка перестанет быть **портативной** (она вырастет в размере на несколько гигабайт).
* Пропадет универсальность (на компьютерах без мощной видеокарты она будет выдавать ошибку).
* Для озвучки книг скорости процессора обычно хватает с запасом (Князев «читает» со скоростью в 5-10 раз быстрее реального времени).
*
Дмитрий!
У меня в отличии от Вас встроенная видеокарта.
Я просил у друга сборку для себя, о чём и писал выше.
Небольшой размер(1.32 Gb, запуск из любого места на жёстком диске, в каталоге программы присутствует всё необходимое для конвертации.
На выходе получил желаемое, которое меня удовлетворило.
Не думаю, что в рассылке у всех хорошие видеокарты и мощные процессоры, может кому эта сборка и пригодится.

Вы писали пятница, 13 марта 2026 г., 08:47:31:
--

Виктор Левко

unread,
Mar 13, 2026, 3:20:07 AMMar 13
to audio...@googlegroups.com
Всем привет! Юрий, есть 2 вопроса.

1) если мне надо записать одиночный файл, его нужно положить в папку
корневую данной программы?

2) Непонятно как выбрать настройки не по умолчании: К примеру: называет
громкость по умолчании: если надо другую громкость, её надо прописывать?
потому что нажатие стрелок или таб ничего не говорит, а при нажатии
энтер уже переходит к другим настройкам. И если ввести другой номер
голоса, его просто ввести и нажать энтер, чтобы он на него прешёл или
как-то это делается по-другому. В инструкции и readme этого нет, потому
и спрашиваю.

--
Тел: Oneplus nord 2t 5g, android 14
Xiaomi mi a-2 lite, android 10.0
С уважением Виктор, Гродно, Беларусь!

Виктор Левко

unread,
Mar 13, 2026, 3:29:03 AMMar 13
to audio...@googlegroups.com
И ещё: есть ли возможность отслеживать, сколько книги на данный момент
уже записано? А то по wav файлам, которые появляются в папке с прогой,
сложно что-то понять, т. к. не знаешь, сколько их должно быть.

Дворцов Роман

unread,
Mar 13, 2026, 3:32:13 AMMar 13
to teamta...@googlegroups.com, audio...@googlegroups.com
Всем привет.

У меня вообще говорит не найден файл 1.txt

Я естественно подписал книгу под цифрой 1, кинул в корень папки
VOSK_TTS_PORTABLE


13.03.2026 9:25, 'Юрий' via Мир - TeamTalk пишет:
> Здравствовать всем!
> Попросил зрячего друга сделать для меня указанную в теме сборку.
> Понравилось, решил поделиться, может кому пригодится.

> Poco x3 android 12
> Poco x7 pro android 16
> redmibook pro 15 win 10-11
> romeod...@yandex.ru

yuniks

unread,
Mar 13, 2026, 3:36:28 AMMar 13
to 'Юрий' via Информационно-дискуссионный лист AUDIO-CLUB.NET
Доброго времени суток всем!
'Юрий' via Информационно-дискуссионный лист AUDIO-CLUB.NET в письме от 13.03.2026; 9:47 пишет:

ЮvИдлACN> Технически сделать выбор использования cpu или gpu сделать можно,

Именно в этой сборке это не так то и просто, к сожалению, иначе я бы не писал.
Вернее, в этой сборке и именно с этой моделью.

ЮvИдлACN> Он использует инструкции процессора
ЮvИдлACN> (AVX/AVX2), поэтому даже на обычном офисном компьютере конвертация
ЮvИдлACN> идет быстрее, чем человек успевает слушать.

Полностью согласен с вами. Видимо, я просто избалован максридером, когда книгу
на 10 часов можно сконвертировать за одну минуту. Голос тут, понятное дело, ни
в какое сравнение с Николаем по естественности не идёт, но детские болезни те
же: расстановка ударений, чтение без контекста и много что ещё. Строго говоря,
модель тут не виновата, похорошему, надо делать мегасборку, в которой будут
работать последовательно несколько нейросетей:
1. Нормализация текста;
2. Расстановка ударений;
3. Непосредственная озвучка.

ЮvИдлACN> Чтобы задействовать **GPU (видеокарту)**, нужны две вещи:
ЮvИдлACN> 1. **NVIDIA**: Должна быть видеокарта от NVIDIA (

Разумеется, она вполне себе есть.

ЮvИдлACN> 2. **Библиотеки CUDA**: Нужно скачать и прописать в сборку около
ЮvИдлACN> 3-4 ГБ дополнительных библиотек от NVIDIA.

На самом деле гораздо меньше, не всё, что предоставляет cuda, нам понадобится
для генерации речи, но в целом, вы правы, минимум гига на полтора размер
сборки увеличится.

ЮvИдлACN> ### Стоит ли это делать?

Если получится завести vosk на GPU, скорости максридера и николая добиться,
конечно, не получится, но ускорения генерации на порядок добиться получится
точно. Ну то есть на видеокарте совершенно точно получим десятикратное
увеличение скорости и это на простенькой, типа NVIDIA GeForce GT 710 с 2 гб
VRAM. На более крутых видюхах с параллельными вычислениями производительность
может быть увеличена в 20 - 40 раз. Если каждый чанк при этом обрабатывать в
отдельном потоке, можем добиться производительности максридера и николая на
видеокартах с 16 гб VRAM и выше. Но именно у воска есть какие-то пока не
совсем понятные проблемы. не хочет она дружить с cuda, хоть ты тресни.

ЮvИдлACN> Для озвучки текста в аудио (TTS) видеокарта дает небольшой прирост
ЮvИдлACN> по сравнению с хорошим процессором,

Увы, достаточно хороший. Хотя, надо будет попробовать сборку на процессорах от
Intel, бывает, что в какой-то специфической задаче именно AMD проседает. С
другой стороны я тут недавно делал для ученицы саммарайз лекций на oLama, так
вполне себе шустренько всё шуршало и в несколько потоков на 16 GB VRAM для
саммарайза 50-и минутной лекции понадобилось около полутора часов. Правда
загрузка по всем ядрам CPU и GPU была 100 процентов и пользоваться машиной
было совершенно невозможно в это время. С другой стороны, наверное, можно
загрузить машину по самое небалуйся на часик, чтобы сделать красивую
десятичасовую аудиокнигу. Можно в конце концов в тимток и со смартфона зайти.
:)

ЮvИдлACN> но при этом:
ЮvИдлACN> * Сборка перестанет быть **портативной** (

И опять-таки, нет.

ЮvИдлACN> она вырастет в размере на несколько гигабайт).

Если в неё включить ещё и средства нормализации и расстановки ударений, думаю,
гигов на 10.

ЮvИдлACN> * Пропадет универсальность (на компьютерах без мощной видеокарты она будет выдавать ошибку).

Это тоже можно преодолеть.

ЮvИдлACN> (Князев «читает» со скоростью в 5-10 раз быстрее реального времени).

То есть трёхчасовую книгу в лучшем случае озвучивать 15 часов, а в хутшем 30?
И это при условии, что корректно прервать процесс и запустить его с места
остановки нельзя? Ну такое...

yuniks

unread,
Mar 13, 2026, 3:38:25 AMMar 13
to Виктор Левко
Доброго времени суток всем!
Виктор Левко в письме от 13.03.2026; 10:28 пишет:

ВЛ> есть ли возможность отслеживать, сколько книги на данный момент уже записано?

25, 50, 75 и 100 процентов. Читаем Jaws-курсором, или навигатором NVDA (NumPad
7, 8, 9) в режиме "объект (NumPad 1, 7).

Виктор Левко

unread,
Mar 13, 2026, 4:15:06 AMMar 13
to audio...@googlegroups.com
Всем привет! У меня получается через батч конвертер, а с одиночными я,
видимо, не прописал названия файла, попробую ещё раз, но всё же на vosk
tts у меня очень долго пишет, тогда как Дмитрием или Светланой пишет
книгу за 10 минут, поэтому пока я не готов столько времени тратить на
одну книгу, но тем не менее знать, как это происходит, интересно на
будущее, если это дело усовершенствуется.

Almus

unread,
Mar 13, 2026, 5:19:05 AMMar 13
to audio...@googlegroups.com
привет.
работает, но таааааааак медленно, не смотря на то, что, у меня игровой ноут с I7 в 5 ггц. память ddr5.
ну его нах.

Виктор Левко

unread,
Mar 13, 2026, 6:47:45 AMMar 13
to audio...@googlegroups.com
Всем привет! Ну здесь, наверное, так и  должно быть, по крайней мере
пока. А у меня такой вопрос: если писать одиночный файл, то по выходе
mp3 тоже будет одиночным или он его всё же поделит хотя бы на несколько
файлов?

Юрий

unread,
Mar 13, 2026, 8:32:11 AMMar 13
to Дворцов Роман
Здравствуйте, Дворцов.

Запустив программу в первом редакторе пишите 1.txt и жмите Энтер.
Вы писали пятница, 13 марта 2026 г., 10:32:40:

Юрий

unread,
Mar 13, 2026, 8:32:21 AMMar 13
to Виктор Левко, audio...@googlegroups.com
Здравствуйте, Виктор.
Да, одиночный файл должен находиться в корне каталога программы.
Например это файл 1.txt.
Запускаем программу, первый редактор это название файла.
Пишем 1.txt, жмём Энтер.
Попадаем в следующий редактор, это битрейт.
По-умолчанию 1, что соответствует 40 Kb.
Если нужно пишем цифру 2, это 96 Kb.
В каждом редакторе пишем нужное, например громкость от цифры 1, до цифры 4.
При конвертации читаем джоз курсором окно командной строки, там можно
увидеть всю информацию, в частности проценты конвертирования.


Вы писали пятница, 13 марта 2026 г., 10:19:56:

Дворцов Роман

unread,
Mar 13, 2026, 9:16:06 AMMar 13
to audio...@googlegroups.com
Всем привет.

Ну я же сказал, что пишу 1, естественно с расширением txt

Файл не найден.


13.03.2026 12:39, 'Юрий' via Информационно-дискуссионный лист
AUDIO-CLUB.NET пишет:
> Запустив программу в первом редакторе пишите 1.txt и жмите Энтер.
> Вы писали пятница, 13 марта 2026 г., 10:32:40:
>> У меня вообще говорит не найден файл 1.txt
>

Виктор Левко

unread,
Mar 13, 2026, 11:54:15 AMMar 13
to audio...@googlegroups.com
Всем здравствуйте!
Дворцов роман пишет:
Ну я же сказал, что пишу 1, естественно с расширением txt
Файл не найден.
В этом у меня как раз всё в порядке, но когда доходит конвертация до 50 процентов, выдаёт ошибку, сейчас не скажу какую, она на английском. Но если надо, я возьму коротенький файл и запущу конвертировать, если не сконвертится, то выдаст эту ошибку.

Георгий Майоров

unread,
Mar 13, 2026, 8:41:57 PMMar 13
to audio...@googlegroups.com
Всех приветствую!

Запустить синтез так и не получилось. В упор не видит текстовики. Куда
их не пихал. Как в одиночном, так и пакетном режиме. Концепция программы
проста и интересна. Глянул в логи. [2026-03-11 22:39:10] Файл:
TEST_VOICES\voice_00_Aleksandr_Andrienko.mp3 | Голос: 0 | Усиление: 1.0
| Время: 3м 5с | Текст: 57 зн., 8 сл.
Из них следует, что на синтез 57 символов затрачено три минуты пять
секунд. Это, даже для модели версии 0.10, запредельно низкая скорость.


Юрий

unread,
Mar 14, 2026, 1:43:19 AMMar 14
to Георгий Майоров, audio...@googlegroups.com
Здравствуйте, Георгий.
Вы писали:
Запустить синтез так и не получилось. В упор не видит текстовики. Куда их не пихал. Как в одиночном, так и пакетном режиме.
Глянул в логи. [2026-03-11 22:39:10] Файл: TEST_VOICES\voice_00_Aleksandr_Andrienko.mp3 | Голос: 0 | Усиление: 1.0 | Время: 3м 5с | Текст: 57 зн., 8 сл.
Ответ:
Если Вам так и не удалось запустить синтез, откуда же в логе взялась информация о сконвертированном файле? Улыбка.

Вы писали:
Из них следует, что на синтез 57 символов затрачено три минуты пять секунд. Это, даже для модели версии 0.10, запредельно низкая скорость.
Ответ:
Выходит Вы всё-таки запустили синтез. Улыбка.
Теперь по поводу затраченного времени.
Хоть 57 символов, хоть 157, хоть 10057 символов в Вашем файле, изначально 3 минуты уходит на загрузку нейросети.
Какой бы размер не имел текст для конвертации, все равно только 3 минуты.


Вы писали суббота, 14 марта 2026 г., 03:41:48:
--

Эдуард

unread,
Mar 14, 2026, 1:43:45 AMMar 14
to audio...@googlegroups.com
Утро доброе всем и Вам Георгий
Как уже писал запустить программу удалось только с помощью супруги,
многих лет ей жизни, и хорошего мужа.
Первый файлик в 500 с небольшим знаков писался несколько минут. Да
медленно, но вот уже второй, полноценная книга в 400 000 знаков
записалась за четыре с лишним часа. Зпустил около 20 часов и проснувшись
в начале первого обнаружил что книга полностью записана.
Меня полностью устраивает программа которую выложили Вы Георгий. Вы
вложили в неё уйму времени и сил, за что Вам огромное спасибо, и дай Бог
дальше она будет совершенствоваться и хорошеть. Но пока голос Игоря
Князева на той программе что предложили Вы, точнее тембральные кочели,
ну это трудно слушать. На этой же голос звучит ровно.
И ещё Георгий, возможно Вы не получили моё письмо с просьбой напомнить
куда копировать содержимое папки models. Пожалуйста напомните куда они
сбрасываются.


14.03.2026 3:41, Георгий Майоров пишет:
--
С уважением, Эдуард Сауков.

Виктор Левко

unread,
Mar 14, 2026, 3:13:54 AMMar 14
to audio...@googlegroups.com
Всем здравствуйте! Эдуард пишет:

полноценная книга в 400 000 знаков записалась за четыре
с лишним часа.

Ответ: Книгу Алексея Птицы Последний оператор, которую, вроде вы,
Эдуард, давали в листе, у меня записалась примерно за 7 часов, разбивал
в балаболке частями по 15000, вышло 32 файла звучанием примерно по 7
минут, хотя на следующие книги поставил по 20 кб размер части. А за
сколько часов эта же книга и этим же синтезом, т.е Чинишвили, записалась
она у вас? Интересно бы сравнить.

Виктор Левко

unread,
Mar 14, 2026, 3:37:02 AMMar 14
to audio...@googlegroups.com
Всем добрый день и Юрий! Юрий, хотел написать в личку, но когда нажимаю
эту комбинацию, то имя выдаёт Юрий, а адрес рассылки, в которую от вас
приходит письмо. Поэтому пишу сюда. Вот интересно: почему-то инструкцию
из данной программы он записывать не хочет. Доходит до 50 процентов и
выдаёт ошибку. Вот то, что скопировал:

C:\Windows\system32\cmd.exe
Скорость (по умолчанию 1.12): 2
Усиление громкости (по умолчанию 1.0): 1.5
GG

[ПРОЦЕСС] Начинаю создание аудиофайла...
----------------------------------------------------
--- АНАЛИЗ ФАЙЛА ---
Кодировка: UTF-8
Символов: 2330
Слов: 284
Предложений: 46
--------------------
[10:30:33] СЛОВАРЬ: 32 правил.
[10:30:33] Загрузка нейросети...
[10:31:53] Битрейт: 40k. Обработка...
Прогресс: 25%
Прогресс: 50%
Ошибка: index 3 is out of bounds for axis 0 with size 3
Traceback (most recent call last):
  File "d:\prog\VOSK_TTS_PORTABLE\tts_pro_reader.py", line 203, in
<module>
    process_tts(content, args.output, args.speaker, args.rate,
args.bitrate, args.volume, stats)
  File "d:\prog\VOSK_TTS_PORTABLE\tts_pro_reader.py", line 154, in
process_tts
    if os.path.exists(list_file):
^^^^^^^^^
UnboundLocalError: cannot access local variable 'list_file' where it is
not associated with a value

[ОШИБКА] Скрипт завершился со сбоем.
G

Press any key to continue . . .

Георгий Майоров

unread,
Mar 14, 2026, 4:11:27 AMMar 14
to audio...@googlegroups.com
Всех приветствую!


Хоть это непосредственно не относится к теме моей программы, но
относится к теме использования тех же моделей. Об этом неоднократно
говорилось, но повторю ещё раз. Пока, улыбка, это не отложится в
подсознании. Текст перед отправкой на конвертацию, необходимо чистить.
Если его диагностировать в моей программе, получим следующее. Вообще
удивительно, как синтез не сломался ещё раньше.

🔍 АНАЛИЗ ТЕКСТА НА ПРОБЛЕМНЫЕ СИМВОЛЫ
============================================================

⚠️ НАЙДЕНО 37 ПОТЕНЦИАЛЬНО ПРОБЛЕМНЫХ МЕСТ:

   • Строка 6, позиция 102:
     Символ: '"' (код: 34)
       ⚠️ Прямая кавычка (лучше удалить, синтезатор может на ней
"сломаться")
     Контекст: "...работки или в папку "INPUT_TEXT" для масс..."

   • Строка 6, позиция 113:
     Символ: '"' (код: 34)
       ⚠️ Прямая кавычка (лучше удалить, синтезатор может на ней
"сломаться")
     Контекст: "... в папку "INPUT_TEXT" для массовой...."

   • Строка 10, позиция 31:
     Символ: '"' (код: 34)
       ⚠️ Прямая кавычка (лучше удалить, синтезатор может на ней
"сломаться")
     Контекст: "...го файла: запустите "START_CONVERSION.bat..."

   • Строка 10, позиция 52:
     Символ: '"' (код: 34)
       ⚠️ Прямая кавычка (лучше удалить, синтезатор может на ней
"сломаться")
     Контекст: "...START_CONVERSION.bat"...."

   • Строка 11, позиция 32:
     Символ: '"' (код: 34)
       ⚠️ Прямая кавычка (лучше удалить, синтезатор может на ней
"сломаться")
     Контекст: "...ы файлов: запустите "BATCH_CONVERSION.bat..."

   • Строка 11, позиция 53:
     Символ: '"' (код: 34)
       ⚠️ Прямая кавычка (лучше удалить, синтезатор может на ней
"сломаться")
     Контекст: "...BATCH_CONVERSION.bat"...."

   • Строка 20, позиция 15:
     Символ: '—' (код: 8212)
       ⚠️ Длинное тире (замените на обычный дефис "-")
     Контекст: "...- 17 (Князев) — Идеально для книг (..."

   • Строка 21, позиция 18:
     Символ: '—' (код: 8212)
       ⚠️ Длинное тире (замените на обычный дефис "-")
     Контекст: "...- 10 (Чонишвили) — Харизматичный, "кин..."

   • Строка 21, позиция 35:
     Символ: '"' (код: 34)
       ⚠️ Прямая кавычка (лучше удалить, синтезатор может на ней
"сломаться")
     Контекст: "...и) — Харизматичный, "киношный"...."

   • Строка 21, позиция 44:
     Символ: '"' (код: 34)
       ⚠️ Прямая кавычка (лучше удалить, синтезатор может на ней
"сломаться")
     Контекст: "...зматичный, "киношный"...."

   • Строка 22, позиция 17:
     Символ: '—' (код: 8212)
       ⚠️ Длинное тире (замените на обычный дефис "-")
     Контекст: "...- 23 (Кузнецов) — Спокойный, для клас..."

   • Строка 23, позиция 16:
     Символ: '—' (код: 8212)
       ⚠️ Длинное тире (замените на обычный дефис "-")
     Контекст: "...- 05 (Татьяна) — Лучший женский, ест..."

   • Строка 24, позиция 16:
     Символ: '—' (код: 8212)
       ⚠️ Длинное тире (замените на обычный дефис "-")
     Контекст: "...- 32 (Дмитрий) — Четкий дикторский...."

   • Строка 25, позиция 14:
     Символ: '—' (код: 8212)
       ⚠️ Длинное тире (замените на обычный дефис "-")
     Контекст: "...- 45 (Ольга) — Мягкий, сказочный...."

   • Строка 26, позиция 16:
     Символ: '—' (код: 8212)
       ⚠️ Длинное тире (замените на обычный дефис "-")
     Контекст: "...- 08 (Николай) — Плотный, низкий бас..."

   • Строка 27, позиция 14:
     Символ: '—' (код: 8212)
       ⚠️ Длинное тире (замените на обычный дефис "-")
     Контекст: "...- 51 (Мария) — Энергичный, для фэн..."

   • Строка 28, позиция 15:
     Символ: '—' (код: 8212)
       ⚠️ Длинное тире (замените на обычный дефис "-")
     Контекст: "...- 14 (Михаил) — Нейтральный, для уч..."

   • Строка 29, позиция 14:
     Символ: '—' (код: 8212)
       ⚠️ Длинное тире (замените на обычный дефис "-")
     Контекст: "...- 28 (Елена) — Деловой, уверенный...."

   • Строка 36, позиция 11:
     Символ: '"' (код: 34)
       ⚠️ Прямая кавычка (лучше удалить, синтезатор может на ней
"сломаться")
     Контекст: "...- Двойной "бип" — Работа начала..."

   • Строка 36, позиция 15:
     Символ: '"' (код: 34)
       ⚠️ Прямая кавычка (лучше удалить, синтезатор может на ней
"сломаться")
     Контекст: "...- Двойной "бип" — Работа началась (..."

   ... и ещё 17 проблемных мест.

📊 СВОДКА ПО ТИПАМ ПРОБЛЕМ:
   • Прямая кавычка (лучше удалить, синтезатор может на ней
"сломаться"): 24
   • Длинное тире (замените на обычный дефис "-"): 13

💡 РЕКОМЕНДАЦИИ:
   • Замените прямые кавычки (", ') на типографские «ёлочки»
   • Замените длинные тире (—, –) на обычный дефис (-)
   • Удалите управляющие символы (они не нужны в тексте)
   • Сохраните файл в кодировке UTF-8 без BOM

📊 СТАТИСТИКА ФАЙЛА:
   • Всего символов: 2330
   • Строк: 53

🔤 ПРОВЕРКА КОДИРОВКИ:
   • BOM не обнаружен (хорошо)
============================================================

Георгий Майоров

unread,
Mar 14, 2026, 4:22:45 AMMar 14
to audio...@googlegroups.com
Всех приветствую и Вас, Эдуард!


Наверняка, Вашей жене, уже с мужем повезло. 😊

А что касаемо темы письма, затруднительно определить, о какой программе
идёт речь. Теперь у нас их две. Портабельный конвертер, которым вчера
поделился Юрий, сегодня удалось запустить. Подключил модель версии 0.7 и
получил хороший результат по скорости. Модель версии 0.10 снёс напрочь и
получилась лёгкая по весу, простая в использовании программа. Осталось
наполнить словарь и вперёд!

Юрий

unread,
Mar 14, 2026, 6:13:35 AMMar 14
to Виктор Левко, audio...@googlegroups.com
Здравствовать всем!
Виктор!
Это классическая «двойная ловушка» в коде, когда одна ошибка тянет за собой другую. Тебе досталось сразу две проблемы: техническая нехватка данных и программная недоработка в логике очистки.
Разбор ошибок:
Первая (корневая) ошибка: index 3 is out of bounds for axis 0 with size 3.
Что это: Это ошибка библиотеки NumPy. Она означает, что движок синтеза (Vosk) попытался обратиться к 4-му элементу данных (индекс 3), но в массиве всего 3 элемента (размер 3).
Почему произошло: Скорее всего, это случилось в момент склейки или обработки аудиоданных в памяти, когда один из «чанков» (кусочков текста) оказался либо слишком коротким, либо содержал специфический символ, который сбил расчеты нейросети.
Вторая (вторичная) ошибка: UnboundLocalError: cannot access local variable 'list_file'.
Что это: Скрипт попытался выполнить блок «Очистка временных файлов» после сбоя, но переменная list_file (путь к списку файлов для ffmpeg) еще не успела создаться, так как до этапа склейки дело не дошло.

Витя!
В данный момент идёт процесс устранения различных недоработок и исправления кода программы.
Всё будет устранено и исправлено. Ждём.

Вы писали суббота, 14 марта 2026 г., 10:36:51:
--

Эдуард

unread,
Mar 14, 2026, 6:13:45 AMMar 14
to audio...@googlegroups.com
Добрый день Виктор
Несколько раз пытался читать книги, разные серии, и до конца так ни одну
и не прослушал. Так что извените, но ради давайте проверим не буду.
Тут с утра, в начале седьмого поставил на запись книгу Никиты Кирова
Резидент.  Дальше поход к стамотологу, и по приходу домой в 10 45 книга
записана. ПРодолжительностью 7 часов 8 минут. По всему выходит что
писалась она около четырех, четырех с половиной часов. Как по мне, не
так и долго. Да в балаболке данную книгу синтезатором Дмитрий брутал
можно сделать за минут сорок, но согласитесь Дмитрий и Сергей Чанишвили
в разных весовых категориях.
Несмотря на то что оба мне очень даже симпатичны.

14.03.2026 10:13, Виктор Левко пишет:
> Всем здравствуйте! Эдуард пишет:
>
> полноценная книга в 400 000 знаков записалась за четыре
> с лишним часа.
>
> Ответ: Книгу Алексея Птицы Последний оператор, которую, вроде вы,
> Эдуард, давали в листе, у меня записалась примерно за 7 часов,
> разбивал в балаболке частями по 15000, вышло 32 файла звучанием
> примерно по 7 минут, хотя на следующие книги поставил по 20 кб размер
> части. А за сколько часов эта же книга и этим же синтезом, т.е
> Чинишвили, записалась она у вас? Интересно бы сравнить.
>

--
С уважением, Эдуард Сауков.

Виктор Левко

unread,
Mar 14, 2026, 7:12:06 AMMar 14
to audio...@googlegroups.com
Добрый день! Попробовал я сегодня и скорость поменять больше, чем писал
юрий, т.е. не 1.25, а 2. Действительно меняется, но увидеть это можно
лишь когда файл уже записан, а когда он ещё временный файл в формате
wav, то он тогда по громкости и скорости идёт по умолчании.

Тусик

unread,
Mar 14, 2026, 11:18:27 PMMar 14
to Георгий Майоров
Здравствуйте, Георгий.

Вы писали суббота 14 марта 2026 год!, 13:11:17:

ГМ> Хоть это непосредственно не относится к теме моей программы, но
ГМ> относится к теме использования тех же моделей. Об этом неоднократно

Поделитесь пожалуйста своей программой, которая работает пошустрее.
За файл буду очень благодарна.


--
С уважением,
Тусик mailto:nata-shew....@yandex.ru

Георгий Майоров

unread,
Mar 15, 2026, 10:12:00 PMMar 15
to audio...@googlegroups.com
Всех приветствую!

15.03.2026 6:14, Тусик пишет:
> Поделитесь пожалуйста своей программой, которая работает пошустрее.
> За файл буду очень благодарна.
> ...
Вот архив программы, перепакованный Владимиром. За что ему
благодарность. Она, кстати, ненамного шустрее портабельного конвертера.
Буквально на полтора десятков секунд, при двадцати минутах звучания
аудио. Рекомендую, установить количество символов на 225, по умолчанию
160, и посмотреть, есть ли прирост скорости. Также, не рекомендую, это
проверено, делить текст на предложения. Так, чтобы каждое предложение,
начиналось с новой строки. Сплошной текст генерируется быстрее.
Информацию об обновлениях, смотрите в моих письмах в теме синтез аудио
на локалке, также, перепакованные архивы, в этой же теме, в письмах от
Владимира.
> Ссылка на архив.
https://disk.yandex.ru/d/DzzikxSwP_IQQg
>

Тусик

unread,
Mar 16, 2026, 12:07:16 AMMar 16
to Георгий Майоров
Здравствуйте, Георгий.

Вы писали понедельник 16 марта 2026 год!, 7:11:49:

ГМ> Вот архив программы, перепакованный Владимиром. За что ему
ГМ> благодарность. Она, кстати, ненамного шустрее портабельного конвертера.

Я скачала программу по ссылке ,которую отправлял Владимир.
Но когда я начинаю распаковывать папку в любой диск,
то появляется вот такое и их почему то 10.
Пользуюсь виндолс 10 . 64
! C:\Vosk-GUI.7z: Неизвестный метод в Vosk-GUI\python\Lib\site-packages\distlib\t64-arm.exe
! C:\Vosk-GUI.7z: Неизвестный метод в Vosk-GUI\python\Lib\site-packages\distlib\w64-arm.exe
! C:\Vosk-GUI.7z: Неизвестный метод в Vosk-GUI\python\Lib\site-packages\pip\_vendor\distlib\w64-arm.exe
! C:\Vosk-GUI.7z: Неизвестный метод в Vosk-GUI\python\Lib\site-packages\pip\_vendor\distlib\t64-arm.exe
! C:\Vosk-GUI.7z: Неизвестный метод в Vosk-GUI\python\Lib\site-packages\setuptools\cli-arm64.exe
! C:\Vosk-GUI.7z: Неизвестный метод в Vosk-GUI\python\Lib\site-packages\setuptools\gui-arm64.exe
! C:\Vosk-GUI.7z: Неизвестный метод в Vosk-GUI\venv\Lib\site-packages\pip\_vendor\distlib\w64-arm.exe
! C:\Vosk-GUI.7z: Неизвестный метод в Vosk-GUI\venv\Lib\site-packages\pip\_vendor\distlib\t64-arm.exe
! C:\Vosk-GUI.7z: Неизвестный метод в Vosk-GUI\venv\Lib\site-packages\setuptools\gui-arm64.exe
! C:\Vosk-GUI.7z: Неизвестный метод в Vosk-GUI\venv\Lib\site-packages\setuptools\cli-arm64.exe

Тусик

unread,
Mar 16, 2026, 12:51:39 AMMar 16
to Георгий Майоров
Здравствуйте, Георгий.

Вы писали понедельник 16 марта 2026 год!, 7:11:49:


Подскажите почему так происходит,
когда я нажимаю кнопку обзор исходный файл или папка, то у меня выдаёт , что расположение недоступно
так же происходит и с выходной папкой
что с этим можно сделать и как это решить?

Георгий Майоров

unread,
Mar 16, 2026, 1:23:14 AMMar 16
to audio...@googlegroups.com
Всех приветствую!
16.03.2026 7:47, Тусик пишет:
> Подскажите почему так происходит,
> когда я нажимаю кнопку обзор исходный файл или папка, то у меня выдаёт , что расположение недоступно
> так же происходит и с выходной папкой
> что с этим можно сделать и как это решить?
> ...
Полагаю, Вам всё-таки архив распаковать удалось. Вы его разместили в
корне диска C? Если да, это правильно. Всего один раз приходилось решать
такую проблему. У пользователя имя администратора было написано
кириллицей. После смены на латиницу, проблема решилась. Как у Вас с этим
дела обстоят? В путях не должно быть ничего, кроме латиницы, также, 
никаких пробелов.
>

Тусик

unread,
Mar 16, 2026, 2:43:17 AMMar 16
to Георгий Майоров
Здравствуйте, Георгий.

Вы писали понедельник 16 марта 2026 год!, 10:23:06:

ГМ> кириллицей. После смены на латиницу, проблема решилась. Как у Вас с этим
ГМ> дела обстоят? В путях не должно быть ничего, кроме латиницы, также, 

Да , извлечь получилось не считая вот эту ошибку , которая была при извлечения.
Имя администратора я поменяла на латиницу, но при нажатия на кнопку обзор, выходит вот это
Расположение недоступно Диалог
Файл tmp\Desktop недоступен. Если он находится на этом компьютере, убедитесь, что диск подключен или вставлен, и попробуйте еще раз. Если это сетевой файл, проверьте, подключены ли вы к сети или к Интернету, и повторите попытку. Если не удается найти файл, возможно, он был перемещен или удален.
ОК
нажимаю ок , после этого пытаюсь выбрать файл, он вроде добавляется, но после конвертации пишет вот это
🔍 Проверка доступности RuAccent...
🔄 Инициализация RuAccent...
🔍 ПРОВЕРКА FFMPEG
FFmpeg доступен: ffmpeg version 8.0-full_build-www.gyan.dev Copyright (c) 2000-2025 the FFmpeg developers
📁 Расположение: Встроенный (в папке программы)
📍 Путь: C:\Vosk-GUI\AppData\ffmpeg\bin\ffmpeg.exe
==================================================
✅ PyTorch: 2.10.0+cpu
📥 Загрузка модели...
✅ Модель загружена с параметрами
🧪 Тестирование ударений:
✅ замок → за́мок
✅ мука → мука́
✅ белки → белки́
✅ дорога → доро́га
🎉 RuAccent РАБОТАЕТ! Успешно: 4/4

⚠️ ВНИМАНИЕ! ОШИБКА!
❌ Ошибка: Укажите папку для сохранения
⚠️ ВНИМАНИЕ! ОШИБКА!
❌ Ошибка: Укажите папку для сохранения
⚠️ ВНИМАНИЕ! ОШИБКА!
❌ Ошибка: Укажите папку для сохранения
==================================================
⚙️ НАСТРОЙКИ СИНТЕЗА:
→ Модель: VoskTTS-model-ru-0.7-multi
→ Голос: female_1
→ Потоки: 1
→ Экземпляры моделей: 1
→ Размер чанка: 225
→ Пауза: 300 мс
→ Кэширование: ВКЛ (1000)
→ Ударения: none
=================================================
🚀 Запуск синтеза...
✅ FFmpeg доступен: ffmpeg version 8.0-full_build-www.gyan.dev Copyright (c) 2000-2025 the FFmpeg developers
📁 Встроенный (в папке программы): C:\Vosk-GUI\AppData\ffmpeg\bin\ffmpeg.exe
🔄 Инициализирую RUPhon (фонемизатор)...
🔄 Инициализация RUPhon...
✅ RUPhon загружен
=================================================
⚡ СИНТЕЗ: female_1
→ Модель: VoskTTS-model-ru-0.7-multi
→ Потоки: 1
→ Экземпляры моделей: 1
→ Кэширование: ВКЛ (1000)
→ Ударения: none
→ Пауза между чанками: 300 мс
==================================================
🔧 Создание синтезатора instance_id=0...
🔄 Загрузка модели...
✅ Модель загружена и прогрета
📄 Файл: м 01.txt
📊 Символов: 5228 → 5272
✂️ Разделен на 1 чанков

⚠️ ВНИМАНИЕ! ОШИБКА!
⚠️ ВНИМАНИЕ! ОШИБКА В ЧАНКЕ 1/1
⚠️ ВНИМАНИЕ! ОШИБКА!
❌ Проблема: проблемный символ: символ '�' (код 65533)
🔤 Символ: '�' (код: 65533)
ℹ️ Детали: Синтез не удался

📊 СТАТИСТИКА ОШИБОК:
Всего ошибок: 1/1

⚠️ ВНИМАНИЕ! ОШИБКА!

🔍 ДЕТАЛЬНАЯ ИНФОРМАЦИЯ ОБ ОШИБКАХ:


⚠️ ВНИМАНИЕ! ОШИБКА!

⚠️ ОШИБКА В ЧАНКЕ 1:


🔍 ИНФОРМАЦИЯ О СИМВОЛЕ
• Проблема: проблемный символ: символ '�' (код 65533)

• Символ: '�'
• Код символа: 65533
• Описание: символ '�' (код 65533)

📝 ФРАГМЕНТ ТЕКСТА С ОШИБКОЙ:
"������ ���������
����� �������
�������� ��������, ��������� ����� �������� двадцать три
��� �� �, ������� �������� �������� ��������, �� ����� ������� �� �����������-���������, �� ��� ������, ������ �"

💡 РЕКОМЕНДАЦИИ:
• Замените этот символ на обычную букву или знак препинания
• Проверьте исходный текст в текстовом редакторе
• Попробуйте уменьшить размер чанка до 50-100 символов

⚠️ ВНИМАНИЕ! ОШИБКА!
❌ Нет созданных аудиофайлов


✅ СИНТЕЗ ЗАВЕРШЕН
извините, что вас тревожу,но очень хотелось бы чтобы всё работало.
А так не люблю людей тревожить.

Георгий Майоров

unread,
Mar 16, 2026, 3:38:29 AMMar 16
to audio...@googlegroups.com
Всех приветствую!


16.03.2026 9:38, Тусик пишет:
> извините, что вас тревожу,но очень хотелось бы чтобы всё работало.
> А так не люблю людей тревожить.
> ...
Спасибо за подробный лог. Посмотрите в папке AppData, есть ли папка
Temp. Если нет, то создайте. Точно с таким названием. В некоторых
случаях, она не создаётся по неизвестной причине. В редакторе временной
папки, в окне программы, написано, если не выбрано другое местоположение
временных файлов, Временная папка:  редактор выделено
C:\Vosk-GUI\AppData\temp. Если всё будет вот так, во время синтеза,
файлы будут отправляться в эту папку. Далее, по тексту. Был случай, чуть
мозг не сломал, у человека тоже текст не синтезировался. Попросил его
выслать, оказалось, химическая формула. Интересно, а что за текст у Вас?
Если в логе не определяется ни одна буква? Файл текста должен быть в
кодировке utf8. Остальные кодировки, эти голоса не приемлют. Перед
отправкой текста на синтез, необходимо проверить кодировку и очистить
текст от нежелательных символов. Перед запуском синтеза, после загрузки
текста в программу, нажмите CTRL + E. Запустите диагностику текста.
Посмотрите, что будет написано в логе. Все найденные программой ошибки
удаляйте.
> Напишите о результате.
>

Тусик

unread,
Mar 16, 2026, 5:50:51 AMMar 16
to Георгий Майоров
Здравствуйте, Георгий.

Вы писали понедельник 16 марта 2026 год!, 12:38:19:

ГМ> Если в логе не определяется ни одна буква? Файл текста должен быть в
ГМ> кодировке utf8. Остальные кодировки, эти голоса не приемлют. Перед

Ну вроде конвертация пошла.
Проблема была скорее всего вторая причина.
Хотя я текстовой файл сделала в UTF-8
И ещё как лучше и быстрее, это одним файлом или всё таки когда несколько?
И как влияют такие программу на компьютер?
Спасибо вам за то что отвечали и помогали.

extrimist

unread,
Mar 16, 2026, 6:51:12 AMMar 16
to audio...@googlegroups.com
всем привет!!

у кого как? у меня письма сабжевой учётки отправляются только из-под
vpn. порт 587, защитой STARTTLS, качестве метода аутентификации OAuth2

с уважением, владимир.

Георгий Майоров

unread,
Mar 18, 2026, 11:35:27 PMMar 18
to audio...@googlegroups.com
Всех приветствую!!!

16.03.2026 12:46, Тусик пишет:
> И ещё как лучше и быстрее, это одним файлом или всё таки когда несколько?
> И как влияют такие программу на компьютер?
> ...
Нужно, прежде всего, исходить из мощности компьютера и версии
библиотеки. Если на лёгкой, 0.7 версии, у меня наилучший результат, при
225 символах на чанк, то на версии 0.10 это уже, для моего компа,
слишком тяжело и сложно. Необходимо существенно уменьшать размер чанка.
Дать, какие-то точные рекомендации не возможно. Нужно смотреть на
показатели скорости и сравнивать. На той же версии модели 0.7, в
сравнении, получаю такие результаты. На портабельном конвертере,
размещённом на диске C, двадцать минут аудио конвертируется 2 минуты 36
секунд. На диске рэм, в этой программе, уже то же аудио получаю за 2
минуты и 25 секунд.
> В своей программе, на диске C, то же аудио получаю за 2 минуты 14 секунд, при 225 символах на чанк. На рэм не пробовал. Эти десятки секунд выигрыша, вроде, не важны, но проявят себя на длинных дистанциях, при синтезе объёмных книг, уже позволят сэкономить не секунды, а минуты.
>
>
Reply all
Reply to author
Forward
0 new messages