Доброго времени суток всем!
'Юрий' via Информационно-дискуссионный лист
AUDIO-CLUB.NET в письме от 13.03.2026; 9:47 пишет:
ЮvИдлACN> Технически сделать выбор использования cpu или gpu сделать можно,
Именно в этой сборке это не так то и просто, к сожалению, иначе я бы не писал.
Вернее, в этой сборке и именно с этой моделью.
ЮvИдлACN> Он использует инструкции процессора
ЮvИдлACN> (AVX/AVX2), поэтому даже на обычном офисном компьютере конвертация
ЮvИдлACN> идет быстрее, чем человек успевает слушать.
Полностью согласен с вами. Видимо, я просто избалован максридером, когда книгу
на 10 часов можно сконвертировать за одну минуту. Голос тут, понятное дело, ни
в какое сравнение с Николаем по естественности не идёт, но детские болезни те
же: расстановка ударений, чтение без контекста и много что ещё. Строго говоря,
модель тут не виновата, похорошему, надо делать мегасборку, в которой будут
работать последовательно несколько нейросетей:
1. Нормализация текста;
2. Расстановка ударений;
3. Непосредственная озвучка.
ЮvИдлACN> Чтобы задействовать **GPU (видеокарту)**, нужны две вещи:
ЮvИдлACN> 1. **NVIDIA**: Должна быть видеокарта от NVIDIA (
Разумеется, она вполне себе есть.
ЮvИдлACN> 2. **Библиотеки CUDA**: Нужно скачать и прописать в сборку около
ЮvИдлACN> 3-4 ГБ дополнительных библиотек от NVIDIA.
На самом деле гораздо меньше, не всё, что предоставляет cuda, нам понадобится
для генерации речи, но в целом, вы правы, минимум гига на полтора размер
сборки увеличится.
ЮvИдлACN> ### Стоит ли это делать?
Если получится завести vosk на GPU, скорости максридера и николая добиться,
конечно, не получится, но ускорения генерации на порядок добиться получится
точно. Ну то есть на видеокарте совершенно точно получим десятикратное
увеличение скорости и это на простенькой, типа NVIDIA GeForce GT 710 с 2 гб
VRAM. На более крутых видюхах с параллельными вычислениями производительность
может быть увеличена в 20 - 40 раз. Если каждый чанк при этом обрабатывать в
отдельном потоке, можем добиться производительности максридера и николая на
видеокартах с 16 гб VRAM и выше. Но именно у воска есть какие-то пока не
совсем понятные проблемы. не хочет она дружить с cuda, хоть ты тресни.
ЮvИдлACN> Для озвучки текста в аудио (TTS) видеокарта дает небольшой прирост
ЮvИдлACN> по сравнению с хорошим процессором,
Увы, достаточно хороший. Хотя, надо будет попробовать сборку на процессорах от
Intel, бывает, что в какой-то специфической задаче именно AMD проседает. С
другой стороны я тут недавно делал для ученицы саммарайз лекций на oLama, так
вполне себе шустренько всё шуршало и в несколько потоков на 16 GB VRAM для
саммарайза 50-и минутной лекции понадобилось около полутора часов. Правда
загрузка по всем ядрам CPU и GPU была 100 процентов и пользоваться машиной
было совершенно невозможно в это время. С другой стороны, наверное, можно
загрузить машину по самое небалуйся на часик, чтобы сделать красивую
десятичасовую аудиокнигу. Можно в конце концов в тимток и со смартфона зайти.
:)
ЮvИдлACN> но при этом:
ЮvИдлACN> * Сборка перестанет быть **портативной** (
И опять-таки, нет.
ЮvИдлACN> она вырастет в размере на несколько гигабайт).
Если в неё включить ещё и средства нормализации и расстановки ударений, думаю,
гигов на 10.
ЮvИдлACN> * Пропадет универсальность (на компьютерах без мощной видеокарты она будет выдавать ошибку).
Это тоже можно преодолеть.
ЮvИдлACN> (Князев «читает» со скоростью в 5-10 раз быстрее реального времени).
То есть трёхчасовую книгу в лучшем случае озвучивать 15 часов, а в хутшем 30?
И это при условии, что корректно прервать процесс и запустить его с места
остановки нельзя? Ну такое...