¿alternativas a Verbio TTS?

30 views
Skip to first unread message

Juan Carlos Valero

unread,
Jun 14, 2024, 7:23:34 AMJun 14
to asterisk-es

Hola a todos,

mucho tiempo sin preguntar por aqui. ¿Conoceis alguna alternativa (free o comercial, me da lo mismo) al TTS de Verbio (y a su ASR) que funcione bien y sea integrable con Asterisk? Llevo tiempo desconectado del mundo TTS/ASR y si me podeis apuntar en la dirección correcta os lo agradecería.

-- 
Un saludo,

Juan Carlos Valero
Capa Tres Soluciones Tecnológicas S.L.
Datos de contacto en http://capatres.tel
-------------------------------------------------------------------
OpenPGP_signature.asc

fvil...@gmail.com

unread,
Jun 14, 2024, 7:26:38 AMJun 14
to asterisk-es

Amigo acá te dejo las 2 de Google el tts y el stt…funcionan de maravillas y gratis….

https://zaf.github.io/asterisk-googletts/

--
Este email pertenece a la lista de Asterisk-ES (http://www.asterisk-es.org)
Normas de la lista Asterisk-ES: http://comunidad.asterisk-es.org/index.php?title=Lista:normas-asterisk-es
---
Has recibido este mensaje porque estás suscrito al grupo "asterisk-es" de Grupos de Google.
Para cancelar la suscripción a este grupo y dejar de recibir sus mensajes, envía un correo electrónico a asterisk-es...@googlegroups.com.
Para ver esta conversación en el sitio web, visita https://groups.google.com/d/msgid/asterisk-es/71b996bb-a0a1-4685-9ff1-ad6b16411965%40capatres.com.

Ricardo Peironcely

unread,
Jun 14, 2024, 8:36:00 AMJun 14
to aster...@googlegroups.com
To he usado intensivamente aws Polly con un agi que deja el fichero en el directorio accesible por asterisk.  Si te lo montas bien (hasheando el texto), tienes una caché de  ficheros tts (licenciados ya que las condiciones de uso te dejan reutilizarlo), reduces el lag y no has de pagar por nuevas llamadas al api,

Una PBX con miles de llamadas al día, el IVR cantando las direcciones del llamante, etc.. no consumía más que unos céntimos al mes. Eso si, lo de las direcciones eran unos pocos cientos que si que hacían muchas llamadas recurrentes.

Un saludo / Best regards / С уважением

Ricardo Peironcely

Enviado desde mi móvil, disculpas por la brevedad.
This mail was sent from mobile, sorry for being brief
Написано на мобильном, приношу извинения за краткость.


Jon Bonilla (Manwe)

unread,
Jun 14, 2024, 8:44:38 AMJun 14
to aster...@googlegroups.com
El Fri, 14 Jun 2024 13:23:18 +0200
Juan Carlos Valero <jcva...@capatres.com> escribió:

> Hola a todos,
>
> mucho tiempo sin preguntar por aqui. ¿Conoceis alguna alternativa (free
> o comercial, me da lo mismo) al TTS de Verbio (y a su ASR) que funcione
> bien y sea integrable con Asterisk? Llevo tiempo desconectado del mundo
> TTS/ASR y si me podeis apuntar en la dirección correcta os lo agradecería.
>

Hola Juan Carlos

Ya te han indicado Google y Amazon.

La pregunta es si necesitas stream en tiempo real del audio o más bien pasar
ficheros de audio y textos ya creados. La respuesta es diferente según el caso.
Partiendo de que no es RT:

Para TTS prefiero Polly de Amazon, es más natural la voz en castellano que
Google TTS.

Para ASR estoy probando Whisper de OpenAI. Ya te diré cuando termine lo
contento que estoy.


un saludo,

Jon



--
PekePBX, the multitenant PBX solution
https://pekepbx.com

Elio Rojano

unread,
Jun 18, 2024, 4:02:02 AMJun 18
to aster...@googlegroups.com
Igual llego tarde a esta conversación...

Llevo varios meses probando Whisper en un sistema con varias GPU dedicadas y puedo decir que es muy lento, demasiado para convertir con calidad algo específico que pueda ayudar en un IVR con un tiempo "aceptable".
Whisper es un ASR de gramática abierta, por lo que puede recibir cualquier palabra y lo va a transcribir bien, pero le lleva su tiempo, tanto por la carga del modelo como por el propio hecho de tener que esperar a que termine la conversación para enviarla a transcribir.
Por lo tanto, está bien para transcribir conversaciones finalizadas, pero no para tiempo real.

Aparte de eso, si hay ruido de fondo, Whisper por defecto (hay versiones modificadas que tienen algunas mejoras interesantes en velocidad y en características) no tiene eliminación de ruido, por lo tanto sólo funciona bien (y cuando lo hace, lo hace muy bien) cuando no hay ruido... un entorno de laboratorio, una oficina silenciosa, etc.
Si estás en la calle, con el móvil en manos libres, olvídate... no va a pillar nada. Si al audio previamente le pasas un filtro anti-ruidos, tampoco pillará nada... el sistema hace uso de las frecuencias altas y bajas (que es lo que quita los filtros) y tampoco pillará nada.

Así que... lo dicho... para transcribir grabaciones que no tengan mucho ruido de fondo o algo así, bien... para tiempo real o que requiera de una transcripción rápida, mejor irse a un Google, Amazon o Verbio si quieres algo serio y hacer uso de sus funcionalidades en tiempo real.

Ahora, si no te importa que tarde en obtener el texto y tus conversaciones no tienen ruido de fondo, entonces Whisper funcionará genial.

Saludos!


--
Este email pertenece a la lista de Asterisk-ES (http://www.asterisk-es.org)
Normas de la lista Asterisk-ES: http://comunidad.asterisk-es.org/index.php?title=Lista:normas-asterisk-es
---
Has recibido este mensaje porque estás suscrito al grupo "asterisk-es" de Grupos de Google.
Para cancelar la suscripción a este grupo y dejar de recibir sus mensajes, envía un correo electrónico a asterisk-es...@googlegroups.com.


--

Juan Carlos Valero

unread,
Jun 18, 2024, 4:12:16 AMJun 18
to aster...@googlegroups.com

Gracias a todos por los comentarios. Ahora ya tengo algo mas claro el escenario, toca hacer pruebas y ver que tal.

Juan Carlos.

El 18/6/24 a las 10:01, Elio Rojano escribió:
OpenPGP_signature.asc

Oscar Javier Bello Pérez

unread,
Jul 25, 2024, 7:51:32 PM (2 days ago) Jul 25
to aster...@googlegroups.com
Hola,

Para efectos de pruebas creo que este vale la pena ver VOSK https://rtc-world.blogspot.com/2022/02/habilitar-asr-vosk-en-asterisk-18.html

¡Saludos!

Reply all
Reply to author
Forward
0 new messages