IBM TTS no sabe entonar algunas preguntas...

130 views
Skip to first unread message

Alexis Salazar

unread,
Sep 30, 2021, 10:10:45 PM9/30/21
to NVDA en español
Hola a todos.

En estos días vi por aquí comentarios sobre el complemento IBM TTS para NVDA. Yo he utilizado desde hace muchos años este sintetizador de voz pero instalada como voz Microsoft Speech API version 4. No tenía ni idea que existía un complemento como este. Lo he descargado e instalado a ver como funciona y realmente me está trabajando muy bien, y tiene unas opciones de ajuste interesantes con las que antes no contaba. Ahora bien, aprovecho la oportunidad para consultarle a los que utilizan este sintetizador a ver si les ocurre lo mismo. Resulta que el sintetizador no hace la entonación expresiva de interrogación cuando una oración contiene como palabra la letra o, o la letra u.  A continuación unos ejemplos: 
Es esto o es aquello? 
En este u otro momento? 
Fíjense que tienen el símbolo de interrogación al final. No se si esto se pueda resolver por medio del complemento, supongo es problema mas bien de la librería. 
A continuación las mismas oraciones anteriores añadiéndole la letra h a la letra o y a la letra u para que no estén solas, y vean el resultado: 
Es esto oh es aquello? 
En este uh otro momento? 
Que curioso esto, verdad? jajaja 

Aclaro que este problema ocurre tanto con el complemento como cuando es usado mediante SAPI versión 4. Por eso mencioné que debe ser problema de la librería de IBM TTS, aunque seguro podría hacerse algo mediante el complemento para resolverlo. 

allí les dejo esa a ver que opinan! 

La Bendición de Dios para todos! 

Alexis Salazar 

Gorri Martínez Oscar

unread,
Oct 2, 2021, 10:43:42 AM10/2/21
to nvd...@googlegroups.com
Saludos:
Pues, vamos con un pequeño ejercicio para demostrar que no es del todo
cierto como dices:

¿Para cuando?
¿Cómo ha ocurrido?
¿Se lo ha comido el gato?
¿Se lo ha comido el perro?
¿Se lo ha comido el gato o se lo ha comido el perro?
Si te fijas, hay preguntas directas como las primeras o preguntas con
opción como la última y es en estas, donde IBM no entona, porque incluso
cuando hablas tampoco haces esa interrogación final.
Parece una tontería, pero diría que es correctísima la forma de pronunciar.
¿Te ha quedado claro? ;)
¿Tengo que darte otro ejemplo o te ha quedado claro?
¡Saludo interrogativo!
> --
> Visita la web oficial de la comunidad de NVDA en español para acceder a
> recursos y descargas que desplegarán todo el potencial de tu lector de
> pantalla:
> https://nvda.es <https://nvda.es>
> Visita la tienda de la web oficial de la comunidad para adquirir algunos
> productos, como materiales de formación o sintetizadores de voz, que
> mejorarán tu experiencia con NVDA: https://nvda.es/tienda/
> <https://nvda.es/tienda/>
> Consulta las normas de esta lista siempre que quieras en la siguiente
> dirección:
> https://nvda.es/documentacion/normas-de-convivencia-y-buen-comportamiento/normas-de-la-lista-de-correo-de-la-comunidad-de-nvda-en-espanol/
> <https://nvda.es/documentacion/normas-de-convivencia-y-buen-comportamiento/normas-de-la-lista-de-correo-de-la-comunidad-de-nvda-en-espanol/>
> ---
> Has recibido este mensaje porque estás suscrito al grupo "NVDA en
> español" de Grupos de Google.
> Para cancelar la suscripción a este grupo y dejar de recibir sus
> mensajes, envía un correo electrónico a
> nvda-es+u...@googlegroups.com
> <mailto:nvda-es+u...@googlegroups.com>.
> Para ver esta conversación en el sitio web, visita
> https://groups.google.com/d/msgid/nvda-es/8cdafc73-d734-48b3-a43e-682221c1139fn%40googlegroups.com
> <https://groups.google.com/d/msgid/nvda-es/8cdafc73-d734-48b3-a43e-682221c1139fn%40googlegroups.com?utm_medium=email&utm_source=footer>.

Alexis Salazar

unread,
Oct 2, 2021, 9:43:54 PM10/2/21
to nvd...@googlegroups.com
Saludos de nuevo!

en verdad, no estoy de acuerdo. La voz si hace la entonación cuando es
obvia la interrogante, como por ejemplo:
quién lo hizo, o cómo lo hizo?
a dónde debo ir, o qué debo hacer?

Ciertamente en muchos casos el contexto puede decir si es una
interrogante o no, pero observemos el siguiente ejemplo:
supongamos un diálogo entre una mujer y un hombre:
la mujer pregunta: me amas?
el hombre responde: daré mi vida o el fruto de mis entrañas por ti?
ella se fue triste....

si observan, la respuesta del hombre tiene una interrogante al final que
no es pronunciada por el sintetizador. Ahora bien, por la siguiente
acción de la mujer, que se va triste, sin la debida entonación, parece
extraño que ella actúe así. Sin la expresividad de la interrogante
pareciera que el hombre está diciendo que da su vida por ella, pero no
es a´si! El hombre responde con ironía, le está diciendo, crees que voy
a morir por ti?
Así hay muchos ejemplos.

Todo esto es importante o simplemente estamos perdiendo el tiempo?

Lo anterior podría tomarse como afirmaciones de mi parte. pero no es
así. Fue una pregunta para todos: tiene la interrogación al final!

Ah, por cierto, quizás sea cuestión de culturas entre países, pero de
donde yo soy, a lo largo de toda mi educación escolar, liceo e incluso
universitaria, me enseñaron que Siempre se entona la interrogación!

Un gran abrazo amigos, La Bendición de Dios para todos!

Alexis Salazar

mk360

unread,
Oct 2, 2021, 10:20:40 PM10/2/21
to nvd...@googlegroups.com
Yo, en cambio, tiendo a concordar con la postura de Oscar. Lo cierto es
que tanto el contexto como la pausa (que es diferenta a la que se daría
ante un punto) me permiten notar que existe una iinterrogación ahí, y
concuerda con lo que yo aprendí en su momento.

Ahora bien, todo esto depende bastante de las entonaciones que se usen
al hablar según países, siempre se dice, por ejemplo, que los chilenos
somos más cantados al hablar que otros en sudamérica y así hay
expresiones distintas según el sitio en que se esté.

Dicho eso, volviendo a la temática, me parece que incluso aunque fuera
algo que se crea debe ser solucionado, va más allá de lo que se pueda
hacer con un complemento, ya que este en realidad lo que hace es
permitir que el sintetizador opere para el lector, pero el que habla por
decirlo así sigue siendo el sintetizador jeje.

Saludos,

mk.

Gorri Martínez Oscar

unread,
Oct 3, 2021, 1:22:18 AM10/3/21
to nvd...@googlegroups.com
Saludos:
Pues me habéis picado!
He procedido a leer el texto con 4 sintetizadores diferentes y la
comparativa ha sido muy odiosa, tanto, que el que peor entona incluso
saltándose toda la lógica es el que sí respeta las interrogaciones
finales: Speak NG.
Tanto windows one core como microsoft sapi 5 no hacen ninguna de las
interogaciones finales como IBM que se limita a no hacer las citadas por
el usuario.
Por último, y es precisamente lo importante de la cuestión, IBM tiende a
ser más lógica con el contexto que con los símbolos de puntuación, ya
que la pregunta del diálogo está mal construida. Nunca se puede afirmar
con un futuro perfecto, "Daré" haciendo una pregunta. En todo caso sería
"Darías, ya que la pregunta la realiza otra persona.
Dicho esto, concuerdo con MK que la cuestión no es del complemento sino
de la librería, y que curiosamente siendo la más antigua de las 4
probadas es la que habla con más naturalidad. No olvidemos que la
librería de IBM es de finales de los 90.
Por cierto, una prueba que deberías hacer para corroborar lo que te digo
es leer estos mismos textos con jaws o narrator. Te demostrará que
efectivamente el complemento no tiene posibilidades de hacer lo que pides.
Saludos

Gorri Martínez Oscar

unread,
Oct 3, 2021, 4:13:38 AM10/3/21
to nvd...@googlegroups.com
Saludos:
Pues me habéis picado!
He procedido a leer el texto con 4 sintetizadores diferentes y la
comparativa ha sido muy odiosa, tanto, que el que peor entona incluso
saltándose toda la lógica es el que sí respeta las interrogaciones
finales: Speak NG.
Tanto windows one core como microsoft sapi 5 no hacen ninguna de las
interogaciones finales como IBM que se limita a no hacer las citadas por
el usuario.
Por último, y es precisamente lo importante de la cuestión, IBM tiende a
ser más lógica con el contexto que con los símbolos de puntuación, ya
que la pregunta del diálogo está mal construida. Nunca se puede afirmar
con un futuro perfecto, "Daré" haciendo una pregunta. En todo caso sería
"Darías, ya que la pregunta la realiza otra persona.
Dicho esto, concuerdo con MK que la cuestión no es del complemento sino
de la librería, y que curiosamente siendo la más antigua de las 4
probadas es la que habla con más naturalidad. No olvidemos que la
librería de IBM es de finales de los 90.
Por cierto, una prueba que deberías hacer para corroborar lo que te digo
es leer estos mismos textos con jaws o narrator. Te demostrará que
efectivamente el complemento no tiene posibilidades de hacer lo que pides.
Saludos


El 03/10/2021 a las 4:20, mk360 escribió:

Alexis Salazar

unread,
Oct 3, 2021, 11:16:01 AM10/3/21
to nvd...@googlegroups.com
Si, yo mismo indiqué en mi primer mensaje que el problema debe ser el
sintetizador porque se expresa igual tanto utilizando el complemento o
instalándolo como voz SAPI 4. Sin embargo si pienso que si podría
solucionarse con el complemento, ya que yo mismo, hace un tiempo, creé
una entrada en el diccionario como expresión regular para que al
observar una oración que termine con interrogación y contiene alguna de
las citadas vocales en solitario, le añada una h para que realice la
expresividad. Lamentablemente perdí en un formateo de mi PC esa entrada
del diccionario, pero en cualquier día vuelvo a crearla porque, aunque
no lo crean, hace unos años tuve un problema precisamente por no haber
expresado la interrogante el sintetizador. Como dije en mi mensaje
anterior, en ocasiones no es fácil determinar por el contexto si es una
interrogante o no.

Por otro lado, las voces de Windows no son expresivas, así que Narrador
pronuncia igual que con NVDA, y de seguro con JAWS es igual ,porque el
problema son los sintetizadores.

Bueno compañeros, no quería abrumarlos con esto, quizás es sólo cuestión
de gustos o de cultura.

La Bendición de Dios para todos!

Alexis Salazar


mk360

unread,
Oct 3, 2021, 12:47:45 PM10/3/21
to nvd...@googlegroups.com
Nada de abrume, es un asunto que a mi siempre me ha interesado, más por
cuanto tal como expone Oscar el sintetizador que mejor pareciera
expresar es precisamente ibmtts en sus miles de variantes (al menos de
los software, en hardware mi querido cciber 232p también se lucía) y es
que mientras los desarrolladores se han enfocado en hacerlos más
humanos, han descuidado muchísimo la expresión y es así como esas voces
que llaman expresivas terminan por respetar el esquema de signos de
puntuación en ingléss, pero el hispano lo ignoran completamente. Prueba
de lo anterior es enfrentar a vocalizer o similares a textos encerrados
entre paréntesis o más simple, esperar que hagan alguna pausa ante
signos que suelen encontrarse como las aperturas de exclamación o
interrogación las que simplemente ignoran, algo que a mi al menos me
exaspera muchísimo, y hace que termine de una u otra forma intentando
volver a ibmtts. Al final, de los sintetizadores modernos el mejor que
he encontrado es el de loquendo, digamos la voz de Antonio,
lamentablemente parece ser el que menos ha triunfado.

El pobre Espeak-NG... no se pensó para este tipo de cosas y siento un
sintetizador gratuito hecho más bien por un estudiante es un logro
importante... lo que me gustyaría es que esas voces que está
desarrollando NVAcces avanzasen, pero por de pronto aunque buenas, solo
están en inglés.

En cuanto a las soluciones, bueno, si vas al diccionario eventualmente
se puede, pero eso es algo que puede hacer el usuario mediante un apaño
como dirían los españoles, mientras que una solución real al tema de la
entonación no pasa por ahí sino por entrar a picar código, código que no
está disponible. Además, quienes llevamos un tiempo acá sabemos lo
desastrosas que pueden llegar a ser las soluciones por diccionario
incorporadas directamente por el desarrollador y para muestra un botón,
en Chile existe el recurso de protección (jurídicamente es una acción)
esta en abreviaturas suele denominarse con una r y una p en mayúsculas
juntas... con el paso de los años me he acostumbrado a leer "juanito
interpuso una reperendo padre ante la corte de apelaciones de
Santiago"... también una lectura en iOS de textos puede demostrar como
en muchas ocasiones este intenta agringar palabras específicas, porque
al genio que hizo el diccionario no se le ocurrió que en algún lugar del
mundo de la gente que hablamos español esa palabra podía, en efecto, no
utilizarse agringada sino ser una parte más del léxico habitual de ese
país. Total, no no no, los diccionarios que los vea el usuario y que el
driver haga lo que tiene que hacer, que no es ni más ni menos que el
sintetizador hable.

Saludos,

mk.

Felipe Porciuncula Zanabria

unread,
Nov 13, 2022, 6:54:28 PM11/13/22
to NVDA en español
Hablando de preguntas opcionales, en realidad se sube la entonación antes del o, un ejemplo sencillo es:
¿Sí o no?
La voz de Jorge, incluso la que no tiene grabación de cosas concretas funciona bien con la frase anterior, pero solo en solitario o seguida de una palabra que termina con s.

Mauricio Haro

unread,
Nov 13, 2022, 10:34:43 PM11/13/22
to nvd...@googlegroups.com, Felipe Porciuncula Zanabria

¿Cómo es que no tengo los correos anteriores a este?

Bueno, por cierto, ahí hubo una pregunta que el Driver de Eloquence no entonó. Que yo creo desde mi ignorancia que es el Driver de ECI, perdón si no se escribe así, más no IBM TTS como tal, ya que este problema siempre ha existido. Según yo, debe ser algo relacionado a la estructura del código de programación de la propia voz en sí, el compilador, no sé, yo no soy programador orientado a objetos jaja. Probablemente esté hablando piedras, así que, si estoy herrado, corríjanme porfa. El problema viene cuando se pone un acento en el iniciador de la pregunta, es decir, la primera sílaba de la primera palabra que contiene la línea de la pregunta como:

¿Cómo sabes eso? ¿Cuándo fue aquello? Más se soluciona si la palabra de la interrogante tiene un acento en la segunda sílaba, ejemplo: ¿Estás bien? Palabras monosílabas volverán a reproducir el error en ciertas ocasiones, qué, él, m, principalmente qué. ¿De qué manera? Más si empezamos la pregunta con el pronombre él, si lo entonará. Es bastante confuso porque hay cosas que sí y cosas que no, pero todo va por una regla interna del propio código de la voz, creo. ¿Él de verdad nos dijo eso?

Saludos.

Para cancelar la suscripción a este grupo y dejar de recibir sus mensajes, envía un correo electrónico a nvda-es+u...@googlegroups.com.
Para ver esta conversación en el sitio web, visita https://groups.google.com/d/msgid/nvda-es/03211cac-9fa1-40e9-b8ae-51a581314ce4n%40googlegroups.com.
Reply all
Reply to author
Forward
0 new messages