Procesamiento del Habla 2C2026

31 views
Skip to first unread message

Kevin Michalewicz

unread,
May 25, 2026, 10:13:37 PM (10 days ago) May 25
to ComElec
Estimados estudiantes,

Les escribo para invitarlos a cursar TB075/86.53 Procesamiento del Habla, una materia electiva de 4 créditos (6 para plan 2009) que dictaré en el segundo cuatrimestre de 2026. Se ofrece para las carreras de Ing. Electrónica y Bioingeniería y tiene a Taller de Procesamiento de Señales como única correlativa.

Pocas áreas de la ingeniería cambiaron tanto en los últimos cinco años como el procesamiento del habla. Lo que era un 'nicho académico' hace una década hoy está detrás de productos que millones de personas usan a diario, como los asistentes de voz (Alexa, Siri, Google...), los subtítulos automáticos de YouTube, el modo dictado en el teléfono, los traductores en tiempo real y más recientemente los modelos multimodales como GPT-4o, que entienden y responden directamente por voz.

La materia trabaja en la intersección del procesamiento de señales, aprendizaje automático y un poco de lingüística. Recorre las distintas grandes eras del campo, desde los modelos ocultos de Markov clásicos hasta los Transformers entrenados sobre cientos de miles de horas de audio. La idea es que terminen la cursada con una 'mochila conceptual' completa que les permita entender, evaluar e implementar sistemas reales y actuales de habla. Más allá de su interés particular en sistemas de habla, esta asignatura puede ser de utilidad a alumnos que quieran adquirir conocimientos de modelos de ML/DL que se estudien en esta materia y no en otras (ver especialmente puntos 4 y 5 abajo).

Contenido sintético

1. Fundamentos: producción del habla, fonética acústica, cepstrum, MFCC.
2. Sistemas clásicos: HMM, GMM-HMM, modelos de lenguaje n-grama, decoders. 
3. Redes neuronales para habla: perceptrón multicapa, redes convolucionales, recurrentes, sistemas híbridos DNN-HMM.
4. Mecanismo de atención. Arquitectura Transformer. ASR end-to-end. CTC. RNN-Transducer. Conformer. 
5. Modelos fundacionales, LLMs, síntesis y aplicaciones. Aprendizaje autosupervisado (wav2vec 2.0, HuBERT, WavLM). Whisper. LLMs en habla. GPT-4o y sucesores. Síntesis de voz neuronal. Identificación de locutor, diarización.

Metodología

Una clase teórica y una práctica por semana de dos horas cada una. Las prácticas combinan resolución de problemas a mano con notebooks en Python.

Hay un parcial individual, dos entregas que se hacen en clase trabajando en grupos (2h cada una) y un coloquio integrador.

Horario

A confirmar. Si están interesados, por favor llenen esta encuesta:  https://forms.gle/HMRqSVta4nJLhZCH6.

Si tienen dudas sobre el contenido o quieren saber si encaja con sus intereses, escríbanme directamente. ¡Los espero!

Saludos,
Dr. Kevin Michalewicz

Reply all
Reply to author
Forward
0 new messages