Robótica
Robots con IA aprenden el movimiento de los labios humanos

Los ingenieros de Columbia han creado un robot capaz de imitar y aprender los movimientos labiales humanos al hablar. El diseño mejorado combina robótica avanzada con inteligencia artificial, lo que permite al dispositivo, llamado Emo, aprender observando expresiones humanas y replicar emociones humanas cuando es necesario. Esto es lo que necesita saber.
Por qué los robots humanoides desencadenan el Valle Inquietante
Desde los inicios de la robótica, se ha buscado crear robots humanoides. Es mucho más fácil decirlo que hacerlo, ya que los ingenieros robóticos han avanzado continuamente en esa dirección, pero nunca han logrado del todo su objetivo de crear un dispositivo que se vea y se sienta como un humano real.
Cualquiera que haya estado en contacto con los robots humanoides, incluso los más básicos, puede dar fe de la inquietud que estos dispositivos generan en cuanto a su capacidad para mimetizarse con los humanos. La más mínima inexactitud, como movimientos oculares o expresiones faciales poco naturales, puede generar esta sensación en los observadores.
El valle misterioso
El roboticista japonés Masahiro Mori notó este fenómeno en la década de 1970. En su ahora famoso "Bukimi no Tani GenshoEn su ensayo "Valle de lo Inquietante", profundiza en el concepto. El trabajo describe cómo los robots humanoides siempre llegan a un punto de profunda desconexión con sus observadores debido a defectos sutiles.
En 1978, el término llegó a los círculos científicos occidentales a través del libro de Jasia Reichardt “Robots: realidad, ficción y predicción”que tradujo el término a su uso ahora popular, “valle inquietante”. Este trabajo se basa en la discusión de Mori, describiendo cómo las diferencias más pequeñas pueden causar reacciones adversas en la conexión del observador.
Los rostros humanos son la parte más difícil de la ecuación
En las últimas décadas, se han logrado varios hitos en la creación de robots humanoides. Nuevas tecnologías, como los LLM, permiten que estos dispositivos se comuniquen mediante lenguaje natural, lo que ayuda a reducir la brecha. Sin embargo, una de las áreas más importantes que aún requiere mucha atención es el rostro humano.

El rostro humano es una compleja combinación de tejidos, nervios y músculos, capaz de mostrar miles de expresiones diferentes, muchas de las cuales ayudan a comunicar sentimientos a los demás. De esta manera, el rostro se considera el instrumento de comunicación por excelencia.
Los ingenieros robóticos reconocen desde hace tiempo la importancia y la dificultad de crear rostros robóticos que funcionen como humanos. Tras años de arduo trabajo, los robots han logrado obtener rostros de apariencia humana, con piel y expresiones. Sin embargo, a pesar de miles de millones de dólares invertidos en investigación, la conexión aún no se ha logrado.
Desliza para desplazarte →
| Característica | Cara humana | Robots humanoides tradicionales | Sistema de labios Columbia AI |
|---|---|---|---|
| Complejidad muscular | Más de 30 músculos faciales con movimiento continuo | Motores limitados con restricciones rígidas | 26 motores con articulación de silicona suave |
| Sincronización de labios y audio | Sincronizado naturalmente durante el habla | Movimientos predefinidos, a menudo retrasados | Aprendido dinámicamente a través de IA de visión a acción |
| Expresión emocional | Microexpresiones sutiles y conscientes del contexto | Expresiones mínimas o exageradas | Señales labiales y faciales emocionalmente coherentes |
| Adaptabilidad | Aprende continuamente a través de la interacción. | Bibliotecas de movimiento estático | Superación personal mediante el aprendizaje observacional |
| Efecto del valle inquietante | Ninguno | Alta incomodidad del observador | Respuesta extraña significativamente reducida |
La importancia de los labios en la comunicación
Los especialistas en robótica se han topado constantemente con un problema importante al crear dispositivos humanoides: es casi imposible recrear el movimiento de los labios. Los labios hacen más que dirigir el sonido de la voz y ayudar a pronunciar las palabras.
Tus labios reflejan emociones a un nivel sutil, lo cual, a lo largo de milenios de evolución, se ha vuelto vital para la comunicación humana. Cabe destacar que los movimientos de tus labios son uno de los rasgos más importantes de tu rostro durante las conversaciones. En consecuencia, tu cerebro dedica más capacidad de pensamiento a estos gestos que a otras acciones como fruncir el ceño o guiñar un ojo.
Los labios de los robots parecen antinaturales
A pesar de que los robots han adquirido la capacidad de parecer casi humanos, aún carecen de expresión facial. Décadas de investigación han demostrado que no existe la tecnología necesaria para lograr la sincronización adecuada entre labios y audio, necesaria para crear un comportamiento realista. Por ello, los robots siempre parecen tener conversaciones dobladas en lugar de habladas. Este efecto de voz doblada hace que estos dispositivos parezcan torpes y sin vida.
Es evidente que los rostros humanos dependen de docenas de músculos para generar respuestas emocionales, y los labios robóticos aún no presentan este nivel de complejidad. Se requeriría un nuevo tipo de diseño para lograrlo. Además, la mayoría de los movimientos labiales robóticos son predefinidos y configurados para coincidir con ciertas transmisiones vocales, en lugar de movimientos diseñados para crear la palabra de forma natural. Dado que los robots no producen el sonido con sus labios, los movimientos resultan poco naturales y extraños.
Estudio de Columbia: Enseñando a robots movimientos labiales realistas
Afortunadamente, un equipo de ingenieros de Columbia podría haber descubierto cómo cruzar el valle inquietante. El "Aprendizaje de movimientos labiales realistas para robots con rostro humanoides¹”El estudio presenta un nuevo tipo de rostro robótico que se centra principalmente en el movimiento y la sincronización de los labios.
Hardware especializado
Uno de los principales obstáculos que el equipo tuvo que superar fue la rigidez de los rostros robóticos actuales. Si bien existen muchos diseños nuevos que proporcionan reacciones motorizadas en el rostro, ninguno puede soportar la complejidad necesaria para permitir movimientos labiales realistas.
Para superar esta limitación, los ingenieros utilizaron labios de silicona especialmente diseñados para ofrecer la máxima expresión. Posteriormente, incorporaron 26 motores faciales, un transformador de acción facial y un autocodificador variacional (VAE).
Visión a la acción (VLA)
En el centro de este avance tecnológico se encuentra el modelo de IA de visión a acción. Con este modelo, un rostro robótico puede crear de forma autónoma labios realistas que no dependen de configuraciones mecánicas predefinidas para su movimiento.
Para crear el modelo, el equipo empleó métodos de aprendizaje observacional. Este estilo de programación permite al dispositivo determinar la dinámica labial exacta durante el habla en tiempo real. Por lo tanto, el primer paso fue introducir el algoritmo en un proceso de aprendizaje autosupervisado.

Este paso requirió que los ingenieros colocaran la cara del robot frente a un espejo y le indicaran que creara miles de caras. Esta acción permitió al algoritmo capturar sus capacidades de expresión facial. A partir de ahí, el robot vio horas de contenido de YouTube.
La combinación de audio y movimiento labial se rastreó cuidadosamente y se utilizó para programar el algoritmo de IA del robot para labios faciales. En pocos días, aprendió exactamente cómo debería verse su rostro a partir de la expresión humana, en lugar de usar parámetros de entrada. Los ingenieros añadieron el audio y comenzaron las pruebas.
Cómo se probó la inteligencia artificial de sincronización de labios en distintos idiomas
El equipo probó su teoría en 10 idiomas y contextos lingüísticos diferentes. La prueba empleó idiomas completamente nuevos para el modelo, lo que le obligó a calcular la expresión facial y los movimientos labiales adecuados, en lugar de recordar palabras previamente entrenadas. Curiosamente, la prueba también empleó contexto y canciones.
Resultados de la prueba de Uncanny Robots
Los resultados de la prueba mostraron una sincronización visualmente coherente entre labios y audio en todos los ámbitos. Cabe destacar que el robot, impulsado por algoritmos, proporcionó un movimiento labial realista que coincidía con precisión con varios clips de audio. Sorprendentemente, sincronizó con éxito sus movimientos labiales en 10 idiomas e incluso cantó una canción de su álbum debut generado por IA. Hola Mundo_.
Cabe destacar que el equipo encontró algunas limitaciones en la tecnología. Por ejemplo, el robot no pudo reproducir de forma consistente los movimientos bruscos de los labios asociados con palabras como "pop". También tuvo dificultades con palabras con tictac como "whistle". Los ingenieros observaron con interés que estas pequeñas imperfecciones se solucionarán solas a medida que el algoritmo mejore con el tiempo. Esta función de autoaprendizaje es el mejor aspecto del algoritmo. Mejorará continuamente a medida que capture más datos humanos, lo que permitirá interacciones hombre-máquina más significativas en el futuro.
Principales beneficios de la robótica humanoide realista
Esta tecnología aporta varios beneficios al mercado. Por un lado, permitirá a los humanos establecer una conexión más profunda con las máquinas. La mayoría de las personas desconocen cuánta comunicación se produce inconscientemente mediante expresiones faciales.
Este estudio abre la puerta a la tecnología de sincronización labial y a la IA conversacional para crear experiencias similares a las humanas que podrían ayudar a combatir la epidemia de soledad y otros problemas. Con esta tecnología, los robots humanoides estarán un paso más cerca de superar el valle inquietante y llevar la robótica a un nuevo nivel.
Aplicaciones en el mundo real y cronología
Esta tecnología tiene numerosas aplicaciones en diversas industrias. Su uso más evidente es impulsar el desarrollo de la robótica humanoide. La capacidad de proyectar rostros suaves y cálidos en robots fríos podría impulsar su adopción. Aquí hay otras aplicaciones que vale la pena considerar.
Cuidado de ancianos
Si bien no se les considera los más expertos en tecnología, las personas mayores han comenzado a adoptar la robótica a un nivel completamente nuevo. El mercado de robots de asistencia para el cuidado de personas mayores está en auge, con statistics mostrando que alcanzó los $3.38 mil millones en 2025. Los mismos informes predicen que superará los $9.85 mil millones para 2033.
Las personas mayores estarían más dispuestas a interactuar y aceptar robots si no les pareciera que fueran tecnológicamente complejos. Por ello, un asistente robótico capaz de comunicarse mediante el habla y movimientos faciales realistas podría ser la solución ideal. Los pacientes mayores podrían encontrar una conexión y recibir la asistencia que tanto necesitan.
Comercio y Ocio
La industria del entretenimiento podría ser una de las primeras en adoptar esta tecnología. Los cineastas dependen en gran medida de la robótica en la industria actual. Desde animatrónica como la utilizada en parques temáticos como Disney hasta robots de captura de movimiento utilizados en grandes películas, estos dispositivos han impulsado la industria del entretenimiento.
El sector actual de la robótica para el entretenimiento supera los 4.72 millones de dólares. Se prevé que este valor alcance los 26.94 millones de dólares para 2034, impulsado por una mayor demanda de personajes CGI realistas. En un futuro próximo, esta tecnología podría cubrir ese nicho, permitiendo a los actores compartir sus rostros con los personajes de formas nuevas y más directas.
Educación
El sector educativo es otro ámbito donde esta tecnología podría prosperar. Aquí, estos dispositivos podrían configurarse como tutores personalizados. Ya existen algunos... (aqui) Han demostrado que los estudiantes lograron un aumento del 30% en la comprensión matemática utilizando lecciones adaptadas por robots.
Cronología de la adopción
Se espera que esta tecnología comience a integrarse en la vida cotidiana en los próximos 5 a 10 años. Los robots ya están presentes en muchas fábricas y lugares de trabajo, y se prevé que su integración aumente. Los expertos en robótica entienden que integrar este tipo de tecnología puede ayudar a que sus dispositivos sean más accesibles.
Investigadores clave en Columbia
El estudio fue organizado por el Creative Machines Lab de Columbia. El documento enumera a Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyuan Chen y Hod Lipson como colaboradores.
¿Qué viene a continuación para los robots con apariencia humana?
El equipo se centrará ahora en perfeccionar aún más el algoritmo. Este paso implicará más interacciones humanas e incluso podría evolucionar hacia múltiples unidades capaces de aprender en tiempo real y compartir esos datos con un modelo centralizado.
Invertir en innovación robótica
La industria de la robótica es un sector dinámico que ha experimentado un fuerte crecimiento en los últimos 5 años. La introducción de nuevas tecnologías como los LLM y las impresoras 3D ha impulsado la innovación a nuevas cotas. Para obtener una visión completa de las oportunidades del mercado, lea nuestra guía sobre Invertir en IA física y robots humanoides en 2026.
Aquí hay una empresa que ha estado a la vanguardia de esta revolución.
Teradino ($36 mil millones)
Teradyne, Inc. (TER + 7.28%) es la empresa matriz de Universal Robots (UR), líder del mercado de cobots (robots colaborativos). Si bien Teradyne no fabrica rostros humanoides, actualmente es líder en la implementación de la IA de "observación y aprendizaje" descrita en el estudio de Columbia en las plantas de producción.
Fundamentalmente, Teradyne ha formado una asociación estratégica con Nvidia (NVDA + 5.62%) Integrar la plataforma "Isaac Manipulator". Esto permite a los robots de Teradyne usar cámaras de IA para "ver" su entorno y ajustar dinámicamente su trayectoria, de forma similar a como el robot Emo aprende a ajustar sus labios, en lugar de depender de un código rígido y predefinido.
Teradyne, Inc. (TER + 7.28%)
Rendimiento y valoración 2026: Teradyne es ampliamente considerada una acción de robótica de primera línea. Sus acciones subieron casi un 50 % en 2025 y han seguido subiendo a principios de 2026, cotizando cerca de los 230 dólares.
Últimas noticias y rendimiento de Teradyne (TER)
Análisis crítico: Teradyne (NASDAQ:TER) y Bel Fuse (NASDAQ:BELFA)
Teradyne (TER) cae más que el mercado: información para inversores
Acciones de Teradyne, Inc. ($TER) vendidas por E. Ohman J o Asset Management AB
3 acciones de alto crecimiento mejor valoradas que no puedes ignorar: ROKU, TER, CRDO
Assenagon Asset Management SA compra 882,723 acciones de Teradyne, Inc. ($TER)
Teradyne impulsa la robótica con IA: ¿Se está consolidando la tesis del crecimiento?
Conclusión
La introducción de rostros robóticos realistas es perfectamente lógica. Los LLM ahora pueden replicar el habla humana y, al combinarse con expresiones faciales realistas, estos dispositivos proporcionarán un nuevo nivel de capacitación, aprendizaje, atención médica y más. Por ahora, el equipo se centrará en corregir imperfecciones y encontrar socios estratégicos y financiación.
Conozca otros avances interesantes en robótica. aqui.
Referencias
1. Yuhang Hu et al., Aprendiendo movimientos de labios realistas para robots con caras humanoides. Ciencias: Robótica 11, eadx3017 (2026). DOI:10.1126/scirobotics.adx3017










