Robotique

Robots alimentés par l’IA apprennent le mouvement des lèvres humaines

mm
Uncanny Robots that Sing and Speak Like Humans 1

Columbia Engineers have created a robot capable of mimicking and learning human lip movements during speech. The upgraded design combines advanced robotics with AI, enabling the device—named Emo—to learn from observing human expressions and replicate human emotions when appropriate. Here’s what you need to know.

Résumé: Les ingénieurs de Columbia ont développé un robot humanoïde piloté par l’IA capable d’apprendre les mouvements réalistes des lèvres humaines grâce à l’observation, améliorant considérablement la synchronisation de la parole et l’expression émotionnelle.

Pourquoi les robots humanoïdes déclenchent la vallée de l’étrange

Depuis les débuts de la robotique, il y a eu une quête pour créer des robots humanoïdes. Cette tâche est beaucoup plus facile à dire qu’à faire, les ingénieurs en robotique ont continuellement progressé dans cette direction, mais n’ont jamais pleinement atteint leur objectif de créer un dispositif qui ressemble et se comporte comme un véritable humain.

Quiconque a été en présence même des robots humanoïdes les plus basiques peut attester du malaise que ces dispositifs provoquent en raison de leur capacité à se fondre parmi les humains. Les moindres inexactitudes, telles que des mouvements oculaires ou des expressions faciales non naturelles, peuvent créer ce sentiment chez les observateurs.

La vallée de l’étrange

Le roboticien japonais Masahiro Mori a remarqué ce phénomène dans les années 1970. Dans son essai désormais célèbre «  » (Vallée de l’Étrange), il détaille le concept. Le papier décrit comment les robots humanoïdes atteignent toujours un point de déconnexion nette avec leurs observateurs en raison de défauts subtils.

En 1978, le terme a fait son chemin dans les cercles scientifiques occidentaux via le livre de Jasia Reichardt « Robots: Fact, Fiction, and Prediction, », qui a traduit le terme dans son usage aujourd’hui populaire, « vallée de l’étrange ». Ce travail s’appuie sur la discussion de Mori, décrivant comment les plus petites différences peuvent provoquer des réactions défavorables dans la connexion de l’observateur.

Les visages humains sont la partie la plus difficile de l’équation

Au cours des dernières décennies, plusieurs étapes importantes ont été franchies vers la création de robots humanoïdes. Les nouvelles technologies, comme les LLM, rendent possible pour ces dispositifs de communiquer en langage naturel, aidant à combler le fossé. Cependant, l’un des plus grands domaines qui nécessite encore beaucoup d’attention est le visage humain.

Robots étranges qui chantent et parlent comme des humains

Le visage humain est un mélange complexe de tissus, de nerfs et de muscles capable de démontrer des milliers d’expressions différentes, dont beaucoup aident à communiquer des sentiments aux autres. De cette façon, le visage est considéré comme le dispositif de communication ultime.

Les ingénieurs en robotique ont longtemps reconnu l’importance et la difficulté de créer des visages robotiques qui fonctionnent comme ceux des humains. Après des années de travail acharné, les robots ont réussi à obtenir des visages à apparence humaine, avec peau et expressions. Pourtant, malgré des milliards investis dans la recherche, la connexion fait encore défaut.

Glissez pour faire défiler →

Fonctionnalité Visage humain Robots humanoïdes traditionnels Système de lèvres IA de Columbia
Complexité musculaire Plus de 30 muscles faciaux avec mouvement continu Moteurs limités avec contraintes rigides 26 moteurs avec articulation en silicone souple
Synchronisation lèvres‑audio Synchronisée naturellement pendant la parole Mouvements prédéfinis, souvent retardés Apprise dynamiquement via IA vision‑vers‑action
Expression émotionnelle Micro‑expressions subtiles, sensibles au contexte Expressions minimales ou exagérées Indices labiaux et faciaux émotionnellement cohérents
Adaptabilité Apprend continuellement par l’interaction Bibliothèques de mouvements statiques Auto‑amélioration grâce à l’apprentissage par observation
Effet de la vallée de l’étrange Aucun Fort inconfort de l’observateur Réponse étrange considérablement réduite

L’importance des lèvres dans la communication

Les roboticiens se sont constamment heurtés à un problème majeur lorsqu’ils créent des dispositifs humanoïdes : il est presque impossible de recréer le mouvement des lèvres. Vos lèvres font plus que diriger le son de votre voix et vous aident à prononcer les mots.

Vos lèvres affichent en réalité des émotions à un niveau subtil, ce qui, au fil des millénaires d’évolution, est devenu vital pour la communication humaine. Notamment, vos mouvements labiaux sont l’un des traits les plus fortement focalisés de votre visage lors des conversations. Par conséquent, votre cerveau consacre plus de puissance de réflexion à ces gestes qu’à d’autres actions comme froncer les sourcils ou cligner de l’œil.

Les lèvres des robots semblent artificielles

Bien que les robots aient acquis la capacité d’apparaître presque humains, ils manquent encore en termes d’expression faciale labiale. Des décennies de recherche ont prouvé que la technologie n’existe pas encore pour atteindre la synchronisation lèvres‑audio requise afin de créer un comportement réaliste. Ainsi, les robots semblent toujours avoir leurs conversations doublées plutôt que parlées. Cet effet de voix doublée rend ces dispositifs maladroits et sans vie.

En effet, les visages humains reposent sur des dizaines de muscles pour créer des réponses émotionnelles, et les lèvres robotiques ne possèdent pas encore ce niveau de complexité. Il faudrait un nouveau type de conception pour atteindre ce niveau de complexité. De plus, la majorité des mouvements labiaux robotiques sont des mouvements prédéfinis réglés pour correspondre à certaines diffusions vocales plutôt que des mouvements conçus pour créer le mot naturellement. Puisque les robots ne produisent pas réellement le son avec leurs lèvres, les mouvements paraissent artificiels et étranges.

Étude de Columbia : Enseigner aux robots des mouvements réalistes des lèvres

Heureusement, une équipe d’ingénieurs de Columbia semble avoir trouvé comment traverser la vallée de l’étrange. L’étude « Learning realistic lip motions for humanoid face robots¹ » introduit un nouveau type de visage robotique qui se concentre principalement sur le mouvement des lèvres et la synchronisation.

Matériel spécialisé

L’un des principaux obstacles que l’équipe a dû surmonter était la rigidité des visages robotiques actuels. Bien qu’il existe de nombreux nouveaux designs qui offrent des réactions motorisées dans le visage, aucun ne peut supporter la complexité nécessaire pour permettre des mouvements réalistes des lèvres.

Pour surmonter cette limitation, les ingénieurs ont utilisé des lèvres en silicone conçues sur mesure pour offrir une expression maximale. Ensuite, ils ont intégré 26 moteurs faciaux, un transformateur d’action faciale et un auto‑encodeur variationnel (VAE).

Vision‑vers‑action (VLA)

Au cœur de cette percée technologique se trouve le modèle d’IA vision‑vers‑action. Grâce à ce modèle, un visage robotique peut créer de façon autonome des lèvres réalistes qui ne dépendent pas de réglages mécaniques prédéfinis pour le mouvement.

Pour créer le modèle, l’équipe a utilisé des méthodes d’apprentissage par observation. Ce style de programmation permet à l’appareil de déterminer les dynamiques exactes des lèvres pendant la parole en temps réel. Ainsi, la première étape a consisté à introduire l’algorithme dans un pipeline d’apprentissage auto‑supervisé.

Source - Columbia

Cette étape a nécessité que les ingénieurs placent le visage du robot devant un miroir et lui demandent de créer des milliers de visages. Cette action a permis à l’algorithme de capturer ses capacités d’expression faciale. À partir de là, le robot a ensuite regardé des heures de contenu YouTube.

La combinaison de l’audio et du mouvement des lèvres a été soigneusement suivie et utilisée pour programmer l’algorithme IA des lèvres faciales du robot. En quelques jours, il a appris exactement comment son visage devait apparaître à partir d’expressions humaines plutôt qu’en utilisant des paramètres d’entrée. Les ingénieurs ont ensuite ajouté l’audio et ont commencé les tests.

Comment l’IA de synchronisation labiale a été testée dans plusieurs langues

L’équipe a testé leur théorie sur 10 langues différentes et contextes linguistiques variés. Le test a utilisé des langues complètement nouvelles pour le modèle, garantissant qu’il devait calculer la bonne expression faciale et les mouvements des lèvres plutôt que de rappeler des mots déjà entraînés. Fait intéressant, le test a également utilisé du contexte et des chansons.

Résultats des tests des robots étranges

Les résultats des tests ont montré une synchronisation lèvres‑audio visuellement cohérente sur l’ensemble du panel. Notamment, le robot alimenté par l’algorithme a fourni des mouvements de lèvres réalistes qui correspondaient précisément à plusieurs extraits audio. De façon impressionnante, il a réussi à synchroniser ses mouvements labiaux à travers 10 langues et même à chanter une chanson de son album de début généré par IA, hello world_.

Cependant, l’équipe a constaté certaines limites technologiques. D’une part, le robot n’a pas pu reproduire de façon constante les mouvements labiaux durs associés à des mots comme « pop ». Il a également eu du mal avec les mots qui nécessitent de pincer les lèvres comme « whistle ». Les ingénieurs ont noté que ces petites imperfections se résorberont d’elles‑mêmes à mesure que l’algorithme s’améliorera avec le temps. Cette fonction d’auto‑apprentissage est le meilleur aspect de l’algorithme. Il continuera à s’améliorer en capturant davantage de données humaines au fil du temps, ouvrant la porte à des interactions homme‑machine plus significatives à l’avenir.

Principaux avantages de la robotique humanoïde réaliste

Cette technologie apporte plusieurs avantages au marché. Tout d’abord, elle permettra aux humains de former une connexion plus profonde avec les machines. La plupart des gens ne se rendent pas compte de l’ampleur de la communication qui se produit via les expressions faciales de façon subconsciente.

Cette étude ouvre la porte à la technologie de synchronisation labiale et à l’IA conversationnelle pour créer des expériences semblables à celles des humains qui pourraient aider à combattre l’épidémie de solitude et plus encore. En utilisant cette technologie, les robots humanoïdes seront capables de se rapprocher d’un pas de franchir la vallée de l’étrange et de pousser la robotique vers un nouveau plateau.

Applications réelles et calendrier

Il existe de nombreuses applications pour cette technologie qui s’étendent à plusieurs industries. L’utilisation évidente de cette technologie est d’aider à faire progresser la technologie robotique humanoïde. La capacité de projeter des visages doux et chaleureux sur des robots froids pourrait aider à stimuler l’adoption. Voici d’autres applications à considérer.

Soins aux personnes âgées

Bien que les personnes âgées ne soient pas considérées comme les plus férues de technologie, elles ont commencé à adopter la robotique à un tout autre niveau. Le marché des robots d’assistance aux soins des personnes âgées est en hausse, avec des statistiques montrant qu’il a atteint 3,38 Mds $ en 2025. Les mêmes rapports prévoient qu’il dépassera 9,85 Mds $ d’ici 2033.

Les personnes âgées seraient plus disposées à interagir et à accepter les robots s’ils ne semblaient pas technologiquement compliqués. Ainsi, un assistant robotique capable de communiquer par la parole avec des mouvements faciaux réalistes pourrait être le choix idéal. Les patients âgés pourraient trouver une connexion ainsi qu’une assistance très nécessaire.

Divertissement

L’industrie du divertissement pourrait être parmi les premières à adopter cette technologie. Les cinéastes s’appuient fortement sur la robotique dans l’industrie du divertissement actuelle. Des animatroniques comme celles utilisées dans les parcs à thème comme Disney aux robots de capture de mouvement utilisés dans les grands films, ces dispositifs ont fait progresser l’industrie du divertissement.

Le secteur des robots de divertissement dépasse aujourd’hui 4,72 Mds $. Cette valeur devrait croître à 26,94 Mds $ d’ici 2034, alimentée par une demande accrue de personnages CGI réalistes. Dans un avenir proche, cette technologie pourrait combler cette niche, permettant aux acteurs de partager leurs visages avec des personnages de nouvelles manières plus directes.

Éducation

Le secteur éducatif est un autre domaine où cette technologie pourrait prospérer. Ici, ces dispositifs pourraient être configurés comme tuteurs personnalisés. Déjà, certains rapports ont montré que les étudiants ont réalisé une hausse de 30 % de la compréhension en mathématiques grâce à des leçons adaptées par robot.

Calendrier d’adoption

Vous pouvez vous attendre à voir cette technologie commencer à filtrer dans la vie quotidienne au cours des 5 à 10 prochaines années. Les robots sont déjà présents dans de nombreuses usines et lieux de travail, avec une intégration qui ne devrait que croître. Les roboticiens comprennent que l’intégration de ce type de technologie peut aider à rendre leurs dispositifs plus accessibles.

Chercheurs clés à Columbia

L’étude a été hébergée par le Creative Machines Lab de Columbia. Le papier répertorie Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyuan Chen et Hod Lipson comme contributeurs.

Ce qui vient ensuite pour les robots semblables aux humains

L’équipe se concentrera maintenant sur le perfectionnement de l’algorithme. Cette étape impliquera davantage d’interactions humaines et pourrait même évoluer vers plusieurs unités capables d’apprendre en temps réel et de partager ces données avec un modèle centralisé.

Investir dans l’innovation robotique

L’industrie de la robotique est un secteur à rythme rapide qui a connu une forte croissance au cours des 5 dernières années. L’introduction de nouvelles technologies comme les LLM et les imprimantes 3D a aidé à pousser l’innovation à de nouveaux niveaux. Pour un aperçu complet des opportunités de marché plus larges, lisez notre guide sur investir dans l’IA physique et les robots humanoïdes en 2026.

Voici une entreprise qui a été à l’avant‑garde de cette révolution.

Teradyne ($36B)

Teradyne, Inc. (TER ) est la société mère d’Universal Robots (UR), le leader du marché des « cobots » (robots collaboratifs). Bien que Teradyne ne fabrique pas de visages humanoïdes, elle est actuellement le principal acteur pour amener l’IA « watch‑and‑learn » décrite dans l’étude de Columbia sur le plancher des usines.

De façon cruciale, Teradyne a formé un partenariat stratégique avec Nvidia (NVDA ) pour intégrer la plateforme « Isaac Manipulator ». Cela permet aux robots de Teradyne d’utiliser des caméras IA pour « voir » leur environnement et ajuster dynamiquement leur trajectoire — à l’image du robot Emo qui apprend à ajuster ses lèvres — plutôt que de dépendre d’un code rigide pré‑écrit.

(TER )

Performance et valorisation 2026: Teradyne est largement considérée comme une action « blue chip » de la robotique. Ses actions ont bondi de près de 50 % en 2025 et ont continué de grimper au début de 2026, se négociant autour de la fourchette de 230 $.

Avertissement aux investisseurs: Bien que l’élan soit fort, les analystes notent que TER se négocie actuellement à une prime de valorisation élevée (plus de 70 x P/E). L’action est un pari que l’intégration de l’IA déclenchera un cycle massif de mise à niveau du matériel dans la fabrication, mais elle comporte un risque de volatilité important comparé aux actions industrielles traditionnelles comme Deere ou Caterpillar.

Dernières nouvelles et performances de Teradyne (TER)

Conclusion

L’introduction de visages robotiques réalistes a tout son sens. Les LLM sont désormais capables de reproduire la parole humaine, et lorsqu’ils sont combinés à des expressions faciales réalistes, ces dispositifs vont offrir un nouveau niveau de formation, d’apprentissage, de soins de santé et plus encore. Pour l’instant, l’équipe se concentrera sur l’élimination des imperfections et la recherche de partenaires stratégiques et de financement.

Découvrez d’autres percées passionnantes en robotique ici.

Références

1. Yuhang Hu et al., Apprentissage des mouvements réalistes des lèvres pour les robots à visage humanoïde. Science Robotics 11, eadx3017 (2026). DOI:10.1126/scirobotics.adx3017

David Hamilton est un journaliste à plein temps et un bitcoiniste de longue date. Il se spécialise dans la rédaction d'articles sur la blockchain. Ses articles ont été publiés dans plusieurs publications bitcoin, notamment Bitcoinlightning.com