Robotica

AI-aangedreven robots leren menselijke lipbewegingen

mm
Uncanny Robots that Sing and Speak Like Humans 1

Columbia‑ingenieurs hebben een robot gecreëerd die menselijke lipbewegingen tijdens spraak kan nabootsen en leren. Het verbeterde ontwerp combineert geavanceerde robotica met AI, waardoor het apparaat—genaamd Emo—kan leren door menselijke uitdrukkingen te observeren en, wanneer passend, menselijke emoties te repliceren. Dit is wat je moet weten.

Samenvatting: Columbia‑ingenieurs hebben een AI‑aangedreven humanoïde robot ontwikkeld die realistische menselijke lipbewegingen kan leren door observatie, waardoor spraaksynchronisatie en emotionele expressie drastisch verbeteren.

Waarom mensachtige robots de Uncanny Valley activeren

Sinds de vroegste dagen van de robotica bestaat er een zoektocht naar het creëren van humanoïde robots. Deze taak is makkelijker gezegd dan gedaan, want robotica‑ingenieurs hebben voortdurend vooruitgang geboekt, maar hebben hun doel om een apparaat te maken dat eruitziet en aanvoelt als een echte mens nog nooit volledig bereikt.
Iedereen die zelfs de meest eenvoudige humanoïde robots heeft gezien, kan bevestigen dat deze apparaten een ongemakkelijk gevoel oproepen doordat ze niet volledig als mens kunnen opgaan. De kleinste onnauwkeurigheden, zoals onnatuurlijke oogbewegingen of gezichtsuitdrukkingen, kunnen dit gevoel bij waarnemers veroorzaken.

De Uncanny Valley

De Japanse robotica‑wetenschapper Masahiro Mori merkte dit fenomeen op in de jaren zeventig. In zijn nu beroemde essay “Bukimi no Tani Gensho” (Valley of Eeriness) gaat hij dieper in op het concept. Het artikel beschrijft hoe humanoïde robots altijd een punt van scherpe disconnectie met hun waarnemers bereiken door subtiele gebreken.
In 1978 vond de term zijn weg naar westerse wetenschappelijke kringen via Jasia Reichardt’s boek “Robots: Fact, Fiction, and Prediction,“, dat de term vertaalde naar het nu populaire gebruik, “uncanny valley”. Dit werk bouwt voort op Moris bespreking en beschrijft hoe de kleinste verschillen negatieve reacties kunnen veroorzaken in de verbinding met de waarnemer.

Menselijke gezichten zijn het moeilijkste onderdeel van de vergelijking

In de afgelopen decennia zijn verschillende mijlpalen bereikt in de richting van het creëren van humanoïde robots. Nieuwe technologie, zoals LLM’s, maakt het mogelijk voor deze apparaten om te communiceren met natuurlijke taal, waardoor de kloof wordt overbrugd. Toch is één van de grootste gebieden dat nog veel aandacht vereist het menselijke gezicht.
Uncanny Robots that Sing and Speak Like Humans

Het menselijke gezicht is een complexe mix van weefsel, zenuwen en spieren die in staat is duizenden verschillende uitdrukkingen te tonen, waarvan vele helpen gevoelens naar anderen te communiceren. Op deze manier wordt het gezicht gezien als het ultieme communicatiemiddel.

Robotica‑ingenieurs hebben lang het belang en de moeilijkheid erkend van het maken van robotgezichten die functioneren als menselijke gezichten. Door jaren van hard werk hebben robots menselijke gezichten verkregen, met huid en uitdrukkingen. Toch ontbreekt de verbinding ondanks miljarden aan onderzoek.

Veeg om te scrollen →

Kenmerk Menselijk Gezicht Traditionele Humanoïde Robots Columbia AI‑Lip‑Systeem
Spiercomplexiteit 30+ gezichtsspieren met continue beweging Beperkte motoren met starre beperkingen 26 motoren met zachte siliconenarticulatie
Lip‑Audio synchronisatie Natuurlijk gesynchroniseerd tijdens spraak Vooraf gedefinieerde, vaak vertraagde bewegingen Dynamisch geleerd via vision‑to‑action AI
Emotionele expressie Subtiele, contextbewuste micro‑expressies Minimale of overdreven expressies Emotioneel coherente lip‑ en gezichtsaanwijzingen
Aanpasbaarheid Leert continu door interactie Statische bewegingsbibliotheken Zelfverbeterend door observationeel leren
Uncanny Valley‑effect Geen Hoge ongemak bij waarnemers Significant verminderd uncanny‑reactie

Het belang van lippen in communicatie

Robotica‑wetenschappers stuiten voortdurend op één belangrijk probleem bij het maken van humanoïde apparaten—het is bijna onmogelijk om lipbewegingen te reproduceren. Je lippen doen meer dan het geluid van je stem sturen en helpen je woorden uit te spreken.
Je lippen tonen eigenlijk emotie op een subtiel niveau, wat door millennia van evolutie cruciaal is geworden voor menselijke communicatie. Opmerkelijk is dat je lipbewegingen een van de meest gefocuste kenmerken van je gezicht zijn tijdens gesprekken. Daardoor besteedt je hersenen meer denkvermogen aan deze gebaren dan aan andere acties zoals je voorhoofd fronsen of knipogen.

Robotlippen zien er onnatuurlijk uit

Ondanks dat robots de mogelijkheid hebben verworven om er bijna menselijk uit te zien, blijven ze tekortschieten op het gebied van lip‑gezichtsuitdrukking. Decennia van onderzoek hebben bewezen dat de technologie niet bestaat om de juiste lip‑audio synchronisatie te bereiken die nodig is voor realistisch gedrag. Daardoor lijken robots altijd gesprekken te hebben die nagesynchroniseerd zijn in plaats van echt gesproken. Dit nagesynchroniseerde stem-effect maakt de apparaten onhandig en levenloos.
Kernachtig vertrouwen menselijke gezichten op tientallen spieren om emotionele reacties te creëren, en robotlippen hebben dit niveau van complexiteit nog niet. Het zou een nieuw type ontwerp vereisen om dit niveau van complexiteit te bereiken. Bovendien zijn de meeste robotlipbewegingen vooraf gedefinieerde bewegingen die zijn afgestemd op bepaalde vocale uitzendingen in plaats van bewegingen die zijn ontworpen om het woord natuurlijk te vormen. Omdat robots het geluid niet echt met hun lippen produceren, komen de bewegingen onnatuurlijk en uncanny over.

Columbia‑studie: Robots realistische lipbewegingen leren

Gelukkig heeft een team van Columbia‑ingenieurs mogelijk ontdekt hoe ze de Uncanny Valley kunnen oversteken. De “Learning realistic lip motions for humanoid face robots¹“‑studie introduceert een nieuw type robotgezicht dat zich primair richt op lipbeweging en synchronisatie.

Gespecialiseerde hardware

Een van de belangrijkste obstakels die het team moest overwinnen was de stijfheid van de huidige robotgezichten. Hoewel er veel nieuwe ontwerpen zijn die motor‑aangedreven reacties in het gezicht bieden, kan geen enkel ontwerp de complexiteit ondersteunen die nodig is voor realistische lipbewegingen.
Om deze beperking te overwinnen, gebruikten de ingenieurs speciaal gebouwde siliconenlippen die maximale expressie bieden. Vervolgens embedden ze 26 gezichts‑motoren, een facial action transformer en een variational autoencoder (VAE).

Vision‑to‑Action (VLA)

In de kern van deze technologische doorbraak staat het vision‑to‑action AI‑model. Met dit model kan een robotgezicht autonoom realistische lippen creëren die niet afhankelijk zijn van vooraf gedefinieerde mechanische instellingen voor beweging.

Om het model te creëren, maakte het team gebruik van observationele leermethoden. Deze programmeerstijl stelt het apparaat in staat om exacte lipdynamiek tijdens spraak in realtime vast te stellen. Daarom was de eerste stap het algoritme in een zelf‑supervised leerpijplijn te plaatsen.

Source - Columbia

Deze stap vereiste dat de ingenieurs het gezicht van de robot voor een spiegel plaatsten en het lieten duizenden gezichten creëren. Deze actie stelde het algoritme in staat om de gezichtsuitdrukkingsmogelijkheden vast te leggen. Vervolgens keek de robot uren aan YouTube‑inhoud.

De combinatie van audio en lipbeweging werd zorgvuldig getraceerd en gebruikt om het AI‑algoritme voor robotlippen te programmeren. Over een paar dagen leerde het precies hoe zijn gezicht eruit moest zien op basis van menselijke expressie in plaats van invoerparameters. Ingenieurs voegden vervolgens audio toe en begonnen met testen.

Hoe de lip‑sync AI werd getest in verschillende talen

Het team testte hun theorie in 10 verschillende talen en linguïstische contexten. De test gebruikte volledig nieuwe talen voor het model, zodat het de juiste gezichtsuitdrukking en lipbewegingen moest berekenen in plaats van eerder getrainde woorden op te roepen. Interessant genoeg omvatte de test ook context en liedjes.

Resultaten van Uncanny Robots-test

De testresultaten toonden visueel coherente lip‑audio synchronisatie overal. Opmerkelijk leverde de door het algoritme aangedreven robot realistische lipbewegingen die nauwkeurig overeenkwamen met verschillende audioclips. Indrukwekkend synchroniseerde hij zijn lipbewegingen over 10 talen en zong zelfs een lied van zijn AI‑gegenereerde debuutalbum, hello world_.
Het team ontdekte echter enkele beperkingen van de technologie. Zo kon de robot niet consequent harde lipbewegingen reproduceren die bij woorden als “pop” horen. Hij worstelde ook met samengeperste woorden als “whistle”. De ingenieurs merkten op dat deze kleine imperfecties vanzelf zullen verdwijnen naarmate het algoritme in de loop van de tijd verbetert. Deze zelf‑lerende eigenschap is het beste aspect van het algoritme. Het zal continu verbeteren naarmate het meer gegevens van mensen verzamelt, waardoor de deur wordt geopend voor meer betekenisvolle mens‑machine‑interacties in de toekomst.

Belangrijkste voordelen van realistische humanoïde robotica

Er zijn verschillende voordelen die deze technologie op de markt brengt. Ten eerste zal het mensen in staat stellen een diepere verbinding met machines te vormen. De meeste mensen zijn zich niet bewust van hoeveel communicatie onbewust via gezichtsuitdrukkingen plaatsvindt.
Deze studie opent de deur voor lip‑sync‑technologie en conversationele AI om mens‑achtige ervaringen te creëren die kunnen helpen de eenzaamheidsepidemie te bestrijden en meer. Met deze technologie zullen humanoïde robots een stap dichter bij het oversteken van de Uncanny Valley komen en robotica naar een nieuw plateau duwen.

Toepassingen in de echte wereld & Tijdlijn

Er zijn veel toepassingen voor deze technologie die zich over verschillende sectoren uitstrekken. Het voor de hand liggende gebruik van deze technologie is om de vooruitgang van humanoïde robottechnologie te stimuleren. Het vermogen om zachte, warme gezichten op koude robots te projecteren, kan de adoptie bevorderen. Hier zijn nog enkele toepassingen om over na te denken.

Ouderenzorg

Hoewel ze niet als de meest technisch onderlegde mensen worden beschouwd, beginnen ouderen robotica op een geheel nieuw niveau te omarmen. De markt voor assistieve robots in de ouderenzorg groeit, met statistieken die aantonen dat deze in 2025 $3,38 mrd bereikte. Dezelfde rapporten voorspellen dat het tegen 2033 $9,85 mrd zal overschrijden.
Ouderen zouden eerder geneigd zijn om met robots te interageren en ze te accepteren als ze niet te technologisch ingewikkeld lijken. Een robotassistent die kan communiceren met spraak naast realistische gezichtsbewegingen zou daarom perfect passen. Oudere patiënten zouden een verbinding kunnen vinden naast de broodnodige hulp.

Entertainment

De entertainment‑industrie zou een van de eersten kunnen zijn die deze technologie adopteert. Filmmakers maken zwaar gebruik van robotica in de hedendaagse entertainment‑industrie. Van animatronics zoals die in pretparken van Disney tot motion‑capture‑robots die in grote films worden gebruikt, hebben deze apparaten de entertainment‑sector vooruitgestuwd.
De huidige entertainment‑robotssector overschrijdt $4,72 mrd. Deze waarde wordt naar verwachting $26,94 mrd in 2034, aangedreven door een sterkere vraag naar realistische CGI‑personages. In de nabije toekomst zou deze technologie die niche kunnen vullen, waardoor acteurs hun gezichten direct met personages kunnen delen op nieuwe en meer directe manieren.

Onderwijs

De onderwijstak is een andere plaats waar deze technologie kan floreren. Hier zouden deze apparaten kunnen fungeren als gepersonaliseerde tutors. Al enkele rapporten hebben aangetoond dat studenten een 30 % stijging in wiskundig begrip behaalden met robot‑gebaseerde lessen.

Adoptietijdlijn

Je kunt verwachten dat deze technologie binnen de komende 5‑10 jaar in het dagelijks leven begint door te dringen. Robots zijn al in veel fabrieken en werkplekken aanwezig, en de integratie zal naar verwachting blijven groeien. Robotica‑ingenieurs begrijpen dat het integreren van dit type technologie hun apparaten menselijker kan maken.

Belangrijke onderzoekers aan Columbia

De studie werd gehost door Columbia’s Creative Machines Lab. Het paper noemt Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyuan Chen, en Hod Lipson als bijdragers.

Wat komt er hierna voor mensachtige robots

Het team zal zich nu richten op het verder perfectioneren van het algoritme. Deze stap zal meer menselijke interacties omvatten en kan zelfs evolueren naar meerdere eenheden die in realtime kunnen leren en die data delen met een gecentraliseerd model.

Investeren in robotica-innovatie

De robotica‑industrie is een snelgroeiende sector die de afgelopen 5 jaar een sterke groei heeft doorgemaakt. De introductie van nieuwe technologieën zoals LLM’s en 3D‑printers heeft innovatie naar nieuwe niveaus gedreven. Voor een uitgebreid overzicht van de bredere markt­kansen, lees onze gids over investeren in Physical AI en humanoïde robots in 2026.
Hier is één bedrijf dat aan de voorhoede van deze revolutie staat.

Teradyne ($36B)

Teradyne, Inc. (TER ) is het moederbedrijf van Universal Robots (UR), de marktleider in “cobots” (collaboratieve robots). Hoewel Teradyne geen humanoïde gezichten bouwt, is het momenteel de leidende speler in het toepassen van de “watch‑and‑learn” AI die in de Columbia‑studie wordt beschreven op de fabrieksvloer.
Cruciaal heeft Teradyne een strategisch partnerschap gevormd met Nvidia (NVDA ) om het “Isaac Manipulator” platform te integreren. Dit stelt de robots van Teradyne in staat AI‑camera’s te gebruiken om hun omgeving te “zien” en dynamisch hun traject aan te passen—net zoals de Emo‑robot leert zijn lippen aan te passen—in plaats van te vertrouwen op starre, vooraf geschreven code.

(TER )

2026-prestaties & waardering: Teradyne wordt algemeen beschouwd als een “blue chip” robotica‑aandeel. Zijn aandelen stegen bijna 50 % in 2025 en blijven in het begin van 2026 stijgen, handelend rond de $230‑range.

Waarschuwing voor beleggers: Hoewel het momentum sterk is, merken analisten op dat TER momenteel wordt verhandeld tegen een hoge waarderingspremie (meer dan 70‑voudige P/E). Het aandeel is een weddenschap dat AI‑integratie een massale hardware‑upgrade‑cyclus in de productie zal ontketenen, maar het brengt aanzienlijke volatiliteitsrisico’s met zich mee vergeleken met traditionele industriële aandelen zoals Deere of Caterpillar.

Laatste Teradyne (TER) nieuws en prestaties

Conclusie

De introductie van realistische robotgezichten is volkomen logisch. LLM’s kunnen nu menselijke spraak repliceren, en gecombineerd met realistische gezichtsuitdrukkingen zullen deze apparaten een nieuw niveau van training, leren, gezondheidszorg en meer bieden. Voor nu zal het team zich richten op het gladstrijken van imperfecties en het vinden van strategische partners en financiering.

Ontdek hier andere coole robotica‑doorbraken hier.

Referenties

1. Yuhang Hu et al., Realistische lipbewegingen leren voor humanoïde gezichtsrobots. Science Robotics 11, eadx3017 (2026). DOI:10.1126/scirobotics.adx3017

David Hamilton is een full-time journalist en een lange tijd bitcoinist. Hij specialiseert zich in het schrijven van artikelen over de blockchain. Zijn artikelen zijn gepubliceerd in meerdere bitcoin publicaties, waaronder Bitcoinlightning.com