Connect with us

Robotica

AI-aangedreven robots leren menselijke lipbewegingen

mm
Uncanny Robots that Sing and Speak Like Humans 1

Ingenieurs van Columbia hebben een robot gemaakt die menselijke lipbewegingen tijdens het spreken kan nabootsen en aanleren. Het verbeterde ontwerp combineert geavanceerde robotica met AI, waardoor het apparaat – genaamd Emo – menselijke uitdrukkingen kan leren door ze te observeren en menselijke emoties kan repliceren waar dat gepast is. Dit is wat u moet weten.

Samenvatting: Ingenieurs van Columbia hebben een AI-aangedreven humanoïde robot ontwikkeld die realistische menselijke lipbewegingen kan leren door observatie, wat de spraaksynchronisatie en emotionele expressie aanzienlijk verbetert.

Waarom humanoïde robots het ‘uncanny valley’-effect oproepen

Sinds de vroegste dagen van robotica is er een zoektocht geweest om humanoïde robots te creëren. Deze taak is veel gemakkelijker gezegd dan gedaan, aangezien robotica-ingenieurs voortdurend vooruitgang hebben geboekt in die richting, maar hun doel om een apparaat te maken dat eruitziet en aanvoelt als een echt mens nooit volledig hebben bereikt.

Iedereen die zelfs maar de meest basale humanoïde robots heeft gezien, kan getuigen van het ongemak dat deze apparaten veroorzaken in hun vermogen om als mens op te gaan. De kleinste onnauwkeurigheden, zoals onnatuurlijke oogbewegingen of gezichtsuitdrukkingen, kunnen dit gevoel bij waarnemers creëren.

Het Uncanny Valley

De Japanse roboticus Masahiro Mori merkte dit fenomeen in de jaren zeventig op. In zijn inmiddels beroemde essay “Bukimi no Tani Gensho” (Vallei van het Onheilspellende) gaat hij dieper in op het concept. Het artikel beschrijft hoe humanoïde robots altijd een punt van scherpe disconnectie met hun waarnemers bereiken door subtiele gebreken.

In 1978 vond de term zijn weg naar westerse wetenschappelijke kringen via Jasia Reichardts boek “Robots: Fact, Fiction, and Prediction,” dat de term vertaalde naar het nu populaire gebruik, “uncanny valley.” Dit werk bouwt voort op Mori’s bespreking en beschrijft hoe de kleinste verschillen negatieve reacties kunnen veroorzaken in de verbinding van de waarnemer.

Menselijke gezichten zijn het moeilijkste onderdeel van de vergelijking

In de afgelopen decennia zijn er verschillende mijlpalen bereikt in het creëren van humanoïde robots. Nieuwe technologie, zoals LLM’s, maakt het mogelijk dat deze apparaten communiceren met natuurlijke taal, wat helpt de kloof te overbruggen. Een van de grootste gebieden die echter nog veel aandacht vereist, is het menselijk gezicht.

Uncanny Robots that Sing and Speak Like Humans

Het menselijk gezicht is een complexe mix van weefsel, zenuwen en spieren die duizenden verschillende uitdrukkingen kan tonen, waarvan er vele helpen gevoelens aan anderen over te brengen. Op deze manier wordt het gezicht gezien als het ultieme communicatiemiddel.

Robotica-ingenieurs hebben het belang en de moeilijkheid van het creëren van robotgezichten die als mensen functioneren, al lang erkend. Door jarenlang hard werk zijn robots erin geslaagd menselijk uitziende gezichten te verkrijgen, met huid en uitdrukkingen. Toch ontbreekt de verbinding nog steeds, ondanks miljarden aan onderzoek.

Veeg om te scrollen →

Kenmerk Menselijk gezicht Traditionele humanoïde robots Columbia AI-lipsysteem
Spiercomplexiteit 30+ gezichtsspieren met continue beweging Beperkte motoren met rigide beperkingen 26 motoren met zachte siliconenarticulatie
Lip-audiosynchronisatie Natuurlijk gesynchroniseerd tijdens spraak Vooraf gedefinieerde, vaak vertraagde bewegingen Dynamisch aangeleerd via vision-to-action AI
Emotionele expressie Subtiele, contextbewuste micro-expressies Minimale of overdreven expressies Emotioneel coherente lip- en gezichtssignalen
Aanpassingsvermogen Leert continu door interactie Statische bewegingsbibliotheken Zelfverbeterend door observationeel leren
Uncanny Valley-effect Geen Hoge mate van ongemak bij waarnemer Aanzienlijk verminderde ‘uncanny’ reactie

Het belang van lippen in communicatie

Robotici stuiten voortdurend op een belangrijk probleem bij het creëren van humanoïde apparaten: het is bijna onmogelijk om lipbewegingen na te bootsen. Je lippen doen meer dan het geluid van je stem sturen en je helpen woorden uit te spreken.

Je lippen tonen emotie op een subtiel niveau, wat door millennia van evolutie van vitaal belang is geworden voor menselijke communicatie. Met name je lipbewegingen zijn een van de meest gefocuste kenmerken van je gezicht tijdens gesprekken. Als gevolg daarvan besteedt je brein meer denkkracht aan deze gebaren dan aan andere acties zoals fronsen of knipogen.

Robotslippen zien er onnatuurlijk uit

Ondanks dat robots het vermogen hebben gekregen bijna menselijk te lijken, schieten ze nog steeds tekort op het gebied van lipgezichtsuitdrukking. Decennia van onderzoek hebben bewezen dat de technologie niet bestaat om de juiste lip-audiosynchronisatie te bereiken die nodig is voor realistisch gedrag. Hierdoor lijken robots altijd hun gesprekken nagesynchroniseerd te hebben in plaats van gesproken. Dit nagesynchroniseerde stem-effect zorgt ervoor dat deze apparaten onhandig en levenloos lijken.

Scherpzinnig genoeg vertrouwen menselijke gezichten op tientallen spieren om emotionele reacties te creëren, en robotlippen hebben dit niveau van complexiteit nog niet. Het zou een nieuw type ontwerp vereisen om dit complexiteitsniveau te bereiken. Bovendien zijn de meeste robotlipbewegingen vooraf gedefinieerde bewegingen die zijn ingesteld om overeen te komen met bepaalde vocale uitzendingen, in plaats van bewegingen die zijn ontworpen om het woord op natuurlijke wijze te vormen. Omdat robots het geluid niet daadwerkelijk met hun lippen produceren, komen de bewegingen onnatuurlijk en griezelig over.

Columbia-studie: Robots realistische lipbewegingen aanleren

Gelukkig heeft een team van Columbia-ingenieurs mogelijk uitgevogeld hoe ze het ‘uncanny valley’ kunnen oversteken. De studie “Learning realistic lip motions for humanoid face robots¹” introduceert een nieuw type robotgezicht dat zich primair richt op lipbeweging en synchronisatie.

Gespecialiseerde hardware

Een van de belangrijkste hindernissen die het team moest overwinnen, was de stijfheid van de huidige robotgezichten. Hoewel er veel nieuwe ontwerpen zijn die motor-aangedreven reacties in het gezicht mogelijk maken, kan geen enkel ontwerp de complexiteit ondersteunen die nodig is voor realistische lipbewegingen.

Om deze beperking te overwinnen, gebruikten de ingenieurs speciaal vervaardigde siliconenlippen die zijn ontworpen voor maximale expressie. Vervolgens hebben ze 26 gezichtsmotoren, een ‘facial action transformer’ en een ‘variational autoencoder’ (VAE) ingebed.

Vision-to-Action (VLA)

De kern van deze technologische doorbraak is het vision-to-action AI-model. Met dit model kan een robotgezicht autonoom realistische lippen creëren die niet vertrouwen op vooraf gedefinieerde mechanische instellingen voor beweging.

Om het model te creëren, gebruikte het team observationele leermethoden. Deze programmeerstijl stelt het apparaat in staat om exacte lipdynamiek tijdens spraak in realtime vast te stellen. Daarom was de eerste stap om het algoritme in een zelf-gesuperviseerde leerpijplijn in te voeren.

Source - Columbia

Deze stap vereiste dat de ingenieurs het robotgezicht voor een spiegel plaatsten en het instrueerden duizenden gezichten te maken. Deze actie stelde het algoritme in staat om zijn gezichtsuitdrukkingsmogelijkheden vast te leggen. Vervolgens keek de robot urenlang naar YouTube-inhoud.

De combinatie van audio en lipbeweging werd zorgvuldig gevolgd en gebruikt om het gezichtslip-AI-algoritme van de robot te programmeren. In een paar dagen leerde het precies hoe zijn gezicht eruit zou moeten zien op basis van menselijke expressie, in plaats van gebruik te maken van invoerparameters. Ingenieurs voegden vervolgens audio toe en begonnen met testen.

Hoe de lip-sync AI werd getest in verschillende talen

Het team testte hun theorie in 10 verschillende talen en linguïstische contexten. De test gebruikte volledig nieuwe talen voor het model, om ervoor te zorgen dat het de juiste gezichtsuitdrukking en lipbewegingen moest berekenen in plaats van eerder getrainde woorden te herinneren. Interessant genoeg gebruikte de test ook context en liedjes.

Testresultaten van ‘uncanny’ robots

De testresultaten toonden visueel coherente lip-audiosynchronisatie over de hele linie. Met name de algoritme-aangedreven robot leverde realistische lipbewegingen die nauwkeurig overeenkwamen met verschillende audioclips. Indrukwekkend genoeg synchroniseerde het zijn lipbewegingen succesvol in 10 talen en zong het zelfs een liedje van zijn AI-gegenereerde debuutalbum, hello world_.

Het team constateerde wel enkele beperkingen van de technologie. Ten eerste was de robot niet in staat om harde lipbewegingen die geassocieerd worden met woorden zoals “pop” consistent te reproduceren. Het had ook moeite met getuite woorden zoals “whistle.” Scherpzinnig merkten de ingenieurs op dat deze kleine imperfecties zichzelf zullen oplossen naarmate het algoritme in de loop van de tijd verbetert. Deze zelflerende functie is het beste aspect van het algoritme. Het zal zich continu verbeteren naarmate het in de loop van de tijd meer gegevens van mensen vastlegt, wat de deur opent voor meer betekenisvolle mens-machine-interacties in de toekomst.

Belangrijkste voordelen van realistische humanoïde robotica

Deze technologie brengt verschillende voordelen voor de markt. Ten eerste zal het mensen in staat stellen een diepere band met machines te vormen. De meeste mensen zijn zich niet bewust van hoeveel communicatie er onbewust via gezichtsuitdrukkingen plaatsvindt.

Deze studie opent de deur voor lip-sync-technologie en conversationele AI om mensachtige ervaringen te creëren die kunnen helpen in de strijd tegen de eenzaamheidsepidemie en meer. Met deze technologie zullen humanoïde robots een stap dichter bij het oversteken van het ‘uncanny valley’ kunnen komen en robotica naar een nieuw plateau kunnen tillen.

Real-world toepassingen & tijdlijn

Er zijn veel toepassingen voor deze technologie die zich uitstrekken over verschillende industrieën. De voor de hand liggende toepassing van deze technologie is om humanoïde robottechnologie vooruit te helpen. Het vermogen om zachte, warme gezichten op koude robots te projecteren, kan de adoptie helpen bevorderen. Hier zijn enkele andere toepassingen om over na te denken.

Ouderenzorg

Hoewel niet beschouwd als de meest tech-savvy mensen, hebben ouderen robotica op een geheel nieuw niveau omarmd. De markt voor assistieve robots in de ouderenzorg is in opkomst, met statistieken die aantonen dat deze $3,38 miljard bereikte in 2025. Dezelfde rapporten voorspellen dat deze $9,85 miljard zal overschrijden tegen 2033.

Ouderen zouden meer bereid zijn om te interacteren met en robots te accepteren als ze niet technologisch ingewikkeld leken. Daarom zou een robotassistent die kan communiceren met spraak naast realistische gezichtsbewegingen de perfecte match kunnen zijn. Oudere patiënten zouden een band kunnen vinden naast broodnodige hulp.

Entertainment

De entertainmentindustrie zou een van de eerste kunnen zijn die deze technologie adopteert. Filmmakers vertrouwen zwaar op robotica in de huidige entertainmentindustrie. Van animatronics zoals die gebruikt worden in themaparken zoals Disney tot motion capture-robots die worden gebruikt in grote films, de apparaten hebben de entertainmentindustrie vooruit geholpen.

De huidige entertainmentrobotsector overschrijdt $4,72 miljard. Deze waarde zal naar verwachting groeien tot $26,94 miljard tegen 2034, aangedreven door een sterkere vraag naar realistische CGI-personages. In de nabije toekomst zou deze technologie die niche kunnen vullen, waardoor acteurs hun gezichten op nieuwe en directere manieren met personages kunnen delen.

Onderwijs

De onderwijssector is een andere plek waar deze technologie zou kunnen floreren. Hier kunnen deze apparaten worden opgezet als gepersonaliseerde tutors. Sommige rapporten hebben al aangetoond dat studenten een boost van 30% in wiskundebegrip bereikten met door robots aangepaste lessen.

Adoptietijdlijn

U kunt verwachten dat deze technologie binnen de komende 5-10 jaar begint door te filteren in het dagelijks leven. Robots zijn al in veel fabrieken en werkplekken, en de integratie zal naar verwachting alleen maar toenemen. Robotici begrijpen dat het integreren van dit type technologie hun apparaten herkenbaarder kan maken.

Belangrijkste onderzoekers aan Columbia

De studie werd gehost door Columbia’s Creative Machines Lab. Het artikel vermeldt Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian

David Hamilton is een full-time journalist en een lange tijd bitcoinist. Hij specialiseert zich in het schrijven van artikelen over de blockchain. Zijn artikelen zijn gepubliceerd in meerdere bitcoin publicaties, waaronder Bitcoinlightning.com

Advertiser Disclosure: Securities.io is committed to rigorous editorial standards to provide our readers with accurate reviews and ratings. We may receive compensation when you click on links to products we reviewed. ESMA: CFDs are complex instruments and come with a high risk of losing money rapidly due to leverage. Between 74-89% of retail investor accounts lose money when trading CFDs. You should consider whether you understand how CFDs work and whether you can afford to take the high risk of losing your money. Investment advice disclaimer: The information contained on this website is provided for educational purposes, and does not constitute investment advice. Trading Risk Disclaimer: There is a very high degree of risk involved in trading securities. Trading in any type of financial product including forex, CFDs, stocks, and cryptocurrencies. This risk is higher with Cryptocurrencies due to markets being decentralized and non-regulated. You should be aware that you may lose a significant portion of your portfolio. Securities.io is not a registered broker, analyst, or investment advisor.