Connect with us

Robotik

AI-drivna robotar lär sig mänskliga läpprörelser

mm
Uncanny Robots that Sing and Speak Like Humans 1

Columbia Engineers har skapat en robot som kan härma och lära sig mänskliga läpprörelser under tal. Den uppgraderade designen kombinerar avancerad robotteknik med AI, vilket gör att enheten – som heter Emo – kan lära sig genom att observera mänskliga uttryck och återge mänskliga känslor när det är lämpligt. Här är vad du behöver veta.

Sammanfattning: Ingenjörer vid Columbia har utvecklat en AI-driven humanoid robot som kan lära sig realistiska mänskliga läpprörelser genom observation, vilket dramatiskt förbättrar talsynkronisering och känslouttryck.

Varfför humanoida robotar utlöser Uncanny Valley

Sedan robotikens tidigaste dagar har det funnits en strävan att skapa humanoida robotar. Denna uppgift är mycket lättare sagt än gjort, eftersom robotikingenjörer ständigt har gjort framsteg i den riktningen, men aldrig helt har uppnått sitt mål att skapa en enhet som ser ut och känns som en riktig människa.

Alla som har varit i närheten av även de mest grundläggande humanoida robotarna kan intyga den obehagskänsla som enheterna orsakar genom sin förmåga att smälta in som människor. De minsta felaktigheterna, som onaturliga ögonrörelser eller ansiktsuttryck, kan skapa denna känsla hos observatörer.

Uncanny Valley

Den japanske robotikern Masahiro Mori uppmärksammade detta fenomen på 1970-talet. I hans nu berömda essä “Bukimi no Tani Gensho” (Dal av kuslighet) går han in i detalj på konceptet. Artikeln beskriver hur humanoida robotar alltid når en punkt av skarp avkoppling med sina observatörer på grund av subtila brister.

År 1978 gjorde termen entré i västerländska vetenskapliga kretsar via Jasia Reichardts bok “Robots: Fact, Fiction, and Prediction,” som översatte termen till dess nu populära användning, “uncanny valley”. Detta arbete bygger vidare på Moris diskussion och beskriver hur de minsta skillnaderna kan orsaka negativa reaktioner i observatörens koppling.

Mänskliga ansikten är den svåraste delen av ekvationen

Under de senaste decennierna har flera milstolpar nåtts mot att skapa humanoida robotar. Ny teknik, som LLM:er, gör det möjligt för dessa enheter att kommunicera med naturligt språk, vilket hjälper till att överbrygga klyftan. Men ett av de största områdena som fortfarande kräver mycket uppmärksamhet är det mänskliga ansiktet.

Kusliga robotar som sjunger och talar som människor

Det mänskliga ansiktet är en komplex blandning av vävnad, nerver och muskler som kan demonstrera tusentals olika uttryck, varav många hjälper till att kommunicera känslor till andra. På så sätt ses ansiktet som den ultimata kommunikationsenheten.

Robotikingenjörer har länge erkänt vikten och svårigheten med att skapa robotansikten som fungerar som människors. Genom år av hårt arbete har robotar lyckats få mänskliga ansikten, med hud och uttryck. Trots miljarder i forskning saknas dock fortfarande kopplingen.

Svep för att bläddra →

Funktion Mänskligt ansikte Traditionella humanoida robotar Columbias AI-läppsystem
Muskelkomplexitet 30+ ansiktsmuskler med kontinuerlig rörelse Begränsade motorer med stela begränsningar 26 motorer med mjuk silikonartikulation
Läpp–ljudsynkronisering Naturligt synkroniserad under tal Fördefinierade, ofta fördröjda rörelser Lärs in dynamiskt via vision-to-action AI
Känslouttryck Subtila, kontextmedvetna mikroexpressioner Minimala eller överdrivna uttryck Känslomässigt sammanhängande läpp- och ansiktscuer
Anpassningsförmåga Lär kontinuerligt genom interaktion Statiska rörelsebibliotek Självförbättrande genom observationsinlärning
Uncanny Valley-effekt Ingen Hög obehagskänsla hos observatör Märkbart reducerad uncanny-respons

Läpparnas betydelse i kommunikation

Robotiker har ständigt stött på ett betydande problem när de skapar humanoida enheter – det är nästan omöjligt att återskapa läpprörelser. Dina läppar gör mer än att styra ljudet av din röst och hjälpa dig att uttala ord.

Dina läppar visar faktiskt känslor på en subtil nivå, vilket genom årtusenden av evolution har blivit avgörande för mänsklig kommunikation. Särskilt dina läpprörelser är ett av de mest fokuserade dragen i ditt ansikte under samtal. Följaktligen ägnar din hjärna mer tankekraft åt dessa gester än andra handlingar som att rynka pannan eller blinka.

Robotars läppar ser onaturliga ut

Trots att robotar har fått förmågan att se nästan mänskliga ut, saknar de fortfarande när det gäller läppansiktsuttryck. Decennier av forskning har bevisat att tekniken inte finns för att uppnå den korrekta läpp-ljudsynkronisering som krävs för att skapa realistiskt beteende. Som sådana verkar robotar alltid ha sina samtal dubbade snarare än talade. Denna dubbade röst-effekt får dessa enheter att se klumpiga och livlösa ut.

Skickligt förlitar sig mänskliga ansikten på dussintals muskler för att skapa känslomässiga responser, och robotläppar har inte denna komplexitetsnivå ännu. Det skulle kräva en ny typ av design för att uppnå denna komplexitetsnivå. Dessutom är majoriteten av robotläpprörelser fördefinierade rörelser inställda för att matcha vissa vokala utsändningar snarare än rörelser designade för att skapa ordet naturligt. Eftersom robotar faktiskt inte producerar ljudet med sina läppar, uppfattas rörelserna som onaturliga och kusliga.

Columbia-studie: Att lära robotar realistiska läpprörelser

Som tur är kan ett team av Columbia Engineers ha listat ut hur man korsar uncanny valley. Studien “Learning realistic lip motions for humanoid face robots¹” introducerar en ny typ av robotansikte som främst fokuserar på läpprörelser och synkronisering.

Specialiserad hårdvara

Ett av de största hindren som teamet fick övervinna var styvheten i dagens robotansikten. Även om det har funnits många nya design som ger motorstyrda reaktioner i ansiktet, kan ingen stödja den komplexitet som krävs för att möjliggöra realistiska läpprörelser.

För att övervinna denna begränsning använde ingenjörerna specialbyggda silikonläppar designade för att ge maximalt uttryck. Sedan inbäddade de 26 ansiktsmotorer, en ansiktsaktionstransformator och en variational autoencoder (VAE).

Vision-to-Action (VLA)

I kärnan av detta tekniska genombrott är vision-to-action AI-modellen. Genom att använda denna modell kan ett robotansikte autonomt skapa realistiska läppar som inte förlitar sig på fördefinierade mekaniska inställningar för rörelse.

För att skapa modellen använde teamet observationsinlärningsmetoder. Denna programmeringsstil gör att enheten kan fastställa exakta läppdynamik under tal i realtid. Som sådan var det första steget att mata in algoritmen i en självövervakad inlärningspipeline.

Källa - Columbia

Detta steg krävde att ingenjörerna placerade robotens ansikte framför en spegel och instruerade den att skapa tusentals ansikten. Denna handling gjorde att algoritmen kunde fånga dess ansiktsuttrycksförmåga. Därefter tittade roboten på timmar av YouTube-innehåll.

Kombinationen av ljud och läpprörelse spårades noggrant och användes för att programmera robotens ansiktsläpp-AI-algoritm. Under några dagar lärde den sig exakt hur dess ansikte skulle se ut från mänskliga uttryck snarare än att använda indataparametrar. Ingenjörerna lade sedan till ljud och började testa.

Hur läppsynk-AI:n testades över språk

Teamet testade sin teori över 10 olika språk och lingvistiska sammanhang. Testet använde helt nya språk för modellen, vilket säkerställde att den skulle behöva beräkna rätt ansiktsuttryck och läpprörelser jämfört med att återkalla tidigare tränade ord. Intressant nog använde testet också kontext och sånger.

Resultat för Uncanny Robots-test

Testresultaten visade visuellt sammanhängande läpp-ljudsynkronisering över hela linjen. Särskilt noterbart är att den algoritmdrivna roboten gav realistiska läpprörelser som exakt matchade flera ljudklipp. Imponerande nog lyckades den synkronisera sina läpprörelser över 10 språk och sjöng till och med en sång från sitt AI-genererade debutalbum, hello world_.

Teamet fann dock vissa begränsningar med tekniken. För det första kunde roboten inte konsekvent reproducera hårda läpprörelser förknippade med ord som “pop”. Den kämpade också med puckade ord som “whistle”. Skickligt noterade ingenjörerna att dessa små imperfektioner kommer att rätta till sig själva när algoritmen förbättras över tid. Denna självinlärningsfunktion är den bästa aspekten av algoritmen. Den kommer kontinuerligt att förbättras när den fångar mer data från människor över tid, vilket öppnar dörren för mer meningsfulla människa-maskin-interaktioner i framtiden.

Nyckelfördelar med realistisk humanoid robotik

Det finns flera fördelar som denna teknik för med sig till marknaden. För det första kommer den att tillåta människor att bilda en djupare koppling med maskiner. De flesta människor är omedvetna om hur mycket kommunikation som sker via ansiktsuttryck undermedvetet.

Denna studie öppnar dörren för läppsynkteknik och konversations-AI att skapa mänskliga upplevelser som skulle kunna hjälpa till att bekämpa ensamhetsepidemin och mer. Genom att använda denna teknik kommer humanoida robotar att kunna komma ett steg närmare att korsa uncanny valley och driva robotik till en ny platå.

Verkliga tillämpningar & Tidslinje

Det finns många tillämpningar för denna teknik som sträcker sig över flera branscher. Den uppenbara användningen av denna teknik är att hjälpa till att driva humanoid robotteknik framåt. Förmågan att projicera mjuka, varma ansikten på kalla robotar skulle kunna hjälpa till att driva adoptionen. Här är några andra tillämpningar att tänka på.

Äldreomsorg

Även om de inte anses vara de mest tekniskt kunniga människorna har de äldre börjat omfamna robotik på en helt ny nivå. Marknaden för assistiv robotik inom äldreomsorg är på uppgång, med statistik som visar att den nådde $3,38 miljarder 2025. Samma rapporter förutspår att den kommer att överstiga $9,85 miljarder 2033.

De äldre skulle vara mer villiga att interagera och acceptera robotar om de inte verkade tekniskt komplicerade. Som sådan skulle en robotassistent som kunde kommunicera med tal tillsammans med realistiska ansiktsrörelser kunna vara den perfekta passformen. Äldre patienter skulle kunna hitta en koppling tillsammans med mycket behövligt bistånd.

Underhållning

Underhållningsbranschen kan vara bland de första att anamma denna teknik. Filmskapare förlitar sig tungt på robotik i dagens underhållningsindustri. Från animatronik som de som används på nöjesparker som Disney till motion capture-robotar som används i stora filmer, har enheterna drivit underhållningsindustrin framåt.

Dagens underhållningsrobotsektor överstiger $4,72 miljarder. Detta värde förutspås växa till $26,94 miljarder

David Hamilton är en heltidsjournalist och en långvarig bitcoinist. Han specialiserar sig på att skriva artiklar om blockchain. Hans artiklar har publicerats i flera bitcoinpublikationer, inklusive Bitcoinlightning.com

Advertiser Disclosure: Securities.io is committed to rigorous editorial standards to provide our readers with accurate reviews and ratings. We may receive compensation when you click on links to products we reviewed. ESMA: CFDs are complex instruments and come with a high risk of losing money rapidly due to leverage. Between 74-89% of retail investor accounts lose money when trading CFDs. You should consider whether you understand how CFDs work and whether you can afford to take the high risk of losing your money. Investment advice disclaimer: The information contained on this website is provided for educational purposes, and does not constitute investment advice. Trading Risk Disclaimer: There is a very high degree of risk involved in trading securities. Trading in any type of financial product including forex, CFDs, stocks, and cryptocurrencies. This risk is higher with Cryptocurrencies due to markets being decentralized and non-regulated. You should be aware that you may lose a significant portion of your portfolio. Securities.io is not a registered broker, analyst, or investment advisor.