Robotik

AI-drivna robotar lär sig mänskliga läpprörelser

mm
Uncanny Robots that Sing and Speak Like Humans 1

Columbia-ingenjörer har skapat en robot som kan efterlikna och lära sig mänskliga läpprörelser under tal. Den uppgraderade designen kombinerar avancerad robotik med AI, vilket gör att enheten – kallad Emo – kan lära sig genom att observera mänskliga uttryck och återge mänskliga känslor när det är lämpligt. Här är vad du behöver veta.

Sammanfattning: Columbia-ingenjörer har utvecklat en AI-driven humanoidrobot som kan lära sig realistiska mänskliga läpprörelser genom observation, vilket dramatiskt förbättrar tal‑synkronisering och känslouttryck.

Varför humanoida robotar triggar den kusliga dalen

Sedan robotikens tidigaste dagar har det funnits en strävan att skapa humanoida robotar. Detta uppdrag är mycket lättare att säga än att utföra, eftersom robotingenjörer kontinuerligt har gjort framsteg i den riktningen, men de har aldrig helt uppnått sitt mål att skapa en enhet som ser ut och känns som en riktig människa.
Alla som har varit i närheten av även de mest grundläggande humanoida robotarna kan intyga den obehaglighet som enheterna framkallar när det gäller deras förmåga att smälta in som människor. De minsta felaktigheterna, såsom onaturliga ögonrörelser eller ansiktsuttryck, kan skapa denna känsla hos observatörer.

Den kusliga dalen

Den japanske robotikern Masahiro Mori observerade detta fenomen på 1970-talet. I sin nu berömda essä “Bukimi no Tani Gensho” (Kusliga dalen) går han in på detaljer om konceptet. Artikeln beskriver hur humanoida robotar alltid når en punkt av skarp frikoppling med sina observatörer på grund av subtila brister.
1978 kom termen in i västerländska vetenskapliga kretsar via Jasia Reichardts bok “Robots: Fact, Fiction, and Prediction”, som översatte termen till dess nu populära användning, “uncanny valley”. Detta verk bygger på Moris diskussion och beskriver hur de minsta skillnaderna kan framkalla negativa reaktioner i observatörens koppling.

Mänskliga ansikten är den svåraste delen av ekvationen

Under de senaste decennierna har flera milstolpar uppnåtts i skapandet av humanoida robotar. Ny teknik, som LLM:er, gör det möjligt för dessa enheter att kommunicera med naturligt språk, vilket hjälper till att överbrygga klyftan. En av de största områdena som fortfarande kräver mycket uppmärksamhet är det mänskliga ansiktet.
Uncanny Robots that Sing and Speak Like Humans

Det mänskliga ansiktet är en komplex blandning av vävnad, nerver och muskler som kan visa tusentals olika uttryck, varav många hjälper till att kommunicera känslor till andra. På så sätt ses ansiktet som den ultimata kommunikationsenheten.

Robotingenjörer har länge erkänt vikten och svårigheten i att skapa robotansikten som fungerar som mänskliga. Genom år av hårt arbete har robotar lyckats få mänskligt utseende ansikten, med hud och uttryck. Trots miljarder i forskning saknas fortfarande kopplingen.

Svep för att scrolla →

Funktion Mänskligt ansikte Traditionella humanoida robotar Columbia AI‑läppsystem
Muskelf komplexitet 30+ ansiktsmuskler med kontinuerlig rörelse Begränsade motorer med stela begränsningar 26 motorer med mjuk silikonartikulering
Läpp‑audio‑synkronisering Naturligt synkroniserad under tal Fördefinierade, ofta fördröjda rörelser Lärs dynamiskt via vision‑to‑action‑AI
Emotionellt uttryck Subtila, kontextmedvetna mikro‑uttryck Minimal eller överdrivna uttryck Emotionellt sammanhängande läpp‑ och ansiktsindikationer
Anpassningsförmåga Lär sig kontinuerligt genom interaktion Statiska rörelsbibliotek Självförbättrande genom observationsinlärning
Kuslig dal‑effekt Ingen Hög observatörsobehag Betydligt minskad kuslig respons

Läpparnas betydelse i kommunikation

Robotikernas har ständigt stött på ett betydande problem när de skapar humanoida enheter – det är nästan omöjligt att återge läpprörelser. Dina läppar gör mer än att styra ljudet av din röst och hjälpa dig att uttala ord.
Dina läppar visar faktiskt känslor på en subtil nivå, vilket genom årtusenden av evolution har blivit avgörande för mänsklig kommunikation. Speciellt är dina läpprörelser en av de mest fokuserade egenskaperna i ditt ansikte under samtal. Följaktligen ägnar din hjärna mer tankeenergi åt dessa gester än andra handlingar som att rynka pannan eller blinka.

Robotars läppar ser onaturliga ut

Trots att robotar har fått förmågan att se nästan mänskliga ut, saknar de fortfarande läppansiktsuttryck. Decennier av forskning har visat att tekniken för att uppnå korrekt läpp‑audio‑synkronisering för realistiskt beteende ännu inte finns. Därför verkar robotar alltid ha sina konversationer dubbade snarare än talade. Denna dubbade rösteffekt får enheterna att se klumpiga och livlösa ut.
Mänskliga ansikten förlitar sig på dussintals muskler för att skapa känslomässiga svar, och robotläppar har ännu inte den nivån av komplexitet. Det skulle kräva en ny typ av design för att uppnå denna komplexitet. Dessutom är de flesta robotläpps rörelser fördefinierade och anpassade för att matcha vissa vokala sändningar snarare än rörelser som skapar ord naturligt. Eftersom robotar inte faktiskt producerar ljudet med sina läppar, upplevs rörelserna som onaturliga och kusliga.

Columbia‑studien: Lära robotar realistiska läpprörelser

Tack och lov kan ett team av Columbia‑ingenjörer ha kommit på hur man korsar den kusliga dalen. Studien “Learning realistic lip motions for humanoid face robots¹” introducerar en ny typ av robotansikte som främst fokuserar på läpprörelse och synkronisering.

Specialiserad hårdvara

Ett av de största hindren teamet var tvungen att övervinna var stelheten i dagens robotansikten. Även om det har funnits många nya designer som ger motorstyrda reaktioner i ansiktet, kan ingen stödja den komplexitet som krävs för att möjliggöra realistiska läpprörelser.
För att övervinna denna begränsning använde ingenjörerna specialbyggda silikonläppar designade för maximal uttrycksförmåga. Därefter integrerade de 26 ansiktsmotorer, en facial action transformer och en variational autoencoder (VAE).

Vision‑to‑Action (VLA)

I kärnan av detta tekniska genombrott finns vision‑to‑action‑AI‑modellen. Med hjälp av denna modell kan ett robotansikte autonomt skapa realistiska läppar som inte är beroende av fördefinierade mekaniska inställningar för rörelse.

För att skapa modellen använde teamet observationsinlärningsmetoder. Denna programmeringsstil gör det möjligt för enheten att fastställa exakta läppdynamiker under tal i realtid. Således var första steget att föra in algoritmen i en självövervakad inlärningspipeline.

Source - Columbia

Detta steg krävde att ingenjörerna placerade robotens ansikte framför en spegel och instruerade den att skapa tusentals ansikten. Denna handling gjorde det möjligt för algoritmen att fånga dess ansiktsuttrycks‑kapacitet. Därefter tittade roboten på timmar av YouTube‑innehåll.

Kombinationen av ljud och läppmotion spårades noggrant och användes för att programmera robotens ansikts‑läpp‑AI‑algoritm. Under några dagar lärde den sig exakt hur dess ansikte bör se ut utifrån mänskligt uttryck snarare än att använda inmatningsparametrar. Ingenjörerna lade sedan till ljud och påbörjade testning.

Hur läppsynk‑AI testades över språk

Teamet testade sin teori över 10 olika språk och språkliga kontexter. Testet använde helt nya språk för modellen, vilket säkerställde att den måste beräkna rätt ansiktsuttryck och läpprörelser istället för att återkalla tidigare tränade ord. Intressant nog använde testet även kontext och sånger.

Resultat från kusliga robotar

Testresultaten visade visuellt sammanhängande läpp‑audio‑synkronisering över hela linjen. Speciellt levererade den algoritmdrivna roboten realistiska läpprörelser som exakt matchade flera ljudklipp. Imponerande nog synkroniserade den sina läpprörelser över 10 språk och sjöng till och med en sång från sitt AI‑genererade debutalbum, hello world_.
Teamet fann dock vissa begränsningar i tekniken. Till exempel kunde roboten inte konsekvent reproducera hårda läpprörelser som är förknippade med ord som “pop”. Den hade också svårigheter med pucklade ord som “whistle”. Ingenjörerna noterade att dessa små imperfektioner kommer att rättas till när algoritmen förbättras över tid. Denna själv‑inlärande funktion är den bästa aspekten av algoritmen. Den kommer kontinuerligt att förbättras när den samlar in mer data från människor över tid, vilket öppnar dörren för mer meningsfulla människa‑maskin‑interaktioner i framtiden.

Viktiga fördelar med realistisk humanoidrobotik

Det finns flera fördelar som denna teknik ger till marknaden. För det första kommer den att möjliggöra för människor att skapa en djupare koppling till maskiner. De flesta är omedvetna om hur mycket kommunikation som sker via ansiktsuttryck på ett undermedvetet plan.
Denna studie öppnar dörren för läppsynk‑teknik och konversations‑AI att skapa mänskliga upplevelser som kan hjälpa till att bekämpa ensamhetsepidemin och mer. Med hjälp av denna teknik kommer humanoida robotar att kunna komma ett steg närmare att korsa den kusliga dalen och driva robotiken till en ny nivå.

Verkliga tillämpningar och tidslinje

Det finns många tillämpningar för denna teknik som sträcker sig över flera industrier. Den uppenbara användningen av tekniken är att driva humanoid robotik framåt. Förmågan att projicera mjuka, varma ansikten på kalla robotar kan hjälpa till att öka antagandet. Här är några andra tillämpningar att överväga.

Äldreomsorg

Även om de äldre inte anses vara de mest teknikintresserade, har de börjat omfamna robotik på en helt ny nivå. Marknaden för assistansrobotar inom äldreomsorg växer, med statistik som visar att den nådde 3,38  miljarder dollar 2025. Samma rapporter förutspår att den kommer att överstiga 9,85  miljarder dollar år 2033.
De äldre skulle vara mer benägna att interagera med och acceptera robotar om de inte verkade tekniskt komplicerade. Därför kan en robotassistent som kan kommunicera med tal och realistiska ansiktsrörelser vara den perfekta lösningen. Äldre patienter kan finna en koppling tillsammans med det mycket behövda stödet.

Underhållning

Underhållningsindustrin kan vara bland de första att anta denna teknik. Filmare förlitar sig starkt på robotik i dagens underhållningsindustri. Från animatronik som används på nöjesparker som Disney till rörelsemätningsrobotar i stora filmer, har enheterna drivit underhållningsindustrin framåt.
Dagens sektor för underhållningsrobotar överstiger 4,72  miljarder dollar. Detta värde förväntas växa till 26,94  miljarder dollar år 2034, drivet av en starkare efterfrågan på realistiska CGI‑karaktärer. På kort sikt kan denna teknik fylla den nischen och möjliggöra för skådespelare att dela sina ansikten med karaktärer på nya och mer direkta sätt.

Utbildning

Utbildningssektorn är ett annat område där denna teknik kan blomstra. Här kan dessa enheter användas som personliga handledare. Redan har vissa rapporter visat att elever uppnådde en 30 % ökning i matematisk förståelse med robotanpassade lektioner.

Antagandetidslinje

Du kan förvänta dig att se denna teknik börja filtrera in i vardagen inom de kommande 5–10 åren. Robotar finns redan i många fabriker och arbetsplatser, och integrationen förväntas bara öka. Robotikexperter förstår att integrering av denna typ av teknik kan göra deras enheter mer relaterbara.

Viktiga forskare vid Columbia

Studien hölls av Columbias Creative Machines Lab. Artikeln listar Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyuan Chen och Hod Lipson som medförfattare.

Vad som kommer härnäst för människoliknande robotar

Teamet kommer nu att fokusera på att ytterligare förfina algoritmen. Detta steg kommer att innebära fler mänskliga interaktioner och kan till och med utvecklas till flera enheter som kan lära sig i realtid och dela den datan med en centraliserad modell.

Investera i robotikinnovation

Robotikindustrin är en snabbväxande sektor som har upplevt kraftig tillväxt under de senaste fem åren. Introduktionen av ny teknik som LLM:er och 3D‑skrivare har bidragit till att driva innovation till nya nivåer. För en omfattande översikt över bredare marknadsmöjligheter, läs vår guide om investera i Physical AI och humanoida robotar 2026.

Teradyne ($36B)

Teradyne, Inc. (TER ) är moderbolaget till Universal Robots (UR), marknadsledaren inom “cobots” (samarbetsrobotar). Även om Teradyne inte bygger humanoida ansikten, är de för närvarande den ledande aktören i att föra in den “watch‑and‑learn”‑AI som beskrivs i Columbia‑studien till fabriksgolvet.
Viktigt är att Teradyne har bildat ett strategiskt partnerskap med Nvidia (NVDA ) för att integrera plattformen “Isaac Manipulator”. Detta gör att Teradynes robotar kan använda AI‑kameror för att “se” sin omgivning och dynamiskt justera sin bana – precis som Emo‑roboten lär sig justera sina läppar – snarare än att förlita sig på stela, förskrivna kod.

(TER )

2026‑prestation & värdering: Teradyne anses allmänt vara en “blue chip”-aktie inom robotik. Dess aktier steg nästan 50 % år 2025 och har fortsatt att stiga i början av 2026, handlas nära $230‑nivån.

Investerarvarning: Trots den starka trenden påpekar analytiker att TER för närvarande handlas till en hög värderingspremie (över 70‑faldig P/E). Aktien är ett vad om att AI‑integration kommer att utlösa en massiv hårdvaruuppgraderingscykel i tillverkning, men den medför betydande volatilitet jämfört med traditionella industribörser som Deere eller Caterpillar.

Senaste nyheter och prestation för Teradyne (TER)

Slutsats

Introduktionen av realistiska robotansikten är helt logisk. LLM:er kan nu replikera mänskligt tal, och när de kombineras med realistiska ansiktsuttryck kommer dessa enheter att erbjuda en ny nivå av träning, lärande, sjukvård och mer. För närvarande kommer teamet att fokusera på att slipa ut imperfektioner och hitta strategiska partners och finansiering.
Lär dig mer om andra spännande robotikgenombrott här.

Referenser

1. Yuhang Hu et al., Learning realistic lip motions for humanoid face robots. Science Robotics 11, eadx3017 (2026). DOI: 10.1126/scirobotics.adx3017 på svenska.

David Hamilton är en heltidsjournalist och en långvarig bitcoinist. Han specialiserar sig på att skriva artiklar om blockchain. Hans artiklar har publicerats i flera bitcoinpublikationer, inklusive Bitcoinlightning.com