Robotics

AI-drevne roboter lærer menneskelig leppebevegelse

Publisert Januar 22, 2026

David Hamilton

Uhyggelige roboter som synger og snakker som mennesker 1

Columbia Engineers har laget en robot som er i stand til å etterligne og lære menneskelige leppebevegelser under tale. Den oppgraderte designen kombinerer avansert robotikk med AI, slik at enheten – kalt Emo – kan lære av å observere menneskelige uttrykk og gjenskape menneskelige følelser når det er passende. Her er hva du trenger å vite.

Sammendrag: Columbia-ingeniører har utviklet en AI-drevet humanoid robot som er i stand til å lære realistiske menneskelige leppebevegelser gjennom observasjon, noe som dramatisk forbedrer talesynkronisering og emosjonelt uttrykk.

Hvorfor humanoide roboter utløser Uncanny Valley

Helt siden robotikkens tidligste dager har det vært en søken etter å lage menneskelignende roboter. Denne oppgaven er mye lettere sagt enn gjort, ettersom robotingeniører kontinuerlig har gjort fremskritt i den retningen, men aldri fullt ut har nådd målet sitt om å lage en enhet som ser ut og føles som et ekte menneske.

Alle som har vært rundt selv de mest grunnleggende menneskelignende robotene kan bekrefte uroen som enhetene forårsaker når det gjelder deres evne til å gli inn som mennesker. De minste unøyaktigheter, som unaturlige øyebevegelser eller ansiktsuttrykk, kan skape denne følelsen hos observatører.

Uncanny Valley

Den japanske robotforskeren Masahiro Mori la merke til dette fenomenet på 1970-tallet. I sin nå berømte «Bukimi no Tani GenshoI essayet «Valley of Eeriness» går han i detalj om konseptet. Artikkelen beskriver hvordan humanoide roboter alltid når et punkt med skarp avstand fra observatørene sine på grunn av subtile feil.

I 1978 fant begrepet veien inn i vestlige vitenskapelige kretser via Jasia Reichardts bok «Roboter: Fakta, fiksjon og spådom” som oversatte begrepet til dets nå populære bruk, «uncanny valley». Dette arbeidet bygger på Moris diskusjon og beskriver hvordan de minste forskjellene kan forårsake negative reaksjoner i observatørens forbindelse.

Menneskelige ansikter er den vanskeligste delen av ligningen

I løpet av de siste tiårene har det blitt gjort flere milepæler i utviklingen av humanoide roboter. Ny teknologi, som LLM-er, gjør det mulig for disse enhetene å kommunisere ved hjelp av naturlig språk, noe som bidrar til å bygge bro over gapet. Imidlertid er et av de største områdene som fortsatt krever mye oppmerksomhet det menneskelige ansiktet.

Uhyggelige roboter som synger og snakker som mennesker

Menneskets ansikt er en kompleks blanding av vev, nerver og muskler som er i stand til å vise tusenvis av forskjellige uttrykk, hvorav mange bidrar til å kommunisere følelser til andre. På denne måten blir ansiktet sett på som det ultimate kommunikasjonsverktøyet.

Robotingeniører har lenge erkjent viktigheten og vanskeligheten med å lage robotansikter som fungerer som mennesker. Gjennom årevis med hardt arbeid har roboter klart å oppnå menneskelignende ansikter, med hud og uttrykk. Til tross for milliarder i forskning, mangler fortsatt sammenhengen.

Sveip for å bla →

Trekk	Menneskeansikt	Tradisjonelle humanoide roboter	Columbia AI leppesystem
Muskelkompleksitet	30+ ansiktsmuskler med kontinuerlig bevegelse	Begrensede motorer med rigide begrensninger	26 motorer med myk silikonledd
Lip-Audio-synkronisering	Naturlig synkronisert under tale	Forhåndsdefinerte, ofte forsinkede bevegelser	Lært dynamisk via visjon-til-handling AI
Emosjonelle uttrykk	Subtile, kontekstbevisste mikrouttrykk	Minimale eller overdrevne uttrykk	Emosjonelt sammenhengende leppe- og ansiktssignaler
Tilpasningsevne	Lærer kontinuerlig gjennom samhandling	Statiske bevegelsesbiblioteker	Selvforbedring gjennom observasjonslæring
Uncanny Valley Effect	none	Høyt ubehag ved observatør	Betydelig redusert uhyggelig respons

Leppenes betydning i kommunikasjon

Robotikere har stadig støtt på ett betydelig problem når de lager humanoide enheter – det er nesten umulig å gjenskape leppebevegelser. Leppene dine gjør mer enn å styre lyden av stemmen din og hjelpe deg med å uttale ord.

Leppene dine viser faktisk følelser på et subtilt nivå, noe som gjennom årtusener med evolusjon har blitt viktig for menneskelig kommunikasjon. Det er verdt å merke seg at leppebevegelsene dine er et av de mest fokuserte trekkene ved ansiktet ditt under samtaler. Følgelig bruker hjernen din mer tankekraft på disse gestene enn andre handlinger som å knuse pannen eller blunke.

Robotenes lepper ser unaturlige ut

Til tross for at roboter har fått evnen til å se nesten menneskelige ut, mangler de fortsatt når det gjelder ansiktsuttrykk på lepper. Tiår med forskning har vist at teknologien ikke finnes for å oppnå den riktige synkroniseringen av lepper og lyd som kreves for å skape realistisk atferd. Som sådan ser det alltid ut til at roboter får samtalene sine dubbet i stedet for å bli snakket. Denne dubbede stemmeeffekten får disse enhetene til å se klønete og livløse ut.

Menneskelige ansikter er tydeligvis avhengige av dusinvis av muskler for å skape emosjonelle reaksjoner, og robotlepper har ikke dette kompleksitetsnivået ennå. Det ville kreve en ny type design for å oppnå dette kompleksitetsnivået. I tillegg er de fleste robotleppebevegelser forhåndsdefinerte bevegelser som er satt til å matche bestemte vokale sendinger, i stedet for bevegelser som er designet for å skape ordet naturlig. Siden roboter faktisk ikke produserer lyden med leppene sine, virker bevegelsene unaturlige og uhyggelige.

Columbia-studie: Lærer roboter realistisk leppebevegelse

Heldigvis kan et team av Columbia-ingeniører ha funnet ut hvordan de skulle krysse den uhyggelige dalen. «Lære realistiske leppebevegelser for humanoide ansiktsroboter¹”-studien introduserer en ny type robotansikt som primært fokuserer på leppebevegelse og synkronisering.

Spesialisert maskinvare

En av de største hindringene teamet måtte overvinne var stivheten til dagens robotiske ansikter. Selv om det har kommet mange nye design som gir motordrevne reaksjoner i ansiktet, kan ingen støtte kompleksiteten som trengs for å muliggjøre realistiske leppebevegelser.

For å overvinne denne begrensningen brukte ingeniørene spesialbygde silikonlepper som var utformet for å gi maksimalt uttrykk. Deretter innebygde de 26 ansiktsmotorer, en ansiktsbevegelsestransformator og en variasjonsautoencoder (VAE).

Visjon til handling (VLA)

Kjernen i dette teknologiske gjennombruddet er AI-modellen «visjon-til-handling». Ved hjelp av denne modellen kan et robotansikt autonomt lage realistiske lepper som ikke er avhengige av forhåndsdefinerte mekaniske innstillinger for bevegelse.

For å lage modellen brukte teamet observasjonsbaserte læringsmetoder. Denne programmeringsstilen gjør det mulig for enheten å fastslå nøyaktig leppedynamikk under tale i sanntid. Det første trinnet var derfor å legge algoritmen inn i en selvovervåket læringsprosess.

Kilde - Columbia

Dette trinnet krevde at ingeniørene plasserte robotens ansikt foran et speil og instruerte den til å lage tusenvis av ansikter. Denne handlingen tillot algoritmen å fange opp dens ansiktsuttrykksevner. Derfra så roboten deretter på timevis med YouTube-innhold.

Kombinasjonen av lyd og leppebevegelse ble nøye sporet og brukt til å programmere robotens AI-algoritme for ansiktslepper. I løpet av noen dager lærte den nøyaktig hvordan ansiktet skulle se ut fra menneskelig uttrykk i stedet for å bruke inndataparametere. Ingeniørene la deretter til lyd og begynte å teste.

Hvordan Lip-Sync AI ble testet på tvers av språk

Teamet testet teorien sin på tvers av 10 forskjellige språk og språklige kontekster. Testen brukte helt nye språk i modellen, og sørget for at den måtte beregne riktig ansiktsuttrykk og leppebevegelser i stedet for å huske tidligere trente ord. Interessant nok brukte testen også kontekst og sanger.

Resultater av Uncanny Robots-testen

Testresultatene viste visuelt sammenhengende synkronisering av lepper og lyd på tvers av linjen. Det er verdt å merke seg at den algoritmedrevne roboten leverte realistiske leppebevegelser som nøyaktig samsvarte med flere lydklipp. Imponerende nok synkroniserte den leppebevegelsene sine på tvers av 10 språk og sang til og med en sang fra sitt AI-genererte debutalbum. hallo verden_.

Det er verdt å merke seg at teamet fant noen begrensninger i teknologien. For det første klarte ikke roboten å gjengi harde leppebevegelser assosiert med ord som «pop» konsekvent. Den slet også med rynkede ord som «whistle». Ingeniørene bemerket tydelig at disse små ufullkommenhetene vil løse seg selv etter hvert som algoritmen forbedres over tid. Denne selvlæringsfunksjonen er det beste aspektet ved algoritmen. Den vil kontinuerlig forbedres etter hvert som den samler inn mer data fra mennesker over tid, noe som åpner døren for mer meningsfulle menneske-maskin-interaksjoner i fremtiden.

Viktige fordeler med realistiske humanoide roboter

Denne teknologien bringer flere fordeler til markedet. For det første vil den tillate mennesker å danne en dypere forbindelse med maskiner. De fleste er ikke klar over hvor mye kommunikasjon som skjer ubevisst via ansiktsuttrykk.

Denne studien åpner døren for lip sync-teknologi og samtalebasert AI for å skape menneskelignende opplevelser som kan bidra til å bekjempe ensomhetsepidemien og mer. Ved hjelp av denne teknologien vil humanoide roboter kunne komme ett skritt nærmere å krysse den uhyggelige dalen og presse robotikk til et nytt platå.

Real-World-applikasjoner og tidslinje

Det finnes mange bruksområder for denne teknologien som strekker seg over flere bransjer. Den åpenbare bruken av denne teknologien er å bidra til å drive humanoid robotteknologi fremover. Evnen til å projisere myke, varme ansikter på kalde roboter kan bidra til å øke adopsjonen. Her er noen andre bruksområder å tenke på.

Eldreomsorg

Selv om de ikke regnes som de mest teknologikyndige, har eldre begynt å omfavne robotikk på et helt nytt nivå. Markedet for hjelperoboter for eldreomsorg er på vei oppover, med statistikk viser at den nådde 3.38 milliarder dollar i 2025. De samme rapportene spår at den vil overstige 9.85 milliarder dollar innen 2033.

Eldre ville være mer villige til å samhandle og akseptere roboter hvis de ikke virket teknologisk kompliserte. Derfor kan en robotassistent som kan kommunisere ved hjelp av tale sammen med realistiske ansiktsbevegelser være den perfekte løsningen. Eldre pasienter kan finne en tilknytning sammen med sårt tiltrengt hjelp.

Entertainment

Underholdningsbransjen kan være blant de første til å ta i bruk denne teknologien. Filmskapere er i stor grad avhengige av robotikk i dagens underholdningsindustri. Fra animatronikk som de som brukes i temaparker som Disney til bevegelsesfangstroboter som brukes i store filmer, har enhetene dyttet underholdningsbransjen fremover.

Dagens sektor for underholdningsroboter overstiger 4.72 milliarder dollar. Denne verdien forventes å vokse til 26.94 milliarder dollar innen 2034, drevet av sterkere etterspørsel etter realistiske CGI-figurer. I nær fremtid kan denne teknologien fylle denne nisjen, slik at skuespillere kan dele ansiktene sine med karakterer på nye og mer direkte måter.

Utdanning

Utdanningssektoren er et annet sted hvor denne teknologien kan blomstre. Her kan disse enhetene settes opp som personlige veiledere. Allerede har noen rapporter har vist at elever oppnådde en 30 % økning i matteforståelse ved bruk av robottilpassede leksjoner.

Tidslinje for adopsjon

Du kan forvente å se denne teknologien begynne å filtrere inn i hverdagen innen de neste 5–10 årene. Roboter finnes allerede i mange fabrikker og på arbeidsplasser, og integreringen forventes bare å øke. Robotikere forstår at integrering av denne typen teknologi kan bidra til å gjøre enhetene deres mer relaterbare.

Viktige forskere ved Columbia

Studien ble arrangert av Columbias Creative Machines Lab. Avisen viser Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyuan Chen og Hod Lipson som bidragsytere.

Hva skjer videre for menneskelignende roboter

Teamet vil nå fokusere på å perfeksjonere algoritmen ytterligere. Dette trinnet vil involvere mer menneskelig interaksjon og kan til og med utvikle seg til flere enheter som er i stand til å lære i sanntid og dele disse dataene med en sentralisert modell.

Investering i robotinnovasjon

Robotindustrien er en raskt utviklende sektor som har opplevd kraftig vekst de siste fem årene. Innføringen av nye teknologier som LLM-er og 3D-printere har bidratt til å drive innovasjon til nye nivåer. For en omfattende oversikt over de bredere markedsmulighetene, les vår guide om investere i fysisk AI og humanoide roboter i 2026.

Her er ett selskap som har vært i forkant av denne revolusjonen.

Teradyne ($36 milliarder)

Teradyne, Inc. (TER + 7.28%) er morselskapet til Universal Robots (UR), markedslederen innen «coboter» (samarbeidende roboter). Selv om Teradyne ikke bygger humanoide ansikter, er de for tiden den ledende aktøren i å bringe den «se-og-lær»-kunstig intelligensen som er beskrevet i Columbia-studien, til fabrikkgulvet.

Avgjørende er det at Teradyne har inngått et strategisk partnerskap med Nvidia (NVDA + 5.62%) å integrere «Isaac Manipulator»-plattformen. Dette lar Teradynes roboter bruke AI-kameraer til å «se» omgivelsene sine og dynamisk justere banen sin – omtrent som Emo-roboten lærer å justere leppene sine – i stedet for å stole på stiv, forhåndsskrevet kode.

Teradyne, Inc. (TER + 7.28%)

2026 Ytelse og verdsettelse: Teradyne regnes av mange som en «blue chip»-aksje innen robotikk. Aksjene steg med nesten 50 % i 2025 og har fortsatt å stige tidlig i 2026, og handles nær 230 dollar.

Advarsel til investorer: Selv om momentumet er sterkt, bemerker analytikere at TER for tiden handles til en høy verdsettelsespremie (over 70x P/E). Aksjen er et veddemål om at AI-integrasjon vil utløse en massiv maskinvareoppgraderingssyklus i produksjonen, men den medfører betydelig volatilitetsrisiko sammenlignet med tradisjonelle industriaksjer som Deere eller Caterpillar.

Siste nytt og resultater fra Teradyne (TER)

Konklusjon

Innføringen av realistiske robotansikter gir perfekt mening. LLM-er er nå i stand til å gjenskape menneskelig tale, og når de kombineres med realistiske ansiktsuttrykk, vil disse enhetene gi et nytt nivå av opplæring, læring, helsetjenester og mer. Foreløpig vil teamet fokusere på å utjevne ufullkommenheter og finne strategiske partnere og finansiering.

Lær om andre kule robotikk-gjennombrudd her..

Referanser

1. Yuhang Hu et al.Lære realistiske leppebevegelser for humanoide ansiktsroboter. Vitenskap ^Robotics 11, eadx3017 (2026). DOI:10.1126/scirobotics.adx3017

David Hamilton

David Hamilton er journalist på heltid og mangeårig bitcoinist. Han spesialiserer seg på å skrive artikler om blokkjeden. Artiklene hans har blitt publisert i flere bitcoin-publikasjoner, inkludert Bitcoinlightning.com

Securities.io

AI-drevne roboter lærer menneskelig leppebevegelse

Robotics

AI-drevne roboter lærer menneskelig leppebevegelse

Innholdsfortegnelse