Robotikk

AI-drevne roboter lærer menneskelige leppebevegelser

mm
Uncanny Robots that Sing and Speak Like Humans 1

Columbia-ingeniører har laget en robot som kan etterligne og lære menneskelige leppebevegelser under tale. Den oppgraderte designen kombinerer avansert robotikk med AI, og gjør det mulig for enheten – kalt Emo – å lære ved å observere menneskelige uttrykk og gjenskape menneskelige følelser når det er passende. Her er det du trenger å vite.

Sammendrag: Columbia-ingeniører har utviklet en AI-drevet humanoid robot som kan lære realistiske menneskelige leppebevegelser gjennom observasjon, og dramatisk forbedre talesynkronisering og emosjonell uttrykk.

Hvorfor humanoide roboter utløser den ubehagelige dalen

Siden de tidligste dagene innen robotikk har det vært et mål å skape humanoide roboter. Denne oppgaven er lettere sagt enn gjort, ettersom robotingeniører kontinuerlig har gjort fremskritt i den retningen, men aldri fullt ut har oppnådd målet om å lage en enhet som ser ut og føles som et ekte menneske.

Alle som har vært i nærheten av selv de mest grunnleggende humanoide robotene kan bekrefte den ubehagelige følelsen som enhetene fremkaller når de prøver å smelte inn som mennesker. De minste unøyaktigheter, som unaturlige øyebevegelser eller ansiktsuttrykk, kan skape denne følelsen hos observatører.

Den ubehagelige dalen

Den japanske robotikkforskeren Masahiro Mori oppdaget dette fenomenet på 1970-tallet. I hans nå berømte essay “Bukimi no Tani Gensho” (Ubehagelig dal) går han i detalj på konseptet. Artikkelen beskriver hvordan humanoide roboter alltid når et punkt med skarp frakobling fra sine observatører på grunn av subtile feil.

I 1978 kom begrepet inn i vestlige vitenskapelige kretser via Jasia Reichardts bok “Robots: Fact, Fiction, and Prediction,“, som oversatte begrepet til den nå populære bruken, “uncanny valley”. Dette arbeidet bygger på Moris diskusjon, og beskriver hvordan de minste forskjellene kan forårsake negative reaksjoner i observatørens forbindelse.

Menneskelige ansikter er den vanskeligste delen av ligningen

I løpet av de siste tiårene har flere milepæler blitt nådd i arbeidet med å skape humanoide roboter. Ny teknologi, som LLM-er, gjør det mulig for disse enhetene å kommunisere ved hjelp av naturlig språk, og bidrar til å bygge bro over gapet. Imidlertid er ett av de største områdene som fortsatt krever mye oppmerksomhet det menneskelige ansiktet.
Uncanny Robots that Sing and Speak Like Humans

Det menneskelige ansiktet er en kompleks blanding av vev, nerver og muskler som er i stand til å demonstrere tusenvis av forskjellige uttrykk, mange av dem hjelper til med å formidle følelser til andre. På denne måten blir ansiktet sett på som den ultimate kommunikasjonsenheten.

Robotingeniører har lenge erkjent viktigheten og vanskeligheten med å lage robotansikter som fungerer som menneskers. Gjennom år med hardt arbeid har roboter klart å oppnå menneskelignende ansikter, med hud og uttrykk. Likevel, til tross for milliarder i forskning, mangler fortsatt forbindelsen.

Sveip for å bla →

Funksjon Menneskelig ansikt Tradisjonelle humanoide roboter Columbia AI-lepsystem
Muskulær kompleksitet 30+ ansiktsmuskler med kontinuerlig bevegelse Begrensede motorer med stive begrensninger 26 motorer med myk silikonartikulering
Leppe‑lyd‑synkronisering Naturlig synkronisert under tale Forhåndsdefinerte, ofte forsinkede bevegelser Lært dynamisk via vision‑to‑action AI
Emosjonell uttrykk Subtile, kontekstbevisste mikro‑uttrykk Minimale eller overdrevede uttrykk Emosjonelt sammenhengende leppe‑ og ansiktsindikasjoner
Tilpasningsevne Lærer kontinuerlig gjennom interaksjon Statiske bevegelsesbiblioteker Selvforbedrende gjennom observasjonslæring
Ubehagelig dal‑effekt Ingen Høy observererubehag Betydelig redusert ubehagelig respons

Viktigheten av lepper i kommunikasjon

Robotikkforskere har stadig støtt på ett betydelig problem når de lager humanoide enheter – det er nesten umulig å gjenskape leppebevegelse. Lepper gjør mer enn å styre lyden av stemmen din og hjelpe deg med å uttale ord.

Lepper viser faktisk følelser på et subtilt nivå, som gjennom årtusener av evolusjon har blitt avgjørende for menneskelig kommunikasjon. Merk at leppebevegelsene dine er en av de mest fokuserte egenskapene ved ansiktet ditt under samtaler. Følgelig bruker hjernen mer tenke‑kraft på disse gestene enn på andre handlinger som å knuse pannen eller blunke.

Roboters lepper ser unaturlige ut

Til tross for at roboter har fått evnen til å se nesten menneskelige ut, mangler de fortsatt når det gjelder leppe‑ansiktsuttrykk. Tiår med forskning har vist at teknologien ikke eksisterer for å oppnå riktig leppe‑lyd‑synkronisering som kreves for å skape realistisk oppførsel. Som følge av dette ser robotene alltid ut som om samtalene deres er dubbet i stedet for å bli snakket. Denne dubbede stemmeeffekten får enhetene til å se klønete og livløse ut.

Menneskelige ansikter er avhengige av dusinvis av muskler for å skape emosjonelle responser, og robotlepper har ikke dette nivået av kompleksitet ennå. Det ville kreve en ny type design for å oppnå dette nivået av kompleksitet. I tillegg er de fleste robotleppebevegelser forhåndsdefinerte bevegelser satt til å matche bestemte vokale utsendelser i stedet for bevegelser designet for å skape ord naturlig. Siden robotene ikke faktisk produserer lyden med leppene, fremstår bevegelsene som unaturlige og ubehagelige.

Columbia-studie: Lære roboter realistisk leppebevegelse

Heldigvis kan et team av Columbia-ingeniører ha funnet ut hvordan man kan krysse den ubehagelige dalen. Studien “Learning realistic lip motions for humanoid face robots¹” introduserer en ny type robotansikt som primært fokuserer på leppebevegelse og synkronisering.

Spesialisert maskinvare

En av hovedhindre teamet måtte overvinne var stivheten i dagens robotansikter. Selv om det har vært mange nye design som gir motorstyrte reaksjoner i ansiktet, kan ingen støtte den kompleksiteten som trengs for å muliggjøre realistiske leppebevegelser.

For å overvinne denne begrensningen brukte ingeniørene spesialbygde silikonlepper designet for å gi maksimal uttrykksevne. Deretter integrerte de 26 ansiktsmotorer, en facial action transformer og en variational autoencoder (VAE).

Vision-to-Action (VLA)

Kjernen i dette teknologiske gjennombruddet er vision‑to‑action AI‑modellen. Ved å bruke denne modellen kan et robotansikt autonomt lage realistiske lepper som ikke er avhengige av forhåndsdefinerte mekaniske innstillinger for bevegelse.

For å lage modellen benyttet teamet observasjonslæringsmetoder. Denne programmeringsstilen gjør det mulig for enheten å fastslå eksakte leppedynamikker under tale i sanntid. Dermed var første steg å sette algoritmen inn i en selv‑overvåket læringspipeline.

Source - Columbia

Dette steget krevde at ingeniørene plasserte robotens ansikt foran et speil og instruerte den til å lage tusenvis av ansikter. Denne handlingen tillot algoritmen å fange dens ansiktsuttrykksevner. Deretter så roboten timer med YouTube‑innhold.

Kombinasjonen av lyd og leppebevegelse ble nøye sporet og brukt til å programmere robotens ansikts‑leppe‑AI‑algoritme. Over noen dager lærte den nøyaktig hvordan ansiktet skulle se ut basert på menneskelige uttrykk i stedet for å bruke inndata‑parametere. Ingeniørene la deretter til lyd og begynte testing.

Hvordan leppe‑synk AI ble testet på tvers av språk

Teamet testet teorien sin på tvers av 10 forskjellige språk og språklige kontekster. Testen brukte helt nye språk for modellen, og sikret at den måtte beregne riktig ansiktsuttrykk og leppebevegelser i stedet for å hente frem tidligere trente ord. Interessant nok brukte testen også kontekst og sanger.

Ubehagelige roboter – testresultater

Testresultatene viste visuelt sammenhengende leppe‑lyd‑synkronisering over hele linjen. Merkverdig leverte den algoritme‑drevne roboten realistisk leppebevegelse som nøyaktig matchet flere lydklipp. Imponerende nok synkroniserte den leppebevegelsene sine på tvers av 10 språk og sang til og med en sang fra sitt AI‑genererte debutalbum, hello world_.

Merkverdig fant teamet noen begrensninger i teknologien. For det første klarte roboten ikke å konsekvent gjenskape harde leppebevegelser knyttet til ord som «pop». Den slet også med sammentrukne ord som «whistle». Ingeniørene bemerket at disse små ufullkommenhetene vil løse seg etter hvert som algoritmen forbedres over tid. Denne selv‑lærende funksjonen er den beste siden av algoritmen. Den vil kontinuerlig forbedres etter hvert som den fanger mer data fra mennesker over tid, og åpner døren for mer meningsfulle menneske‑maskin‑interaksjoner i fremtiden.

Nøkkelfordeler med realistisk humanoid robotikk

Det er flere fordeler denne teknologien bringer til markedet. For det første vil den tillate mennesker å danne en dypere forbindelse med maskiner. De fleste er uvitende om hvor mye kommunikasjon som foregår via ansiktsuttrykk ubevisst.

Denne studien åpner døren for leppe‑synk‑teknologi og konversasjons‑AI til å skape menneskelignende opplevelser som kan bidra til å bekjempe ensomhetsepidemien og mer. Ved å bruke denne teknologien vil humanoide roboter kunne komme ett skritt nærmere å krysse den ubehagelige dalen og drive robotikk til et nytt platå.

Virkelige anvendelser og tidslinje

Det finnes mange anvendelser for denne teknologien som spenner over flere industrier. Den åpenbare bruken av denne teknologien er å bidra til å drive frem humanoid robotteknologi. Evnen til å projisere myke, varme ansikter på kalde roboter kan bidra til å øke adopsjonen. Her er noen andre anvendelser å tenke på.

Eldreomsorg

Selv om de eldre ikke anses som de mest teknologikyndige, har de begynt å omfavne robotikk på et helt nytt nivå. Markedet for assistentroboter innen eldreomsorg er i vekst, med statistikk som viser at det nådde 3,38 milliarder dollar i 2025. De samme rapportene forutsier at det vil overstige 9,85 milliarder dollar innen 2033.

De eldre ville være mer villige til å samhandle med og akseptere roboter hvis de ikke virket teknologisk kompliserte. Derfor kan en robotassistent som kan kommunisere med tale sammen med realistiske ansiktsbevegelser være den perfekte løsningen. Eldre pasienter kan finne en forbindelse sammen med svært nødvendig hjelp.

Underholdning

Underholdningsindustrien kan være blant de første som tar i bruk denne teknologien. Filmskapere er sterkt avhengige av robotikk i dagens underholdningsindustri. Fra animatronikk som brukes i temaparker som Disney til bevegelsesfangst‑roboter brukt i store filmer, har enhetene drevet underholdningsindustrien fremover.

Dagens sektor for underholdningsroboter overstiger 4,72 milliarder dollar. Denne verdien er spådd å vokse til 26,94 milliarder dollar innen 2034, drevet av økt etterspørsel etter realistiske CGI‑karakterer. I nær fremtid kan denne teknologien fylle dette nisjemarkedet, og gjøre det mulig for skuespillere å dele ansiktene sine med karakterer på nye og mer direkte måter.

Utdanning

Utdanningssektoren er et annet område hvor denne teknologien kan blomstre. Her kan enhetene settes opp som personlige veiledere. Allerede har noen rapporter vist at elever oppnådde en 30 % økning i matematikkforståelse ved bruk av robot‑tilpassede leksjoner.

Adopsjonstidslinje

Du kan forvente at denne teknologien begynner å filtrere inn i hverdagen i løpet av de neste 5–10 årene. Roboter er allerede i mange fabrikker og arbeidsplasser, og integreringen forventes kun å øke. Robotikkforskere forstår at integrering av denne typen teknologi kan gjøre enhetene deres mer relaterbare.

Viktige forskere ved Columbia

Studien ble arrangert av Columbias Creative Machines Lab. Artikkelen lister Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyuan Chen og Hod Lipson som bidragsytere.

Hva kommer neste for menneskelignende roboter

Teamet vil nå fokusere på å perfeksjonere algoritmen ytterligere. Dette steget vil innebære flere menneskelige interaksjoner og kan til og med utvikle seg til flere enheter som er i stand til å lære i sanntid og dele dataene med en sentralisert modell.

Investere i robotikkinnovasjon

Robotikkindustrien er en raskt bevegende sektor som har opplevd kraftig vekst de siste 5 årene. Introduksjonen av ny teknologi som LLM-er og 3D‑skrivere har bidratt til å drive innovasjon til nye nivåer. For en omfattende oversikt over de bredere markedsmulighetene, les vår guide om investering i fysisk AI og humanoide roboter i 2026.

Her er ett selskap som har vært i frontlinjen av denne revolusjonen.

Teradyne ($36 mrd)

Teradyne, Inc. (TER ) er morselskapet til Universal Robots (UR), markedslederen innen «cobots» (samarbeidsroboter). Selv om Teradyne ikke bygger humanoide ansikter, er de for tiden den ledende aktøren i å bringe den «watch‑and‑learn» AI‑en beskrevet i Columbia‑studien til fabrikkgulvet.

Avgjørende har Teradyne inngått et strategisk partnerskap med Nvidia (NVDA ) for å integrere «Isaac Manipulator»-plattformen. Dette gjør at Teradynes roboter kan bruke AI‑kameraer til å «se» omgivelsene sine og dynamisk justere sin rute – på samme måte som Emo‑roboten lærer å justere leppene – i stedet for å stole på stiv, forhåndsskrevet kode.

(TER )

2026‑ytelse og verdsettelse: Teradyne anses bredt som en «blue chip» robotikk‑aksje. Aksjene deres steg med nesten 50 % i 2025 og har fortsatt å stige tidlig i 2026, og handles rundt $230‑nivået.

Investoradvarsel: Selv om momentet er sterkt, bemerker analytikere at TER for tiden handles til en høy verdsettelsespremie (over 70× P/E). Aksjen er en satsning på at AI‑integrasjon vil utløse en massiv maskinvare‑oppgraderingssyklus i produksjon, men den medfører betydelig volatilitet sammenlignet med tradisjonelle industriaktier som Deere eller Caterpillar.

Siste nyheter og ytelse for Teradyne (TER)

Konklusjon

Introduksjonen av realistiske robotansikter gir full mening. LLM-er er nå i stand til å replikere menneskelig tale, og når de kombineres med realistiske ansiktsuttrykk, vil disse enhetene tilby et nytt nivå av trening, læring, helsevesen og mer. For nå vil teamet fokusere på å jevne ut ufullkommenheter og finne strategiske partnere og finansiering.

Lær om andre spennende robotikk‑gjennombrudd her.

Referanser

1. Yuhang Hu et al., Learning realistic lip motions for humanoid face robots. Science Robotics 11, eadx3017 (2026). DOI:10.1126/scirobotics.adx3017 på norsk.

David Hamilton er en fulltidsjournalist og en langvarig bitcoinist. Han spesialiserer seg på å skrive artikler om blockchain. Hans artikler har blitt publisert i flere bitcoin-publikasjoner, inkludert Bitcoinlightning.com