Robotik
Künstliche Intelligenz-basierte Roboter lernen menschliche Lippenbewegungen

Ingenieure der Columbia-Universität haben einen Roboter entwickelt, der in der Lage ist, menschliche Lippenbewegungen während des Sprechens nachzuahmen und zu lernen. Das überarbeitete Design kombiniert fortschrittliche Robotik mit künstlicher Intelligenz, wodurch das Gerät – genannt Emo – in der Lage ist, von menschlichen Ausdrücken zu lernen und menschliche Emotionen zu imitieren, wenn dies angebracht ist. Hier sind die wichtigsten Punkte, die Sie wissen sollten.
Warum humanoider Roboter das unheimliche Tal auslösen
Seit den frühesten Tagen der Robotik gibt es den Wunsch, humanoide Roboter zu schaffen. Diese Aufgabe ist jedoch viel einfacher gesagt als getan, da Roboter-Ingenieure ständig in diese Richtung voranschreiten, aber noch nie ihr Ziel erreicht haben, ein Gerät zu schaffen, das wie ein echter Mensch aussieht und sich verhält.
Jeder, der auch nur die grundlegendsten humanoiden Roboter gesehen hat, kann bestätigen, dass diese Geräte ein Gefühl der Unbehaglichkeit verursachen, wenn es um ihre Fähigkeit geht, sich als Menschen auszugeben. Selbst die geringsten Ungenauigkeiten, wie unnatürliche Augenbewegungen oder Gesichtsausdrücke, können dieses Gefühl bei den Beobachtern hervorrufen.
Das unheimliche Tal
Der japanische Roboter-Ingenieur Masahiro Mori bemerkte dieses Phänomen in den 1970er Jahren. In seinem berühmten Essay “Bukimi no Tani Gensho” (Tal der Unheimlichkeit) geht er auf dieses Konzept ein. Der Artikel beschreibt, wie humanoide Roboter immer einen Punkt des scharfen Bruchs mit ihren Beobachtern aufgrund subtiler Fehler erreichen.
Im Jahr 1978 fand der Begriff seinen Weg in westliche wissenschaftliche Kreise durch Jasia Reichardts Buch “Robots: Fact, Fiction, and Prediction“, das den Begriff in seine jetzt populäre Verwendung übersetzte, “unheimliches Tal”. Diese Arbeit baut auf Moris Diskussion auf und beschreibt, wie die kleinsten Unterschiede zu negativen Reaktionen bei der Verbindung des Beobachters führen können.
Menschliche Gesichter sind der schwierigste Teil der Gleichung
In den letzten Jahrzehnten wurden mehrere Meilensteine auf dem Weg zur Schaffung humanoider Roboter erreicht. Neue Technologien wie LLMs machen es möglich, dass diese Geräte mit natürlicher Sprache kommunizieren, was dazu beiträgt, die Lücke zu schließen. Es gibt jedoch noch einen Bereich, der viel Aufmerksamkeit erfordert: das menschliche Gesicht.

Das menschliche Gesicht ist eine komplexe Mischung aus Gewebe, Nerven und Muskeln, die in der Lage ist, Tausende von verschiedenen Ausdrücken zu zeigen, von denen viele dazu beitragen, Gefühle zu anderen zu vermitteln. Auf diese Weise wird das Gesicht als das ultimative Kommunikationsgerät angesehen.
Roboter-Ingenieure haben lange erkannt, wie wichtig und schwierig es ist, robotische Gesichter zu schaffen, die wie Menschen funktionieren. Durch jahrelange harte Arbeit haben Roboter es geschafft, menschliche Gesichter mit Haut und Ausdrücken zu erhalten. Trotzdem fehlt es an der Verbindung, trotz Milliarden in Forschung.
Swipe to scroll →
| Funktion | Menschliches Gesicht | Traditionelle humanoide Roboter | Columbia-KI-Lippen-System |
|---|---|---|---|
| Muskelkomplexität | 30+ Gesichtsmuskeln mit kontinuierlicher Bewegung | Begrenzte Motoren mit starren Einschränkungen | 26 Motoren mit weicher Silikon-Artikulation |
| Lippen-Audio-Synchronisation | Natürlich synchronisiert während des Sprechens | Vordefinierte, oft verzögerte Bewegungen | Dynamisch gelernt durch Vision-to-Action-KI |
| Emotionaler Ausdruck | Feine, kontextabhängige Mikro-Ausdrücke | Minimale oder übertriebene Ausdrücke | Emotionell kohärente Lippen- und Gesichtsausdrücke |
| Anpassungsfähigkeit | Kontinuierliches Lernen durch Interaktion | Statische Bewegungsbibliotheken | Selbstverbesserung durch beobachtendes Lernen |
| Unheimliches Tal-Effekt | Keiner | Hoher Unbehaglichkeitsgrad bei den Beobachtern | Erheblich reduzierte unheimliche Reaktion |
Die Bedeutung von Lippen in der Kommunikation
Roboter-Ingenieure sind ständig auf ein signifikantes Problem bei der Schaffung humanoider Geräte gestoßen – es ist fast unmöglich, Lippenbewegungen nachzubilden. Ihre Lippen tun mehr, als nur die Richtung Ihrer Stimme zu bestimmen und Ihnen zu helfen, Wörter auszusprechen.
Ihre Lippen zeigen auch Emotionen auf einer subtilen Ebene, die im Laufe der Evolution zu einem wichtigen Bestandteil der menschlichen Kommunikation geworden ist. Bemerkenswerterweise sind Ihre Lippenbewegungen eine der am meisten fokussierten Merkmale Ihres Gesichts während Konversationen. Folglich widmet Ihr Gehirn mehr Denkvermögen diesen Gesten als anderen Aktionen wie dem Runzeln der Stirn oder dem Zwinkern.
Roboter-Lippen sehen unnatürlich aus
Trotzdem Roboter fast menschlich aussehen, fehlt es ihnen immer noch an Lippen-Gesichtsausdrücken. Jahrzehnte der Forschung haben bewiesen, dass die Technologie nicht existiert, um die notwendige Lippen-Audio-Synchronisation zu erreichen, um realistisches Verhalten zu erzeugen. Als Ergebnis erscheinen Roboter immer, als ob ihre Konversationen synchronisiert wären, anstatt gesprochen zu werden. Dieser Effekt der synchronisierten Stimme lässt diese Geräte steif und leblos erscheinen.
Sorgfältig berücksichtigen menschliche Gesichter Dutzende von Muskeln, um emotionale Reaktionen zu erzeugen, und robotische Lippen haben noch nicht dieses Maß an Komplexität erreicht. Es würde ein neues Design erfordern, um dieses Maß an Komplexität zu erreichen. Darüber hinaus sind die meisten robotischen Lippenbewegungen vordefinierte Bewegungen, die auf bestimmte Sprachübertragungen abgestimmt sind, anstatt Bewegungen, die darauf abzielen, das Wort natürlich zu erzeugen. Da Roboter tatsächlich keinen Sound mit ihren Lippen erzeugen, kommen die Bewegungen unnatürlich und unheimlich rüber.
Columbia-Studie: Lehren von Robotern realistische Lippenbewegungen
Glücklicherweise hat ein Team von Columbia-Ingenieuren vielleicht herausgefunden, wie man das unheimliche Tal überwinden kann. Die Studie “Lernen realistischer Lippenbewegungen für humanoide Gesichtsroboter” stellt ein neues Typ von robotischem Gesicht vor, das sich hauptsächlich auf Lippenbewegungen und Synchronisation konzentriert.
Spezielle Hardware
Eines der größten Hindernisse, die das Team überwinden musste, war die Steifigkeit der heutigen robotischen Gesichter. Während es viele neue Designs gibt, die motorisierte Reaktionen im Gesicht ermöglichen, kann keines die notwendige Komplexität unterstützen, um realistische Lippenbewegungen zu ermöglichen.
Um diese Einschränkung zu überwinden, verwendeten die Ingenieure speziell entwickelte Silikon-Lippen, die maximale Ausdruckskraft bieten. Dann integrierten sie 26 Gesichtsmotoren, einen Gesichts-Aktions-Transformer und einen variationalen Autoencoder (VAE).
Vision-to-Action (VLA)
Im Kern dieser technologischen Durchbruchs steht das Vision-to-Action-KI-Modell. Mit diesem Modell kann ein robotisches Gesicht realistische Lippen autonom erzeugen, die nicht auf vordefinierten mechanischen Einstellungen für die Bewegung angewiesen sind.
Um das Modell zu erstellen, nutzten die Forscher beobachtende Lernmethoden. Diese Art der Programmierung ermöglicht es dem Gerät, exakte Lippen-Dynamik während des Sprechens in Echtzeit zu ermitteln. Als ersten Schritt mussten die Ingenieure das Algorithmus in eine selbstüberwachte Lern-Pipeline einfügen.

Dieser Schritt erforderte, dass die Ingenieure das Gesicht des Roboters vor einen Spiegel stellten und es anwiesen, Tausende von Gesichtern zu erstellen. Diese Aktion ermöglichte es dem Algorithmus, seine Gesichtsausdrucksfähigkeiten zu erfassen. Von dort aus beobachtete der Roboter dann Stunden von YouTube-Inhalten.
Die Kombination aus Audio und Lippen-Bewegung wurde sorgfältig verfolgt und verwendet, um den Lippen-KI-Algorithmus des Roboters zu programmieren. Innerhalb weniger Tage lernte es genau, wie sein Gesicht aussehen sollte, basierend auf menschlichen Ausdrücken, anstatt auf Eingabeparametern. Die Ingenieure fügten dann Audio hinzu und begannen mit dem Testen.
Wie die Lippen-Synchron-KI in verschiedenen Sprachen getestet wurde
Das Team testete seine Theorie in 10 verschiedenen Sprachen und sprachlichen Kontexten. Der Test verwendete vollständig neue Sprachen für das Modell, um sicherzustellen, dass es die richtigen Gesichtsausdrücke und Lippen-Bewegungen berechnen musste, anstatt bereits trainierte Wörter abzurufen. Interessanterweise verwendete der Test auch Kontext und Lieder.
Ergebnisse des unheimlichen Roboters
Die Testergebnisse zeigten visuell kohärente Lippen-Audio-Synchronisation überall. Bemerkenswerterweise lieferte der algorithmus-gesteuerte Roboter realistische Lippen-Bewegungen, die genau mit mehreren Audio-Clips übereinstimmten. Eindrucksvoll synchronisierte es seine Lippen-Bewegungen in 10 Sprachen und sang sogar ein Lied von seinem von der KI generierten Debüt-Album, hello world.
Bemerkenswerterweise fand das Team einige Einschränkungen der Technologie. Einerseits war der Roboter nicht in der Lage, konstant harte Lippen-Bewegungen zu reproduzieren, die mit Wörtern wie “Pop” verbunden sind. Es hatte auch Schwierigkeiten mit gepressten Wörtern wie “Pfeifen”. Sorgfältig bemerkten die Ingenieure, dass diese kleinen Unvollkommenheiten sich mit der Zeit verbessern werden, wenn der Algorithmus verbessert wird. Diese Selbstlern-Funktion ist das beste Merkmal des Algorithmus. Es wird kontinuierlich verbessert, wenn es mehr Daten von Menschen über die Zeit sammelt, und öffnet die Tür für bedeutungsvollere Mensch-Maschine-Interaktionen in der Zukunft.
Schlüsselvorteile realistischer humanoider Robotik
Es gibt mehrere Vorteile, die diese Technologie mit sich bringt. Einerseits ermöglicht sie es Menschen, eine tiefere Verbindung mit Maschinen aufzubauen. Die meisten Menschen sind sich nicht bewusst, wie viel Kommunikation auf unterbewusster Ebene durch Gesichtsausdrücke erfolgt.
Diese Studie öffnet die Tür für Lippen-Synchron-Technologie und konversationale KI, um menschliche Erfahrungen zu schaffen, die dazu beitragen könnten, die Einsamkeits-Epidemie zu bekämpfen und mehr. Mit dieser Technologie können humanoide Roboter einen Schritt näher an das unheimliche Tal herankommen und die Robotik auf ein neues Level heben.
Echtzeit-Anwendungen und Zeitplan
Es gibt viele Anwendungen für diese Technologie, die sich über mehrere Branchen erstrecken. Die offensichtliche Verwendung dieser Technologie ist es, die humanoide Roboter-Technologie voranzutreiben. Die Fähigkeit, weiche, warme Gesichter auf kalte Roboter zu projizieren, könnte dazu beitragen, die Akzeptanz zu fördern. Hier sind einige andere Anwendungen, über die nachgedacht werden kann.
Altenpflege
Während ältere Menschen nicht als die technisch versiertesten Menschen gelten, haben sie begonnen, die Robotik auf einer völlig neuen Ebene zu akzeptieren. Der Markt für assistierende Roboter in der Altenpflege ist im Aufschwung, mit Statistiken, die zeigen, dass er 2025 3,38 Milliarden Dollar erreicht hat. Die gleichen Berichte prognostizieren, dass er bis 2033 9,85 Milliarden Dollar überschreiten wird.
Ältere Menschen würden eher mit Robotern interagieren und sie akzeptieren, wenn sie nicht so technisch kompliziert erschienen. Als solche könnte ein roboterischer Assistent, der mithilfe realistischer Gesichtsbewegungen sprechen könnte, die perfekte Lösung sein. Ältere Patienten könnten eine Verbindung finden und gleichzeitig die notwendige Unterstützung erhalten.
Unterhaltung
Die Unterhaltungsindustrie könnte eine der ersten Branchen sein, die diese Technologie anwendet. Filmemacher verlassen sich stark auf Robotik in der heutigen Unterhaltungsindustrie. Von Animatronics wie denen, die in Themenparks wie Disney verwendet werden, bis hin zu Motion-Capture-Robotern, die in großen Filmen verwendet werden, haben diese Geräte die Unterhaltungsindustrie vorangetrieben.
Heute überschreitet der Wert der Unterhaltungsroboter 4,72 Milliarden Dollar. Dieser Wert wird voraussichtlich auf 26,94 Milliarden Dollar ansteigen, getrieben von einer stärkeren Nachfrage nach realistischen CGI-Charakteren. In naher Zukunft könnte diese Technologie diese Nische füllen und es Schauspielern ermöglichen, ihre Gesichter mit Charakteren in neuen und direkteren Wegen zu teilen.
Bildung
Der Bildungssektor ist ein weiterer Bereich, in dem diese Technologie gedeihen könnte. Hier könnten diese Geräte als personalisierte Tutoren eingesetzt werden. Bereits jetzt haben einige Berichte gezeigt, dass Schüler mit roboter-basierten Lektionen eine 30-prozentige Steigerung der mathematischen Verständnis erzielten.
Adoptions-Zeitplan
Sie können erwarten, dass diese Technologie in den nächsten 5-10 Jahren in das alltägliche Leben einzieht. Roboter sind bereits in vielen Fabriken und Arbeitsplätzen vorhanden, und die Integration wird voraussichtlich zunehmen. Roboter-Ingenieure verstehen, dass die Integration dieser Technologie dazu beitragen kann, ihre Geräte relatabler zu machen.
Schlüsselforscher an der Columbia
Die Studie wurde von dem Creative Machines Lab der Columbia-Universität durchgeführt. Der Artikel listet Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyuan Chen und Hod Lipson als Mitwirkende auf.
Was kommt als Nächstes für menschenähnliche Roboter
Das Team wird sich nun darauf konzentrieren, den Algorithmus weiter zu verfeinern. Dieser Schritt wird mehr menschliche Interaktionen beinhalten und könnte sogar zur Entwicklung mehrerer Einheiten führen, die in der Lage sind, in Echtzeit zu lernen und ihre Daten mit einem zentralen Modell zu teilen.
Investitionen in Roboter-Innovationen
Die Roboterindustrie ist ein sich schnell entwickelnder Sektor, der in den letzten 5 Jahren stark gewachsen ist. Die Einführung neuer Technologien wie LLMs und 3D-Druckern hat dazu beigetragen, die Innovation auf ein neues Level zu heben. Für einen umfassenden Überblick über die breiteren Marktmöglichkeiten lesen Sie unsere Anleitung zum Investieren in Physical AI und humanoide Roboter im Jahr 2026.
Hier ist ein Unternehmen, das an der Spitze dieser Revolution steht.
Teradyne (36 Milliarden Dollar)
Teradyne, Inc. (TER ) ist die Muttergesellschaft von Universal Robots (UR), dem Marktführer bei “Cobots” (kollaborativen Robotern). Obwohl Teradyne keine humanoiden Gesichter baut, ist es derzeit der führende Spieler bei der Einführung der “watch-and-learn”-KI, die in der Columbia-Studie beschrieben wird, auf den Fabrikboden.
Wichtig ist, dass Teradyne eine strategische Partnerschaft mit Nvidia (NVDA ) eingegangen ist, um die “Isaac Manipulator”-Plattform zu integrieren. Dies ermöglicht es Teradynes Robotern, KI-Kameras zu verwenden, um ihre Umgebung “zu sehen” und dynamisch ihren Pfad anzupassen – ähnlich wie der Emo-Roboter lernt, seine Lippen anzupassen – anstatt auf starre, vordefinierte Code zu verlassen.
(TER )
Leistung und Bewertung 2026: Teradyne gilt allgemein als “Blue-Chip”-Roboter-Aktie. Die Aktien sind 2025 um fast 50% gestiegen und setzen ihre Rallye im ersten Quartal 2026 fort, mit Kursen nahe der 230-Dollar-Marke.
Neueste Nachrichten und Leistung von Teradyne (TER)
Schlussfolgerung
Die Einführung realistischer robotischer Gesichter macht vollkommen Sinn. LLMs sind jetzt in der Lage, menschliche Sprache nachzuahmen, und wenn sie mit realistischen Gesichtsausdrücken kombiniert werden, werden diese Geräte ein neues Level an Schulung, Lernen, Gesundheitsversorgung und mehr bieten. Für den Moment wird das Team sich darauf konzentrieren, die Unvollkommenheiten zu glätten und strategische Partner und Finanzierungen zu finden.
Erfahren Sie mehr über andere coole Robotik-Durchbrüche hier.
Quellen
1. Yuhang Hu et al., Lernen realistischer Lippenbewegungen für humanoide Gesichtsroboter. Science Robotics 11, eadx3017 (2026). DOI:10.1126/scirobotics.adx3017












