Connect with us

Robotik

Künstliche Intelligenz-basierte Roboter lernen menschliche Lippenbewegungen

mm
Uncanny Robots that Sing and Speak Like Humans 1

Ingenieure der Columbia-Universität haben einen Roboter entwickelt, der in der Lage ist, menschliche Lippenbewegungen während des Sprechens nachzuahmen und zu lernen. Das überarbeitete Design kombiniert fortschrittliche Robotik mit künstlicher Intelligenz, wodurch das Gerät – genannt Emo – in der Lage ist, von menschlichen Ausdrücken zu lernen und menschliche Emotionen zu imitieren, wenn dies angebracht ist. Hier sind die wichtigsten Punkte, die Sie wissen sollten.

Zusammenfassung: Ingenieure der Columbia-Universität haben einen künstlich intelligente humanoiden Roboter entwickelt, der in der Lage ist, realistische menschliche Lippenbewegungen durch Beobachtung zu lernen, was die Synchronisation von Sprache und emotionalem Ausdruck erheblich verbessert.

Warum humanoider Roboter das unheimliche Tal auslösen

Seit den frühesten Tagen der Robotik gibt es den Wunsch, humanoide Roboter zu schaffen. Diese Aufgabe ist jedoch viel einfacher gesagt als getan, da Roboter-Ingenieure ständig in diese Richtung voranschreiten, aber noch nie ihr Ziel erreicht haben, ein Gerät zu schaffen, das wie ein echter Mensch aussieht und sich verhält.
Jeder, der auch nur die grundlegendsten humanoiden Roboter gesehen hat, kann bestätigen, dass diese Geräte ein Gefühl der Unbehaglichkeit verursachen, wenn es um ihre Fähigkeit geht, sich als Menschen auszugeben. Selbst die geringsten Ungenauigkeiten, wie unnatürliche Augenbewegungen oder Gesichtsausdrücke, können dieses Gefühl bei den Beobachtern hervorrufen.

Das unheimliche Tal

Der japanische Roboter-Ingenieur Masahiro Mori bemerkte dieses Phänomen in den 1970er Jahren. In seinem berühmten Essay “Bukimi no Tani Gensho” (Tal der Unheimlichkeit) geht er auf dieses Konzept ein. Der Artikel beschreibt, wie humanoide Roboter immer einen Punkt des scharfen Bruchs mit ihren Beobachtern aufgrund subtiler Fehler erreichen.
Im Jahr 1978 fand der Begriff seinen Weg in westliche wissenschaftliche Kreise durch Jasia Reichardts Buch “Robots: Fact, Fiction, and Prediction“, das den Begriff in seine jetzt populäre Verwendung übersetzte, “unheimliches Tal”. Diese Arbeit baut auf Moris Diskussion auf und beschreibt, wie die kleinsten Unterschiede zu negativen Reaktionen bei der Verbindung des Beobachters führen können.

Menschliche Gesichter sind der schwierigste Teil der Gleichung

In den letzten Jahrzehnten wurden mehrere Meilensteine auf dem Weg zur Schaffung humanoider Roboter erreicht. Neue Technologien wie LLMs machen es möglich, dass diese Geräte mit natürlicher Sprache kommunizieren, was dazu beiträgt, die Lücke zu schließen. Es gibt jedoch noch einen Bereich, der viel Aufmerksamkeit erfordert: das menschliche Gesicht.
Uncanny Robots that Sing and Speak Like Humans
Das menschliche Gesicht ist eine komplexe Mischung aus Gewebe, Nerven und Muskeln, die in der Lage ist, Tausende von verschiedenen Ausdrücken zu zeigen, von denen viele dazu beitragen, Gefühle zu anderen zu vermitteln. Auf diese Weise wird das Gesicht als das ultimative Kommunikationsgerät angesehen.
Roboter-Ingenieure haben lange erkannt, wie wichtig und schwierig es ist, robotische Gesichter zu schaffen, die wie Menschen funktionieren. Durch jahrelange harte Arbeit haben Roboter es geschafft, menschliche Gesichter mit Haut und Ausdrücken zu erhalten. Trotzdem fehlt es an der Verbindung, trotz Milliarden in Forschung.
Swipe to scroll →

Funktion Menschliches Gesicht Traditionelle humanoide Roboter Columbia-KI-Lippen-System
Muskelkomplexität 30+ Gesichtsmuskeln mit kontinuierlicher Bewegung Begrenzte Motoren mit starren Einschränkungen 26 Motoren mit weicher Silikon-Artikulation
Lippen-Audio-Synchronisation Natürlich synchronisiert während des Sprechens Vordefinierte, oft verzögerte Bewegungen Dynamisch gelernt durch Vision-to-Action-KI
Emotionaler Ausdruck Feine, kontextabhängige Mikro-Ausdrücke Minimale oder übertriebene Ausdrücke Emotionell kohärente Lippen- und Gesichtsausdrücke
Anpassungsfähigkeit Kontinuierliches Lernen durch Interaktion Statische Bewegungsbibliotheken Selbstverbesserung durch beobachtendes Lernen
Unheimliches Tal-Effekt Keiner Hoher Unbehaglichkeitsgrad bei den Beobachtern Erheblich reduzierte unheimliche Reaktion

Die Bedeutung von Lippen in der Kommunikation

Roboter-Ingenieure sind ständig auf ein signifikantes Problem bei der Schaffung humanoider Geräte gestoßen – es ist fast unmöglich, Lippenbewegungen nachzubilden. Ihre Lippen tun mehr, als nur die Richtung Ihrer Stimme zu bestimmen und Ihnen zu helfen, Wörter auszusprechen.
Ihre Lippen zeigen auch Emotionen auf einer subtilen Ebene, die im Laufe der Evolution zu einem wichtigen Bestandteil der menschlichen Kommunikation geworden ist. Bemerkenswerterweise sind Ihre Lippenbewegungen eine der am meisten fokussierten Merkmale Ihres Gesichts während Konversationen. Folglich widmet Ihr Gehirn mehr Denkvermögen diesen Gesten als anderen Aktionen wie dem Runzeln der Stirn oder dem Zwinkern.

Roboter-Lippen sehen unnatürlich aus

Trotzdem Roboter fast menschlich aussehen, fehlt es ihnen immer noch an Lippen-Gesichtsausdrücken. Jahrzehnte der Forschung haben bewiesen, dass die Technologie nicht existiert, um die notwendige Lippen-Audio-Synchronisation zu erreichen, um realistisches Verhalten zu erzeugen. Als Ergebnis erscheinen Roboter immer, als ob ihre Konversationen synchronisiert wären, anstatt gesprochen zu werden. Dieser Effekt der synchronisierten Stimme lässt diese Geräte steif und leblos erscheinen.
Sorgfältig berücksichtigen menschliche Gesichter Dutzende von Muskeln, um emotionale Reaktionen zu erzeugen, und robotische Lippen haben noch nicht dieses Maß an Komplexität erreicht. Es würde ein neues Design erfordern, um dieses Maß an Komplexität zu erreichen. Darüber hinaus sind die meisten robotischen Lippenbewegungen vordefinierte Bewegungen, die auf bestimmte Sprachübertragungen abgestimmt sind, anstatt Bewegungen, die darauf abzielen, das Wort natürlich zu erzeugen. Da Roboter tatsächlich keinen Sound mit ihren Lippen erzeugen, kommen die Bewegungen unnatürlich und unheimlich rüber.

Columbia-Studie: Lehren von Robotern realistische Lippenbewegungen

Glücklicherweise hat ein Team von Columbia-Ingenieuren vielleicht herausgefunden, wie man das unheimliche Tal überwinden kann. Die Studie “Lernen realistischer Lippenbewegungen für humanoide Gesichtsroboter” stellt ein neues Typ von robotischem Gesicht vor, das sich hauptsächlich auf Lippenbewegungen und Synchronisation konzentriert.

Spezielle Hardware

Eines der größten Hindernisse, die das Team überwinden musste, war die Steifigkeit der heutigen robotischen Gesichter. Während es viele neue Designs gibt, die motorisierte Reaktionen im Gesicht ermöglichen, kann keines die notwendige Komplexität unterstützen, um realistische Lippenbewegungen zu ermöglichen.
Um diese Einschränkung zu überwinden, verwendeten die Ingenieure speziell entwickelte Silikon-Lippen, die maximale Ausdruckskraft bieten. Dann integrierten sie 26 Gesichtsmotoren, einen Gesichts-Aktions-Transformer und einen variationalen Autoencoder (VAE).

Vision-to-Action (VLA)

Im Kern dieser technologischen Durchbruchs steht das Vision-to-Action-KI-Modell. Mit diesem Modell kann ein robotisches Gesicht realistische Lippen autonom erzeugen, die nicht auf vordefinierten mechanischen Einstellungen für die Bewegung angewiesen sind.
Um das Modell zu erstellen, nutzten die Forscher beobachtende Lernmethoden. Diese Art der Programmierung ermöglicht es dem Gerät, exakte Lippen-Dynamik während des Sprechens in Echtzeit zu ermitteln. Als ersten Schritt mussten die Ingenieure das Algorithmus in eine selbstüberwachte Lern-Pipeline einfügen.
Quelle - Columbia
Dieser Schritt erforderte, dass die Ingenieure das Gesicht des Roboters vor einen Spiegel stellten und es anwiesen, Tausende von Gesichtern zu erstellen. Diese Aktion ermöglichte es dem Algorithmus, seine Gesichtsausdrucksfähigkeiten zu erfassen. Von dort aus beobachtete der Roboter dann Stunden von YouTube-Inhalten.
Die Kombination aus Audio und Lippen-Bewegung wurde sorgfältig verfolgt und verwendet, um den Lippen-KI-Algorithmus des Roboters zu programmieren. Innerhalb weniger Tage lernte es genau, wie sein Gesicht aussehen sollte, basierend auf menschlichen Ausdrücken, anstatt auf Eingabeparametern. Die Ingenieure fügten dann Audio hinzu und begannen mit dem Testen.

Wie die Lippen-Synchron-KI in verschiedenen Sprachen getestet wurde

Das Team testete seine Theorie in 10 verschiedenen Sprachen und sprachlichen Kontexten. Der Test verwendete vollständig neue Sprachen für das Modell, um sicherzustellen, dass es die richtigen Gesichtsausdrücke und Lippen-Bewegungen berechnen musste, anstatt bereits trainierte Wörter abzurufen. Interessanterweise verwendete der Test auch Kontext und Lieder.

Ergebnisse des unheimlichen Roboters

Die Testergebnisse zeigten visuell kohärente Lippen-Audio-Synchronisation überall. Bemerkenswerterweise lieferte der algorithmus-gesteuerte Roboter realistische Lippen-Bewegungen, die genau mit mehreren Audio-Clips übereinstimmten. Eindrucksvoll synchronisierte es seine Lippen-Bewegungen in 10 Sprachen und sang sogar ein Lied von seinem von der KI generierten Debüt-Album, hello world.
Bemerkenswerterweise fand das Team einige Einschränkungen der Technologie. Einerseits war der Roboter nicht in der Lage, konstant harte Lippen-Bewegungen zu reproduzieren, die mit Wörtern wie “Pop” verbunden sind. Es hatte auch Schwierigkeiten mit gepressten Wörtern wie “Pfeifen”. Sorgfältig bemerkten die Ingenieure, dass diese kleinen Unvollkommenheiten sich mit der Zeit verbessern werden, wenn der Algorithmus verbessert wird. Diese Selbstlern-Funktion ist das beste Merkmal des Algorithmus. Es wird kontinuierlich verbessert, wenn es mehr Daten von Menschen über die Zeit sammelt, und öffnet die Tür für bedeutungsvollere Mensch-Maschine-Interaktionen in der Zukunft.

Schlüsselvorteile realistischer humanoider Robotik

Es gibt mehrere Vorteile, die diese Technologie mit sich bringt. Einerseits ermöglicht sie es Menschen, eine tiefere Verbindung mit Maschinen aufzubauen. Die meisten Menschen sind sich nicht bewusst, wie viel Kommunikation auf unterbewusster Ebene durch Gesichtsausdrücke erfolgt.
Diese Studie öffnet die Tür für Lippen-Synchron-Technologie und konversationale KI, um menschliche Erfahrungen zu schaffen, die dazu beitragen könnten, die Einsamkeits-Epidemie zu bekämpfen und mehr. Mit dieser Technologie können humanoide Roboter einen Schritt näher an das unheimliche Tal herankommen und die Robotik auf ein neues Level heben.

Echtzeit-Anwendungen und Zeitplan

Es gibt viele Anwendungen für diese Technologie, die sich über mehrere Branchen erstrecken. Die offensichtliche Verwendung dieser Technologie ist es, die humanoide Roboter-Technologie voranzutreiben. Die Fähigkeit, weiche, warme Gesichter auf kalte Roboter zu projizieren, könnte dazu beitragen, die Akzeptanz zu fördern. Hier sind einige andere Anwendungen, über die nachgedacht werden kann.

Altenpflege

Während ältere Menschen nicht als die technisch versiertesten Menschen gelten, haben sie begonnen, die Robotik auf einer völlig neuen Ebene zu akzeptieren. Der Markt für assistierende Roboter in der Altenpflege ist im Aufschwung, mit Statistiken, die zeigen, dass er 2025 3,38 Milliarden Dollar erreicht hat. Die gleichen Berichte prognostizieren, dass er bis 2033 9,85 Milliarden Dollar überschreiten wird.
Ältere Menschen würden eher mit Robotern interagieren und sie akzeptieren, wenn sie nicht so technisch kompliziert erschienen. Als solche könnte ein roboterischer Assistent, der mithilfe realistischer Gesichtsbewegungen sprechen könnte, die perfekte Lösung sein. Ältere Patienten könnten eine Verbindung finden und gleichzeitig die notwendige Unterstützung erhalten.

Unterhaltung

Die Unterhaltungsindustrie könnte eine der ersten Branchen sein, die diese Technologie anwendet. Filmemacher verlassen sich stark auf Robotik in der heutigen Unterhaltungsindustrie. Von Animatronics wie denen, die in Themenparks wie Disney verwendet werden, bis hin zu Motion-Capture-Robotern, die in großen Filmen verwendet werden, haben diese Geräte die Unterhaltungsindustrie vorangetrieben.
Heute überschreitet der Wert der Unterhaltungsroboter 4,72 Milliarden Dollar. Dieser Wert wird voraussichtlich auf 26,94 Milliarden Dollar ansteigen, getrieben von einer stärkeren Nachfrage nach realistischen CGI-Charakteren. In naher Zukunft könnte diese Technologie diese Nische füllen und es Schauspielern ermöglichen, ihre Gesichter mit Charakteren in neuen und direkteren Wegen zu teilen.

Bildung

Der Bildungssektor ist ein weiterer Bereich, in dem diese Technologie gedeihen könnte. Hier könnten diese Geräte als personalisierte Tutoren eingesetzt werden. Bereits jetzt haben einige Berichte gezeigt, dass Schüler mit roboter-basierten Lektionen eine 30-prozentige Steigerung der mathematischen Verständnis erzielten.

Adoptions-Zeitplan

Sie können erwarten, dass diese Technologie in den nächsten 5-10 Jahren in das alltägliche Leben einzieht. Roboter sind bereits in vielen Fabriken und Arbeitsplätzen vorhanden, und die Integration wird voraussichtlich zunehmen. Roboter-Ingenieure verstehen, dass die Integration dieser Technologie dazu beitragen kann, ihre Geräte relatabler zu machen.

Schlüsselforscher an der Columbia

Die Studie wurde von dem Creative Machines Lab der Columbia-Universität durchgeführt. Der Artikel listet Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyuan Chen und Hod Lipson als Mitwirkende auf.

Was kommt als Nächstes für menschenähnliche Roboter

Das Team wird sich nun darauf konzentrieren, den Algorithmus weiter zu verfeinern. Dieser Schritt wird mehr menschliche Interaktionen beinhalten und könnte sogar zur Entwicklung mehrerer Einheiten führen, die in der Lage sind, in Echtzeit zu lernen und ihre Daten mit einem zentralen Modell zu teilen.

Investitionen in Roboter-Innovationen

Die Roboterindustrie ist ein sich schnell entwickelnder Sektor, der in den letzten 5 Jahren stark gewachsen ist. Die Einführung neuer Technologien wie LLMs und 3D-Druckern hat dazu beigetragen, die Innovation auf ein neues Level zu heben. Für einen umfassenden Überblick über die breiteren Marktmöglichkeiten lesen Sie unsere Anleitung zum Investieren in Physical AI und humanoide Roboter im Jahr 2026.
Hier ist ein Unternehmen, das an der Spitze dieser Revolution steht.

Teradyne (36 Milliarden Dollar)

Teradyne, Inc. (TER ) ist die Muttergesellschaft von Universal Robots (UR), dem Marktführer bei “Cobots” (kollaborativen Robotern). Obwohl Teradyne keine humanoiden Gesichter baut, ist es derzeit der führende Spieler bei der Einführung der “watch-and-learn”-KI, die in der Columbia-Studie beschrieben wird, auf den Fabrikboden.
Wichtig ist, dass Teradyne eine strategische Partnerschaft mit Nvidia (NVDA ) eingegangen ist, um die “Isaac Manipulator”-Plattform zu integrieren. Dies ermöglicht es Teradynes Robotern, KI-Kameras zu verwenden, um ihre Umgebung “zu sehen” und dynamisch ihren Pfad anzupassen – ähnlich wie der Emo-Roboter lernt, seine Lippen anzupassen – anstatt auf starre, vordefinierte Code zu verlassen.

(TER )

Leistung und Bewertung 2026: Teradyne gilt allgemein als “Blue-Chip”-Roboter-Aktie. Die Aktien sind 2025 um fast 50% gestiegen und setzen ihre Rallye im ersten Quartal 2026 fort, mit Kursen nahe der 230-Dollar-Marke.

Warnung für Anleger: Obwohl der Momentum stark ist, weisen Analysten darauf hin, dass TER derzeit mit einem hohen Bewertungs-Prämium (über 70x P/E) gehandelt wird. Die Aktie ist eine Wette darauf, dass die Integration von KI einen massiven Hardware-Aufwertungszyklus in der Fertigung auslösen wird, aber sie birgt auch ein erhebliches Volatilitätsrisiko im Vergleich zu traditionellen Industrie-Aktien wie Deere oder Caterpillar.

Neueste Nachrichten und Leistung von Teradyne (TER)

Schlussfolgerung

Die Einführung realistischer robotischer Gesichter macht vollkommen Sinn. LLMs sind jetzt in der Lage, menschliche Sprache nachzuahmen, und wenn sie mit realistischen Gesichtsausdrücken kombiniert werden, werden diese Geräte ein neues Level an Schulung, Lernen, Gesundheitsversorgung und mehr bieten. Für den Moment wird das Team sich darauf konzentrieren, die Unvollkommenheiten zu glätten und strategische Partner und Finanzierungen zu finden.
Erfahren Sie mehr über andere coole Robotik-Durchbrüche hier.

Quellen

1. Yuhang Hu et al., Lernen realistischer Lippenbewegungen für humanoide Gesichtsroboter. Science Robotics 11, eadx3017 (2026). DOI:10.1126/scirobotics.adx3017

David Hamilton ist ein Vollzeitjournalist und ein langjähriger Bitcoinist. Er spezialisiert sich auf das Schreiben von Artikeln über die Blockchain. Seine Artikel wurden in mehreren Bitcoin-Publikationen veröffentlicht, einschließlich Bitcoinlightning.com

Advertiser Disclosure: Securities.io is committed to rigorous editorial standards to provide our readers with accurate reviews and ratings. We may receive compensation when you click on links to products we reviewed. ESMA: CFDs are complex instruments and come with a high risk of losing money rapidly due to leverage. Between 74-89% of retail investor accounts lose money when trading CFDs. You should consider whether you understand how CFDs work and whether you can afford to take the high risk of losing your money. Investment advice disclaimer: The information contained on this website is provided for educational purposes, and does not constitute investment advice. Trading Risk Disclaimer: There is a very high degree of risk involved in trading securities. Trading in any type of financial product including forex, CFDs, stocks, and cryptocurrencies. This risk is higher with Cryptocurrencies due to markets being decentralized and non-regulated. You should be aware that you may lose a significant portion of your portfolio. Securities.io is not a registered broker, analyst, or investment advisor.