Stummel KI-gesteuerte Roboter lernen menschliche Lippenbewegungen – Securities.io
Vernetzen Sie sich mit uns

Robotik

KI-gesteuerte Roboter erlernen menschliche Lippenbewegungen

mm
Unheimliche Roboter, die singen und sprechen wie Menschen 1

Ingenieure der Columbia University haben einen Roboter entwickelt, der menschliche Lippenbewegungen beim Sprechen nachahmen und lernen kann. Das verbesserte Design kombiniert fortschrittliche Robotik mit künstlicher Intelligenz und ermöglicht es dem Gerät – namens Emo –, durch Beobachtung menschlicher Mimik zu lernen und gegebenenfalls menschliche Emotionen zu imitieren. Hier erfahren Sie alles Wichtige.

Zusammenfassung: Die Ingenieure der Columbia University haben einen KI-gesteuerten humanoiden Roboter entwickelt, der durch Beobachtung realistische menschliche Lippenbewegungen erlernen kann, wodurch die Sprachsynchronisation und der emotionale Ausdruck deutlich verbessert werden.

Warum humanoide Roboter das Uncanny Valley auslösen

Seit den Anfängen der Robotik besteht das Bestreben, humanoide Roboter zu entwickeln. Dies ist leichter gesagt als getan, denn Robotikingenieure haben zwar stetig Fortschritte in diese Richtung erzielt, ihr Ziel, ein Gerät zu entwickeln, das wie ein echter Mensch aussieht und sich auch so anfühlt, jedoch nie vollständig erreicht.

Jeder, der auch nur die einfachsten humanoiden Roboter gesehen hat, kann bestätigen, wie unbehaglich diese Geräte wirken, weil sie sich so unnatürlich in die Gesellschaft einfügen. Schon die geringsten Ungenauigkeiten, wie etwa unnatürliche Augenbewegungen oder Gesichtsausdrücke, können dieses Gefühl bei Betrachtern hervorrufen.

Das unheimliche Tal

Der japanische Robotiker Masahiro Mori bemerkte dieses Phänomen in den 1970er Jahren. In seinem mittlerweile berühmten Werk „Bukimi no Tani GenshoIn seinem Essay „(Valley of Eeriness)“ geht er detailliert auf das Konzept ein. Die Arbeit beschreibt, wie humanoide Roboter aufgrund subtiler Mängel immer wieder einen Punkt erreichen, an dem sie eine starke Distanz zu ihren Beobachtern aufbauen.

1978 fand der Begriff durch Jasia Reichardts Buch „Roboter: Fakten, Fiktionen und Vorhersagen„wodurch der Begriff in seine heute gebräuchliche Bedeutung „Uncanny Valley“ übersetzt wurde.“ Diese Arbeit baut auf Moris Ausführungen auf und beschreibt, wie selbst kleinste Unterschiede negative Reaktionen in der Verbindung des Beobachters hervorrufen können.

Menschliche Gesichter sind der schwierigste Teil der Gleichung.

In den letzten Jahrzehnten wurden bedeutende Fortschritte bei der Entwicklung humanoider Roboter erzielt. Neue Technologien wie LLMs ermöglichen es diesen Geräten, in natürlicher Sprache zu kommunizieren und so die bestehende Sprachbarriere zu verringern. Einer der größten Bereiche, der jedoch weiterhin viel Aufmerksamkeit erfordert, ist die Nachbildung des menschlichen Gesichts.

Unheimliche Roboter, die singen und sprechen wie Menschen

Das menschliche Gesicht ist ein komplexes Zusammenspiel von Gewebe, Nerven und Muskeln, das tausende verschiedene Gesichtsausdrücke zeigen kann, von denen viele dazu beitragen, Gefühle zu vermitteln. Daher gilt das Gesicht als das ultimative Kommunikationsmittel.

Robotikingenieure wissen seit Langem um die Bedeutung und die Schwierigkeit, Robotergesichter zu entwickeln, die sich wie Menschen verhalten. Dank jahrelanger harter Arbeit ist es Robotern gelungen, menschenähnliche Gesichter mit Haut und Mimik zu erzeugen. Doch trotz Milliardeninvestitionen in die Forschung fehlt es noch immer an der perfekten Verbindung.

Zum Scrollen wischen →

Merkmal Menschliches Gesicht Traditionelle humanoide Roboter Columbia AI Lippensystem
Muskelkomplexität Mehr als 30 Gesichtsmuskeln mit kontinuierlicher Bewegung Begrenzte Motoren mit starren Einschränkungen 26 Motoren mit weichen Silikongelenken
Lippen-Audio-Synchronisation Natürlich synchronisiert während der Sprache Vordefinierte, oft verzögerte Bewegungen Dynamisch gelernt durch KI-gestützte Bildverarbeitung und Handlungsumsetzung
Emotional Expression Subtile, kontextsensitive Mikroexpressionen Minimale oder übertriebene Ausdrücke Emotional kohärente Lippen- und Gesichtsausdrücke
Flexibilität Lernt kontinuierlich durch Interaktion Bibliotheken für statische Bewegungen Selbstverbesserung durch Beobachtungslernen
Unheimlicher Tal-Effekt Keine Präsentation Hohes Beobachterunbehagen Deutlich reduzierte Unheimlichkeitsreaktion

Die Bedeutung der Lippen in der Kommunikation

Bei der Entwicklung humanoider Roboter stoßen Robotiker immer wieder auf ein bedeutendes Problem: Es ist nahezu unmöglich, Lippenbewegungen nachzubilden. Die Lippen leisten mehr, als nur den Klang der Stimme zu lenken und bei der Aussprache zu helfen.

Unsere Lippen drücken Emotionen auf subtile Weise aus, was sich im Laufe der Jahrtausende der Evolution zu einem wesentlichen Bestandteil der menschlichen Kommunikation entwickelt hat. Insbesondere die Lippenbewegungen gehören zu den am stärksten wahrgenommenen Gesichtszügen während Gesprächen. Daher wendet unser Gehirn diesen Gesten mehr Aufmerksamkeit zu als anderen Aktionen wie Stirnrunzeln oder Zwinkern.

Die Lippen von Robotern sehen unnatürlich aus

Obwohl Roboter mittlerweile fast menschenähnlich aussehen, mangelt es ihnen noch immer an Mimik und Gestik. Jahrzehntelange Forschung hat gezeigt, dass die Technologie für die notwendige Lippen-Ton-Synchronisation, die für realistisches Verhalten erforderlich ist, noch nicht existiert. Daher wirken Robotergespräche stets nachsynchronisiert, anstatt von ihnen gesprochen zu werden. Dieser Effekt lässt die Geräte unbeholfen und leblos erscheinen.

Das menschliche Gesicht ist bekanntermaßen auf das Zusammenspiel dutzender Muskeln angewiesen, um emotionale Reaktionen hervorzurufen. Roboterlippen erreichen diese Komplexität noch nicht. Um dieses Niveau zu erzielen, wäre ein völlig neues Design erforderlich. Zudem basieren die meisten Lippenbewegungen von Robotern auf vordefinierten Abläufen, die bestimmten Sprachausgaben entsprechen, anstatt auf Bewegungen, die Wörter natürlich formen. Da Roboter den Laut nicht mit ihren Lippen erzeugen, wirken die Bewegungen unnatürlich und befremdlich.

Columbia-Studie: Robotern realistische Lippenbewegungen beibringen

Zum Glück hat ein Team von Ingenieuren der Columbia University möglicherweise herausgefunden, wie man das Uncanny Valley überwinden kann.Erlernen realistischer Lippenbewegungen für humanoide Gesichtsroboter¹Die Studie stellt einen neuen Typ von Robotergesicht vor, der sich vor allem auf Lippenbewegungen und deren Synchronisation konzentriert.

Spezialisierte Hardware

Eine der größten Hürden für das Team war die mangelnde Flexibilität heutiger Robotergesichter. Zwar gibt es viele neue Designs mit motorbetriebenen Gesichtsausdrücken, doch keines davon ermöglicht die nötige Komplexität für realistische Lippenbewegungen.

Um diese Einschränkung zu überwinden, verwendeten die Ingenieure speziell entwickelte Silikonlippen, die maximale Mimik ermöglichen. Anschließend integrierten sie 26 Gesichtsmotoren, einen Gesichtsbewegungstransformator und einen Variations-Autoencoder (VAE).

Vision-to-Action (VLA)

Kernstück dieses technologischen Durchbruchs ist das KI-Modell zur Umsetzung von Visionen in Aktionen. Mithilfe dieses Modells kann ein Robotergesicht autonom realistische Lippen erzeugen, die nicht auf vordefinierten mechanischen Bewegungseinstellungen basieren.

Zur Entwicklung des Modells nutzte das Team Methoden des beobachtenden Lernens. Diese Programmierweise ermöglicht es dem Gerät, die Lippenbewegungen während des Sprechens in Echtzeit exakt zu erfassen. Daher bestand der erste Schritt darin, den Algorithmus in eine selbstüberwachte Lernpipeline einzubinden.

Quelle – Kolumbien

In diesem Schritt mussten die Ingenieure das Gesicht des Roboters vor einen Spiegel halten und ihn anweisen, Tausende von Gesichtsausdrücken zu erzeugen. Dadurch konnte der Algorithmus seine Fähigkeit zur Mimik erfassen. Anschließend sah sich der Roboter stundenlang YouTube-Videos an.

Die Kombination aus Audio und Lippenbewegungen wurde präzise erfasst und zur Programmierung des KI-Algorithmus für die Gesichts- und Lippenbewegungen des Roboters verwendet. Innerhalb weniger Tage lernte er anhand menschlicher Mimik, wie sein Gesicht aussehen sollte, anstatt Eingabeparameter zu verwenden. Anschließend fügten die Ingenieure Audio hinzu und begannen mit den Tests.

Wie die Lippensynchronisations-KI in verschiedenen Sprachen getestet wurde

Das Team testete seine Theorie anhand von zehn verschiedenen Sprachen und sprachlichen Kontexten. Dabei wurden dem Modell völlig neue Sprachen verwendet, um sicherzustellen, dass es die korrekten Gesichtsausdrücke und Lippenbewegungen berechnen musste, anstatt sich an zuvor trainierte Wörter zu erinnern. Interessanterweise wurden im Test auch Kontext und Lieder einbezogen.

Ergebnisse des Tests mit unheimlichen Robotern

Die Testergebnisse zeigten durchweg eine visuell kohärente Lippen-Audio-Synchronisation. Bemerkenswerterweise lieferte der algorithmengesteuerte Roboter realistische Lippenbewegungen, die präzise mit mehreren Audioclips übereinstimmten. Beeindruckenderweise synchronisierte er seine Lippenbewegungen erfolgreich in 10 Sprachen und sang sogar ein Lied aus seinem KI-generierten Debütalbum. Hallo Welt_.

Das Team stieß jedoch auf einige Einschränkungen der Technologie. So konnte der Roboter beispielsweise die harten Lippenbewegungen, die mit Wörtern wie „Plopp“ einhergehen, nicht zuverlässig reproduzieren. Auch mit Wörtern, die einen gespitzten Laut erzeugen, wie „Pfeifen“, hatte er Schwierigkeiten. Die Ingenieure merkten jedoch an, dass sich diese kleinen Unvollkommenheiten mit der Zeit durch die Verbesserung des Algorithmus beheben werden. Diese Selbstlernfähigkeit ist der größte Vorteil des Algorithmus. Er wird sich kontinuierlich verbessern, indem er im Laufe der Zeit mehr Daten von Menschen erfasst und so in Zukunft die Möglichkeit für sinnvollere Mensch-Maschine-Interaktionen eröffnet.

Hauptvorteile realistischer humanoider Roboter

Diese Technologie bietet dem Markt mehrere Vorteile. Zum einen ermöglicht sie es Menschen, eine tiefere Verbindung zu Maschinen aufzubauen. Die meisten Menschen sind sich nicht bewusst, wie viel Kommunikation unbewusst über Gesichtsausdrücke stattfindet.

Diese Studie ebnet den Weg für Lippensynchronisationstechnologie und dialogbasierte KI, um menschenähnliche Erlebnisse zu schaffen, die unter anderem zur Bekämpfung der Einsamkeit beitragen könnten. Mithilfe dieser Technologie können humanoide Roboter der Überwindung des Uncanny Valley einen Schritt näherkommen und die Robotik auf ein neues Niveau heben.

Reale Anwendungen und Zeitleiste

Diese Technologie bietet vielfältige Anwendungsmöglichkeiten in verschiedenen Branchen. Ihr offensichtlichster Nutzen liegt in der Weiterentwicklung humanoider Roboter. Die Möglichkeit, kalten Robotern ein freundliches, warmes Gesicht zu verleihen, könnte deren Akzeptanz deutlich steigern. Hier sind einige weitere Anwendungsbeispiele.

Altenpflege

Obwohl ältere Menschen nicht unbedingt als besonders technikaffin gelten, nutzen sie Roboter nun in ganz neuem Ausmaß. Der Markt für Assistenzroboter in der Altenpflege boomt. Statistiken Demnach erreichte der Markt im Jahr 2025 einen Wert von 3.38 Milliarden US-Dollar. Dieselben Berichte prognostizieren, dass er bis 2033 die Marke von 9.85 Milliarden US-Dollar überschreiten wird.

Ältere Menschen wären eher bereit, mit Robotern zu interagieren und sie zu akzeptieren, wenn diese nicht so technisch kompliziert wirkten. Ein Roboterassistent, der sowohl sprechen als auch realistische Gesichtsausdrücke einsetzen kann, wäre daher ideal. Ältere Patienten könnten so eine Verbindung zu Robotern aufbauen und gleichzeitig dringend benötigte Unterstützung erhalten.

Einzelhandel & Unterhaltung

Die Unterhaltungsindustrie könnte zu den ersten gehören, die diese Technologie einsetzen. Filmemacher verlassen sich in der heutigen Unterhaltungsbranche stark auf Robotik. Von Animatronik, wie sie in Themenparks wie Disney verwendet wird, bis hin zu Motion-Capture-Robotern in großen Filmen – diese Geräte haben die Unterhaltungsindustrie maßgeblich vorangebracht.

Der Markt für Unterhaltungsroboter hat heute ein Volumen von über 4.72 Milliarden US-Dollar. Prognosen zufolge wird dieser Wert bis 2034 auf 26.94 Milliarden US-Dollar ansteigen, angetrieben durch die steigende Nachfrage nach realistischen CGI-Charakteren. In naher Zukunft könnte diese Technologie diese Marktlücke füllen und es Schauspielern ermöglichen, ihre Gesichter auf neue und direktere Weise mit Charakteren zu verbinden.

Fachwissen

Auch im Bildungssektor könnte diese Technologie florieren. Hier könnten diese Geräte als personalisierte Tutoren eingesetzt werden. Bereits jetzt gibt es einige Berichte Studien haben gezeigt, dass Schüler durch den Einsatz von robotergestützten Unterrichtseinheiten eine 30%ige Steigerung des mathematischen Verständnisses erzielen konnten.

Zeitplan für die Einführung

Man kann davon ausgehen, dass diese Technologie innerhalb der nächsten 5–10 Jahre Einzug in den Alltag halten wird. Roboter sind bereits in vielen Fabriken und Betrieben im Einsatz, und ihre Integration wird voraussichtlich weiter zunehmen. Robotikexperten wissen, dass die Integration dieser Technologie dazu beitragen kann, ihre Geräte benutzerfreundlicher zu gestalten.

Wichtige Forscher an der Columbia

Die Studie wurde vom Creative Machines Lab der Columbia University durchgeführt. Als Mitwirkende nennt das Papier Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, ​​Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyuan Chen und Hod Lipson.

Was kommt als Nächstes für menschenähnliche Roboter?

Das Team konzentriert sich nun auf die weitere Optimierung des Algorithmus. Dieser Schritt erfordert mehr menschliche Interaktion und könnte sich sogar zu mehreren Einheiten entwickeln, die in Echtzeit lernen und diese Daten mit einem zentralen Modell teilen können.

Investitionen in Robotik-Innovationen

Die Robotikbranche ist ein dynamischer Sektor, der in den letzten fünf Jahren ein starkes Wachstum verzeichnet hat. Die Einführung neuer Technologien wie LLMs und 3D-Drucker hat die Innovation auf ein neues Niveau gehoben. Einen umfassenden Überblick über die vielfältigen Marktchancen bietet unser Leitfaden zu diesem Thema. Investitionen in physische KI und humanoide Roboter im Jahr 2026.

Hier ist ein Unternehmen, das bei dieser Revolution eine Vorreiterrolle eingenommen hat.

Teradyne (36 Mrd. $)

Teradyne, Inc. (TER + 0.41%) Teradyne ist die Muttergesellschaft von Universal Robots (UR), dem Marktführer für Cobots (kollaborative Roboter). Obwohl Teradyne keine humanoiden Gesichter herstellt, ist das Unternehmen derzeit führend bei der Implementierung der in der Columbia-Studie beschriebenen „Beobachten-und-Lernen“-KI in der Fertigung.

Entscheidend ist, dass Teradyne eine strategische Partnerschaft mit Nvidia eingegangen ist. (NVDA + 0.68%) Die „Isaac Manipulator“-Plattform wird integriert. Dadurch können die Roboter von Teradyne mithilfe von KI-Kameras ihre Umgebung „sehen“ und ihre Bahn dynamisch anpassen – ähnlich wie der Emo-Roboter lernt, seine Lippen zu bewegen – anstatt sich auf starren, vorgefertigten Code zu verlassen.

Teradyne, Inc. (TER + 0.41%)

Wertentwicklung und Bewertung bis 2026: Teradyne gilt weithin als Blue-Chip-Aktie im Bereich Robotik. Die Aktien stiegen 2025 um fast 50 % und setzten ihren Aufwärtstrend Anfang 2026 fort, wobei sie sich im Bereich von 230 US-Dollar bewegten.

Investorenwarnung: Obwohl die Dynamik stark ist, weisen Analysten darauf hin, dass TER derzeit mit einem hohen Bewertungsaufschlag (über 70x KGV) gehandelt wird. Die Aktie spekuliert darauf, dass die Integration von KI einen massiven Hardware-Modernisierungszyklus in der Fertigung auslösen wird, birgt aber im Vergleich zu traditionellen Industrieaktien wie Deere oder Caterpillar ein deutlich höheres Volatilitätsrisiko.

Aktuelle Neuigkeiten und Leistungsdaten von Teradyne (TER)

Fazit

Die Einführung realistischer Robotergesichter ist absolut sinnvoll. Sprachcomputer können mittlerweile menschliche Sprache nachahmen, und in Kombination mit realistischen Gesichtsausdrücken werden diese Geräte neue Maßstäbe in Training, Lernen, Gesundheitswesen und vielem mehr setzen. Das Team konzentriert sich nun darauf, noch einige Fehler zu beheben und strategische Partner sowie Finanzierungsmöglichkeiten zu finden.

Erfahren Sie mehr über andere coole Durchbrüche in der Robotik werden auf dieser Seite erläutert.

Referenzen

1. Yuhang Hu et al.Erlernen realistischer Lippenbewegungen für humanoide Gesichtsroboter. Forschung Robotik 11, eadx3017 (2026). DOI:10.1126/scirobotics.adx3017

David Hamilton ist Vollzeitjournalist und langjähriger Bitcoinist. Er ist auf das Schreiben von Artikeln über die Blockchain spezialisiert. Seine Artikel wurden in mehreren Bitcoin-Publikationen veröffentlicht, darunter Bitcoinlightning.com

Advertiser Disclosure: Securities.io verpflichtet sich zu strengen redaktionellen Standards, um unseren Lesern genaue Rezensionen und Bewertungen zu liefern. Wir erhalten möglicherweise eine Entschädigung, wenn Sie auf Links zu von uns bewerteten Produkten klicken.

ESMA: CFDs sind komplexe Instrumente und bergen aufgrund der Hebelwirkung ein hohes Risiko, schnell Geld zu verlieren. Zwischen 74 und 89 % der Privatanlegerkonten verlieren beim Handel mit CFDs Geld. Sie sollten sich überlegen, ob Sie die Funktionsweise von CFDs verstehen und ob Sie es sich leisten können, das hohe Risiko einzugehen, Ihr Geld zu verlieren.

Haftungsausschluss für Anlageberatung: Die auf dieser Website enthaltenen Informationen dienen Bildungszwecken und stellen keine Anlageberatung dar.

Haftungsausschluss für Handelsrisiken: Der Handel mit Wertpapieren birgt ein sehr hohes Risiko. Handel mit allen Arten von Finanzprodukten, einschließlich Devisen, CFDs, Aktien und Kryptowährungen.

Dieses Risiko ist bei Kryptowährungen höher, da die Märkte dezentralisiert und nicht reguliert sind. Sie sollten sich darüber im Klaren sein, dass Sie möglicherweise einen erheblichen Teil Ihres Portfolios verlieren.

Securities.io ist kein registrierter Broker, Analyst oder Anlageberater.