로봇공학

인공지능 기반 로봇, 인간의 입술 움직임 학습

게재 2026 년 1 월 22 일

데이비드 해밀턴

컬럼비아 공대 연구진이 사람의 말하는 동안 입술 움직임을 모방하고 학습할 수 있는 로봇을 개발했습니다. 업그레이드된 디자인은 첨단 로봇 공학과 인공지능을 결합하여 '이모(Emo)'라는 이름의 이 로봇이 사람의 표정을 관찰하여 학습하고 적절한 경우 사람의 감정을 재현할 수 있도록 합니다. 자세한 내용을 소개합니다.

슬립폼 공법 선택시 고려사항 컬럼비아 대학교 엔지니어들이 관찰을 통해 실제 사람의 입 움직임을 학습할 수 있는 인공지능 기반 휴머노이드 로봇을 개발했습니다. 이 로봇은 음성 동기화 및 감정 표현 능력을 획기적으로 향상시킵니다.

휴머노이드 로봇이 불쾌한 골짜기 현상을 유발하는 이유는 무엇일까요?

로봇공학의 초기부터 인간형 로봇을 만들려는 노력이 이어져 왔습니다. 하지만 이는 말처럼 쉬운 일이 아니며, 로봇 공학자들은 그 방향으로 꾸준히 진전을 이루어 왔지만, 외형과 느낌이 실제 인간과 똑같은 로봇을 만드는 데는 아직 완전히 성공하지 못했습니다.

가장 기본적인 형태의 휴머노이드 로봇이라도 접해본 사람이라면 누구나 로봇이 인간처럼 자연스럽게 어우러지지 못하는 점에 대해 불편함을 느꼈다는 것을 알 것입니다. 부자연스러운 눈 움직임이나 표정과 같은 아주 사소한 결점조차도 관찰자에게 그러한 불편함을 유발할 수 있습니다.

언캐니 밸리

일본의 로봇공학자 마사히로 모리는 1970년대에 이 현상을 발견했습니다. 그의 지금은 유명해진 논문에서…부키미노타니 겐쇼"(섬뜩함의 계곡)"이라는 에세이에서 그는 그 개념을 자세히 설명합니다. 이 논문은 인간형 로봇이 미묘한 결함 때문에 관찰자와 항상 날카로운 단절점에 도달한다는 것을 묘사합니다.

1978년, 이 용어는 야시아 라이하르트의 저서를 통해 서양 과학계에 소개되었습니다.로봇: 사실, 허구, 그리고 예측이 연구는 모리의 논의를 바탕으로, 아주 작은 차이가 관찰자의 몰입에 부정적인 반응을 일으킬 수 있음을 설명합니다.

사람의 얼굴은 가장 어려운 부분입니다.

지난 수십 년 동안 휴머노이드 로봇 개발을 향한 여러 중요한 진전이 이루어졌습니다. LLM과 같은 새로운 기술 덕분에 이러한 로봇들이 자연어를 사용하여 소통할 수 있게 되면서, 인간과 로봇 사이의 격차를 줄이는 데 도움이 되고 있습니다. 하지만 여전히 많은 노력이 필요한 가장 큰 분야 중 하나는 바로 인간의 얼굴입니다.

인간처럼 노래하고 말하는 기묘한 로봇들

인간의 얼굴은 조직, 신경, 근육이 복잡하게 얽혀 수천 가지의 다양한 표정을 지을 수 있으며, 그중 많은 표정은 타인에게 감정을 전달하는 데 도움을 줍니다. 이러한 점에서 얼굴은 궁극적인 소통 도구로 여겨집니다.

로봇 공학자들은 오랫동안 인간처럼 작동하는 로봇 얼굴을 만드는 것이 얼마나 중요하고 어려운 일인지 인식해 왔습니다. 수년간의 노력 끝에 로봇은 피부와 표정을 갖춘 인간과 유사한 얼굴을 구현하는 데 성공했습니다. 하지만 수십억 달러의 연구 투자에도 불구하고, 인간과의 완벽한 연결은 여전히 부족한 실정입니다.

스크롤하려면 스와이프하세요 →

특색	인간의 얼굴	전통적인 휴머노이드 로봇	콜럼비아 AI 립 시스템
근육 복잡성	30개 이상의 얼굴 근육을 연속적으로 움직일 수 있습니다.	엄격한 제약 조건이 있는 제한된 모터	부드러운 실리콘 관절이 있는 26개의 모터
입술-음성 동기화	말하는 동안 자연스럽게 동기화됨	미리 정의되고 종종 지연되는 움직임	비전-투-액션 AI를 통해 동적으로 학습됨
감정 표현	미묘하고 상황을 인지하는 미세 표정	최소한의 표현 또는 과장된 표현	감정적으로 일관된 입술과 얼굴 표정 신호
적응성	상호작용을 통해 지속적으로 학습합니다.	정적 동작 라이브러리	관찰 학습을 통한 자기 계발
언캐니 밸리 효과	없음	관찰자의 높은 불편함	기묘한 반응이 현저히 감소했습니다.

의사소통에서 입술의 중요성

로봇공학자들은 인간형 로봇을 만들 때 끊임없이 한 가지 중요한 문제에 부딪혀 왔습니다. 바로 입술 움직임을 재현하는 것이 거의 불가능하다는 점입니다. 입술은 단순히 목소리의 방향을 정하고 단어를 발음하는 것 이상의 역할을 하기 때문입니다.

입술은 실제로 미묘한 수준으로 감정을 드러내는데, 이는 수천 년에 걸친 진화를 통해 인간 소통에 필수적인 요소가 되었습니다. 특히, 입술 움직임은 대화 중에 가장 집중적으로 처리되는 얼굴 특징 중 하나입니다. 따라서 뇌는 이마를 찡그리거나 윙크하는 것과 같은 다른 동작보다 입술 움직임에 더 많은 사고력을 할애합니다.

로봇의 입술은 부자연스러워 보인다

로봇이 인간과 거의 비슷하게 보일 수 있게 되었음에도 불구하고, 입술과 입을 이용한 표정 연기는 여전히 부족합니다. 수십 년간의 연구 끝에 현실적인 행동을 구현하는 데 필요한 입술과 소리의 동기화 기술은 아직 존재하지 않는다는 것이 입증되었습니다. 따라서 로봇의 대화는 항상 더빙된 것처럼 보이며, 이러한 더빙 효과 때문에 로봇은 어색하고 생기 없어 보입니다.

인간의 얼굴은 수십 개의 근육을 사용하여 감정 표현을 정교하게 만들어내지만, 로봇 입술은 아직 그 정도의 복잡성을 갖추지 못했습니다. 이러한 복잡성을 구현하려면 완전히 새로운 설계 방식이 필요할 것입니다. 또한, 대부분의 로봇 입술 움직임은 특정 음성 신호에 맞춰 미리 정의된 동작일 뿐, 단어를 자연스럽게 발음하도록 설계된 것은 아닙니다. 로봇은 입술로 직접 소리를 내는 것이 아니기 때문에, 이러한 움직임은 부자연스럽고 어색하게 느껴집니다.

컬럼비아 대학교 연구: 로봇에게 사실적인 입 움직임을 가르치는 방법

다행히 컬럼비아 공대 연구팀이 불쾌한 골짜기를 극복하는 방법을 알아냈을지도 모릅니다.인간형 얼굴 로봇을 위한 사실적인 입술 움직임 학습¹이 연구는 입술 움직임과 동기화에 중점을 둔 새로운 유형의 로봇 얼굴을 소개합니다.

전문 하드웨어

팀이 극복해야 했던 주요 난관 중 하나는 오늘날 로봇 얼굴의 경직성이었습니다. 얼굴에 모터 구동식 반응을 제공하는 많은 새로운 디자인이 개발되었지만, 사실적인 입술 움직임을 구현하는 데 필요한 복잡성을 지원하는 디자인은 없었습니다.

이러한 한계를 극복하기 위해 엔지니어들은 최대한의 표정을 표현할 수 있도록 특별히 제작된 실리콘 입술을 사용했습니다. 그런 다음 26개의 얼굴 모터, 얼굴 동작 변환기 및 변분 자동 인코더(VAE)를 내장했습니다.

비전-행동 연계(VLA)

이 기술적 혁신의 핵심은 비전-투-액션 AI 모델입니다. 이 모델을 사용하면 로봇 얼굴이 미리 정의된 기계적 움직임 설정에 의존하지 않고도 사실적인 입술 모양을 자율적으로 만들어낼 수 있습니다.

모델을 만들기 위해 연구팀은 관찰 학습 방법을 활용했습니다. 이러한 프로그래밍 방식 덕분에 장치는 실시간으로 말하는 동안 입술의 움직임을 정확하게 파악할 수 있습니다. 따라서 첫 번째 단계는 알고리즘을 자기 지도 학습 파이프라인에 입력하는 것이었습니다.

출처 - 콜롬비아

이 단계에서 엔지니어들은 로봇의 얼굴을 거울 앞에 놓고 수천 가지 표정을 짓도록 지시해야 했습니다. 이 과정을 통해 알고리즘은 로봇의 얼굴 표정 표현 능력을 습득할 수 있었습니다. 그 후 로봇은 몇 시간 동안 유튜브 콘텐츠를 시청했습니다.

음성과 입술 움직임을 정밀하게 추적하여 로봇의 얼굴 표정 AI 알고리즘을 프로그래밍하는 데 사용했습니다. 며칠에 걸쳐 로봇은 입력 매개변수를 사용하는 대신 사람의 표정을 통해 얼굴 표정을 정확하게 학습했습니다. 그런 다음 엔지니어들은 음성을 추가하고 테스트를 시작했습니다.

립싱크 AI는 다양한 언어에서 어떻게 테스트되었을까요?

연구팀은 10개의 서로 다른 언어와 언어적 맥락에서 자신들의 이론을 검증했습니다. 이 테스트에서는 모델에 완전히 새로운 언어를 사용하여, 기존에 학습한 단어를 기억하는 것이 아니라 적절한 얼굴 표정과 입 모양을 계산해야 하도록 했습니다. 흥미롭게도, 테스트에는 맥락과 노래도 활용되었습니다.

언캐니 로봇 테스트 결과

테스트 결과는 모든 항목에서 시각적으로 일관된 입술 움직임과 음성 동기화를 보여주었습니다. 특히, 알고리즘 기반 로봇은 여러 오디오 클립에 정확하게 맞춰 사실적인 입술 움직임을 구현했습니다. 놀랍게도, 이 로봇은 10개 언어에 걸쳐 입술 움직임을 성공적으로 동기화했을 뿐만 아니라, AI가 생성한 데뷔 앨범의 수록곡까지 불렀습니다. 안녕하세요 세상_.

특히, 연구팀은 해당 기술의 몇 가지 한계를 발견했습니다. 예를 들어, 로봇은 "팝"과 같은 단어에서 나타나는 강한 입술 움직임을 일관되게 재현하지 못했습니다. 또한 "휘파람"처럼 입술을 오므리는 발음도 제대로 표현하지 못했습니다. 하지만 엔지니어들은 이러한 작은 결함들이 알고리즘이 시간이 지남에 따라 개선되면서 자연스럽게 해결될 것이라고 지적했습니다. 이러한 자기 학습 기능은 알고리즘의 가장 큰 장점입니다. 시간이 흐르면서 사람으로부터 더 많은 데이터를 수집할수록 지속적으로 개선될 것이며, 이는 미래에 더욱 의미 있는 인간-기계 상호작용의 가능성을 열어줄 것입니다.

사실적인 휴머노이드 로봇의 주요 이점

이 기술은 시장에 여러 가지 이점을 가져다줍니다. 첫째, 인간과 기계 사이의 더욱 깊은 유대감을 형성할 수 있게 해줍니다. 대부분의 사람들은 무의식적으로 얼굴 표정을 통해 얼마나 많은 의사소통이 이루어지는지 인식하지 못합니다.

이 연구는 립싱크 기술과 대화형 AI를 활용하여 인간과 유사한 경험을 제공함으로써 외로움 문제 해결 등에 기여할 수 있는 가능성을 열어줍니다. 이러한 기술을 통해 휴머노이드 로봇은 불쾌한 골짜기 현상을 극복하고 로봇 공학을 새로운 차원으로 끌어올릴 수 있을 것입니다.

실제 세계 응용 프로그램 및 타임라인

이 기술은 여러 산업 분야에 걸쳐 다양한 응용 가능성을 가지고 있습니다. 가장 очевид한 활용 분야는 휴머노이드 로봇 기술 발전을 촉진하는 것입니다. 차가운 로봇에 부드럽고 따뜻한 얼굴을 투영하는 능력은 로봇 도입을 가속화하는 데 도움이 될 수 있습니다. 그 외에도 고려해 볼 만한 몇 가지 응용 분야가 있습니다.

노인 케어

기술에 가장 정통한 계층으로 여겨지지는 않지만, 노년층은 완전히 새로운 차원에서 로봇 기술을 수용하기 시작했습니다. 노인 돌봄 보조 로봇 시장은 성장세를 보이고 있습니다. 통계 2025년에는 33억 8천만 달러에 달할 것으로 예상되며, 같은 보고서들은 2033년에는 98억 5천만 달러를 넘어설 것으로 예측하고 있습니다.

노인들은 로봇이 기술적으로 복잡해 보이지 않는다면 더 쉽게 소통하고 받아들일 것입니다. 따라서 음성으로 소통하고 실제와 같은 얼굴 움직임을 보여줄 수 있는 로봇 보조 장치가 이상적인 대안이 될 수 있습니다. 노인 환자들은 이러한 로봇을 통해 유대감을 형성하고 절실히 필요한 도움을 받을 수 있을 것입니다.

엔터테인먼트

엔터테인먼트 산업은 이 기술을 가장 먼저 도입할 분야 중 하나가 될 수 있습니다. 오늘날 엔터테인먼트 산업에서 영화 제작자들은 로봇 공학에 크게 의존하고 있습니다. 디즈니와 같은 테마파크에서 사용되는 애니매트로닉스부터 주요 영화 제작에 사용되는 모션 캡처 로봇에 이르기까지, 이러한 장치들은 엔터테인먼트 산업을 발전시켜 왔습니다.

오늘날 엔터테인먼트 로봇 산업의 시장 규모는 47억 2천만 달러를 넘어섰습니다. 실감나는 CGI 캐릭터에 대한 수요 증가에 힘입어 이 시장은 2034년까지 269억 4천만 달러로 성장할 것으로 예측됩니다. 머지않아 이 기술은 배우들이 자신의 얼굴을 캐릭터와 더욱 직접적으로 공유하는 새로운 방식을 가능하게 함으로써 이러한 틈새시장을 공략할 수 있을 것입니다.

교육

교육 분야 또한 이 기술이 번성할 수 있는 또 다른 분야입니다. 교육 현장에서는 이러한 기기들을 개인 맞춤형 학습 도우미로 활용할 수 있습니다. 이미 일부 분야에서는 이러한 활용 사례가 있습니다. 보고서 연구 결과에 따르면 로봇 기반 수업을 통해 학생들의 수학 이해도가 30% 향상된 것으로 나타났습니다.

입양 일정

향후 5~10년 안에 이러한 기술이 일상생활에 점차 스며들 것으로 예상됩니다. 로봇은 이미 많은 공장과 작업장에 도입되어 있으며, 그 통합은 앞으로 더욱 가속화될 것으로 전망됩니다. 로봇 공학자들은 이러한 유형의 기술을 통합함으로써 로봇을 더욱 사용자 친화적으로 만들 수 있다는 점을 잘 알고 있습니다.

컬럼비아 대학교 주요 연구진

이 연구는 Columbia의 Creative Machines Lab에서 주최했습니다. 이 논문에는 Yuhang Hu, Jiong Lin, Jewish Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyan Chen 및 Hod Lipson이 기여자로 나열되어 있습니다.

인간형 로봇의 미래는 어떻게 될까요?

이제 팀은 알고리즘을 더욱 완벽하게 만드는 데 집중할 것입니다. 이 단계에는 더 많은 사람의 개입이 필요하며, 나아가 실시간 학습이 가능하고 중앙 집중식 모델과 데이터를 공유할 수 있는 여러 개의 개별 장치로 발전할 수도 있습니다.

로봇 혁신에 투자하기

로봇 산업은 지난 5년간 급격한 성장을 경험한 빠르게 변화하는 분야입니다. LLM(레이어 레이저 모듈)과 3D 프린터와 같은 신기술의 도입은 혁신을 새로운 차원으로 끌어올리는 데 기여했습니다. 더 넓은 시장 기회에 대한 종합적인 정보를 원하시면 저희 가이드를 참조하십시오. 2026년 물리적 AI 및 휴머노이드 로봇 투자.

이러한 혁명의 선두에 서온 기업 중 하나를 소개합니다.

테라 딘 ($36억)

테라다인 주식회사 (TER -0.58 %) 테라다인은 협동 로봇(코봇) 시장 선두 기업인 유니버설 로봇(UR)의 모회사입니다. 테라다인은 인간형 얼굴을 제작하지는 않지만, 컬럼비아 연구에서 설명된 "관찰 및 학습" 인공지능을 공장 현장에 도입하는 데 있어 현재 선두 주자입니다.

무엇보다 중요한 것은 테라다인이 엔비디아와 전략적 파트너십을 맺었다는 점입니다. (NVDA -2.17 %) "아이작 매니퓰레이터" 플랫폼을 통합합니다. 이를 통해 테라다인의 로봇은 AI 카메라를 사용하여 주변 환경을 "인지"하고, 마치 에모 로봇이 입술 움직임을 조절하는 것처럼 경로를 동적으로 조정할 수 있습니다. 이는 기존의 경직된 사전 작성 코드에 의존하는 것과는 대조적입니다.

테라다인 주식회사 (TER -0.58 %)

2026년 실적 및 가치 평가: 테라다인은 로봇 산업 분야에서 "우량주"로 널리 인정받고 있습니다. 이 회사의 주가는 2025년에 거의 50% 급등했으며, 2026년 초에도 상승세를 이어가며 230달러 부근에서 거래되고 있습니다.

투자자 경고: 상승세는 강하지만, 분석가들은 현재 TER이 높은 밸류에이션 프리미엄(70배 이상의 주가수익비율)에 거래되고 있다고 지적합니다. 이 주식은 AI 통합이 제조업 분야에서 대규모 하드웨어 업그레이드 사이클을 촉발할 것이라는 기대에 기반하고 있지만, 존디어(Deere)나 캐터필러(Caterpillar)와 같은 전통적인 산업주에 비해 변동성 위험이 상당히 높습니다.

맺음말

실감나는 로봇 얼굴의 도입은 매우 타당합니다. LLM(언어 학습 로봇)은 이제 인간의 음성을 모방할 수 있으며, 여기에 실감나는 얼굴 표정을 더하면 훈련, 학습, 의료 등 다양한 분야에서 새로운 차원의 활용이 가능해질 것입니다. 당분간 연구팀은 미흡한 부분을 보완하고 전략적 파트너 및 자금 확보에 집중할 계획입니다.

다른 멋진 로봇 기술의 혁신에 대해 알아보세요 여기에서 확인하세요.

참고자료

1. 후 유항 et al.인간형 얼굴 로봇을 위한 사실적인 입술 움직임 학습. 과학 ^로봇공학 11, eadx3017 (2026). DOI:10.1126/scirobotics.adx3017

데이비드 해밀턴

데이비드 해밀턴(David Hamilton)은 전업 저널리스트이자 오랜 비트코인 전문가입니다. 그는 블록체인에 대한 기사 작성을 전문으로 합니다. 그의 기사는 다음을 포함한 여러 비트코인 출판물에 게재되었습니다. Bitcoinlightning.com

증권.io

인공지능 기반 로봇, 인간의 입술 움직임 학습

로봇공학

인공지능 기반 로봇, 인간의 입술 움직임 학습

차례