로보틱스

AI 기반 로봇이 인간 입 움직임을 학습

게시일 2026년 1월 22일

업데이트일 2026년 5월 27일

작성자

David Hamilton

Uncanny Robots that Sing and Speak Like Humans 1

Columbia 엔지니어들이 인간의 입 움직임을 모방하고 학습할 수 있는 로봇을 만들었습니다. 업그레이드된 디자인은 첨단 로봇공학과 AI를 결합하여, Emo라는 장치가 인간 표정을 관찰하며 학습하고 적절할 때 인간 감정을 재현하도록 합니다. 알아두어야 할 내용은 다음과 같습니다.

요약: Columbia 엔지니어들이 관찰을 통해 현실적인 인간 입 움직임을 학습할 수 있는 AI 기반 인간형 로봇을 개발했으며, 이는 말 동기화와 감정 표현을 크게 개선합니다.

왜 인간형 로봇이 불쾌한 골짜기를 유발하는가

로봇공학 초기부터 인간형 로봇을 만들려는 시도가 있었습니다. 이 작업은 말처럼 쉽지 않으며, 로봇 엔지니어들은 지속적으로 진전을 이루었지만 인간처럼 보이고 느껴지는 장치를 완전히 구현하지는 못했습니다.

가장 기본적인 인간형 로봇을 접해본 사람이라면, 이 장치들이 인간처럼 섞여들 때 불편함을 느끼는 것을 알 수 있습니다. 눈 움직임이나 얼굴 표정 같은 사소한 부정확성도 관찰자에게 불편함을 야기합니다.

불쾌한 골짜기

일본 로봇공학자 마사히로 모리는 1970년대에 이 현상을 발견했습니다. 그의 유명한 “Bukimi no Tani Gensho“(불쾌한 골짜기) 논문에서 이 개념을 상세히 설명했습니다. 논문은 인간형 로봇이 미세한 결함 때문에 관찰자와 급격히 단절되는 지점을 항상 가진다고 서술합니다.

1978년, 이 용어는 자시아 라이히하트의 책 “Robots: Fact, Fiction, and Prediction,“을 통해 서구 과학계에 소개되었으며, 현재 널리 쓰이는 “uncanny valley”(불쾌한 골짜기)라는 표현으로 번역되었습니다. 이 작업은 모리의 논의를 확장하여, 가장 작은 차이조차 관찰자의 연결감에 부정적인 반응을 일으킬 수 있음을 설명합니다.

인간 얼굴이 가장 어려운 요소

지난 수십 년 동안 인간형 로봇을 만들기 위한 여러 이정표가 세워졌습니다. LLM과 같은 새로운 기술은 이러한 장치가 자연어로 소통할 수 있게 하여 격차를 메우는 데 도움을 줍니다. 그러나 여전히 가장 많은 주의가 필요한 영역은 인간의 얼굴입니다.

Uncanny Robots that Sing and Speak Like Humans

인간의 얼굴은 조직, 신경, 근육이 복합적으로 얽혀 수천 가지의 다양한 표정을 보여줄 수 있으며, 이 중 많은 표정이 감정을 전달하는 데 사용됩니다. 따라서 얼굴은 궁극적인 커뮤니케이션 장치로 여겨집니다.

로봇 엔지니어들은 인간처럼 작동하는 로봇 얼굴을 만드는 것이 얼마나 중요하고 어려운지 오래전부터 인식해 왔습니다. 수년간의 노력 끝에 로봇은 인간과 유사한 피부와 표정을 갖게 되었지만, 수십억 달러를 투자했음에도 여전히 연결감이 부족합니다.

스크롤하려면 스와이프 →

특징	인간 얼굴	전통적인 인간형 로봇	Columbia AI 입 시스템
근육 복잡성	30개 이상의 얼굴 근육이 연속적으로 움직임	제한된 모터와 경직된 제약	26개의 모터와 부드러운 실리콘 관절
입‑오디오 동기화	말할 때 자연스럽게 동기화	미리 정의된 경우가 많으며 지연되는 움직임	시각‑동작 AI를 통해 동적으로 학습
감정 표현	미세하고 상황에 맞는 마이크로표정	극소하거나 과장된 표정	감정적으로 일관된 입과 얼굴 신호
적응성	상호작용을 통해 지속적으로 학습	정적인 움직임 라이브러리	관찰 학습을 통해 자체 개선
불쾌한 골짜기 효과	없음	관찰자 불편감 높음	불쾌한 반응 크게 감소

소통에서 입의 중요성

로봇공학자들은 인간형 장치를 만들 때 가장 큰 문제 중 하나인 입 움직임 재현에 계속 부딪혀 왔습니다. 입은 단순히 목소리 소리를 조절하고 발음을 돕는 역할을 넘어섭니다.

입은 미세한 수준에서 감정을 표현하며, 수천 년의 진화 과정을 거쳐 인간 커뮤니케이션에 필수적인 요소가 되었습니다. 특히 대화 중 얼굴에서 가장 집중적으로 관찰되는 특징 중 하나가 입 움직임이며, 뇌는 이 제스처에 다른 행동보다 더 많은 사고력을 할당합니다.

로봇의 입은 부자연스럽다

로봇이 거의 인간처럼 보이게 되었음에도 입 표정에서는 여전히 부족합니다. 수십 년간의 연구에도 불구하고 현실적인 입‑오디오 동기화를 구현할 기술이 존재하지 않았습니다. 따라서 로봇은 대화를 실제로 말하기보다 더빙된 것처럼 보이게 됩니다. 이러한 더빙된 음성 효과는 장치를 어색하고 생명력이 없게 보이게 합니다.

인간 얼굴은 수십 개의 근육을 활용해 감정 반응을 만들지만, 로봇 입은 아직 그 수준의 복잡성을 갖추지 못했습니다. 이를 달성하려면 새로운 설계가 필요합니다. 또한 대부분의 로봇 입 움직임은 특정 음성 방송에 맞춰 미리 정의된 동작이며, 자연스럽게 단어를 만들기 위한 움직임이 아닙니다. 로봇이 실제로 입으로 소리를 내는 것이 아니기 때문에 움직임이 부자연스럽고 불쾌하게 느껴집니다.

Columbia 연구: 로봇에게 현실적인 입 움직임 가르치기

다행히도 Columbia 엔지니어 팀이 불쾌한 골짜기를 넘는 방법을 찾아낸 듯합니다. “Learning realistic lip motions for humanoid face robots¹” 연구는 입 움직임과 동기화에 초점을 맞춘 새로운 유형의 로봇 얼굴을 소개합니다.

전문화된 하드웨어

팀이 극복해야 했던 주요 장애물 중 하나는 오늘날 로봇 얼굴의 경직성입니다. 모터 기반 반응을 제공하는 새로운 디자인이 많이 등장했지만, 현실적인 입 움직임을 가능하게 할 복잡성을 지원하지 못했습니다.

이 한계를 극복하기 위해 엔지니어들은 최대한의 표현력을 제공하도록 설계된 실리콘 입을 사용했습니다. 그리고 26개의 얼굴 모터, 얼굴 행동 변환기, 변분 자동인코더(VAE)를 삽입했습니다.

Vision-to-Action (VLA)

이 기술 혁신의 핵심은 시각‑동작 AI 모델입니다. 이 모델을 사용하면 로봇 얼굴이 미리 정의된 기계적 설정에 의존하지 않고 현실적인 입을 자율적으로 만들 수 있습니다.

모델을 만들기 위해 팀은 관찰 학습 방식을 활용했습니다. 이 프로그래밍 방식은 장치가 실시간으로 말할 때 정확한 입 역학을 파악하도록 합니다. 따라서 첫 단계는 알고리즘을 자체 지도 학습 파이프라인에 투입하는 것이었습니다.

Source - Columbia

이 단계에서는 엔지니어가 로봇 얼굴을 거울 앞에 두고 수천 개의 얼굴을 만들도록 지시했습니다. 이 행동을 통해 알고리즘이 얼굴 표정 능력을 포착할 수 있었습니다. 이후 로봇은 YouTube 콘텐츠를 수시간 동안 시청했습니다.

오디오와 입 움직임의 조합은 신중히 추적되어 로봇의 입 AI 알고리즘을 프로그래밍하는 데 사용되었습니다. 며칠에 걸쳐 인간 표현을 기반으로 얼굴이 어떻게 보여야 하는지를 정확히 학습했으며, 입력 파라미터 대신 인간 데이터를 활용했습니다. 엔지니어들은 이후 오디오를 추가하고 테스트를 시작했습니다.

다양한 언어에서 Lip‑Sync AI 테스트 방법

팀은 10개의 서로 다른 언어와 언어적 맥락에서 이론을 검증했습니다. 테스트는 모델에 완전히 새로운 언어를 사용했으며, 이는 사전에 학습된 단어를 떠올리는 것이 아니라 적절한 얼굴 표정과 입 움직임을 계산해야 함을 의미했습니다. 흥미롭게도 테스트에는 상황과 노래도 포함되었습니다.

불쾌한 로봇 테스트 결과

테스트 결과는 전반적으로 시각적으로 일관된 입‑오디오 동기화를 보여주었습니다. 특히 알고리즘 기반 로봇은 여러 오디오 클립과 정확히 일치하는 현실적인 입 움직임을 제공했습니다. 인상적으로, 10개 언어 전부에서 입 움직임을 동기화했으며 AI가 생성한 데뷔 앨범 hello world_의 노래까지 부를 수 있었습니다.

하지만 팀은 기술에 몇 가지 제한점도 발견했습니다. 예를 들어, “pop”과 같은 단어에 필요한 강한 입 움직임을 일관되게 재현하지 못했으며, “whistle”과 같은 입을 오므리는 단어에서도 어려움을 겪었습니다. 엔지니어들은 이러한 작은 불완전함이 알고리즘이 시간이 지남에 따라 개선되면서 스스로 해결될 것이라고 언급했습니다. 이 자체 학습 기능이 알고리즘의 가장 큰 장점이며, 인간으로부터 더 많은 데이터를 지속적으로 수집함에 따라 계속 향상될 것입니다.

현실적인 인간형 로봇의 주요 이점

이 기술이 시장에 가져다줄 이점은 여러 가지입니다. 첫째, 인간과 기계 사이의 연결을 더욱 깊게 만들 수 있습니다. 대부분의 사람들은 얼굴 표정을 통한 무의식적인 커뮤니케이션이 얼마나 큰 비중을 차지하는지 잘 모릅니다.

이 연구는 입 동기화 기술과 대화형 AI가 인간과 같은 경험을 창출하여 외로움 문제 등을 해결할 가능성을 열어줍니다. 이 기술을 활용하면 인간형 로봇이 불쾌한 골짜기를 한 단계 더 넘어설 수 있으며, 로봇공학을 새로운 고지대로 끌어올릴 수 있습니다.

실제 적용 분야 및 타임라인

이 기술은 여러 산업에 걸쳐 다양한 적용 가능성을 가지고 있습니다. 가장 명백한 활용은 인간형 로봇 기술을 앞당기는 것입니다. 차가운 로봇에 부드럽고 따뜻한 얼굴을 투사할 수 있다면 채택을 촉진할 수 있습니다. 다음은 생각해볼 만한 다른 적용 사례들입니다.

노인 돌봄

기술에 가장 익숙하지 않은 사람들일지라도, 노인들은 새로운 수준으로 로봇을 받아들이기 시작했습니다. 노인 돌봄 보조 로봇 시장은 성장 중이며, 통계에 따르면 2025년에 33억 8천만 달러에 달했습니다. 같은 보고서는 2033년까지 98억 5천만 달러를 넘어설 것으로 예측합니다.

노인들은 로봇이 기술적으로 복잡해 보이지 않을 때 더 기꺼이 상호작용하고 받아들일 것입니다. 따라서 현실적인 얼굴 움직임과 음성 대화를 겸비한 로봇 보조자는 최적의 솔루션이 될 수 있습니다. 노인 환자들은 필요한 도움과 함께 정서적 연결을 찾을 수 있습니다.

엔터테인먼트

엔터테인먼트 산업은 이 기술을 가장 먼저 도입할 분야 중 하나가 될 수 있습니다. 오늘날 엔터테인먼트 산업은 로봇에 크게 의존하고 있습니다. 디즈니와 같은 테마파크의 애니메트로닉스부터 주요 영화에서 사용되는 모션 캡처 로봇까지, 이러한 장치는 엔터테인먼트를 앞당겨 왔습니다.

현재 엔터테인먼트 로봇 부문은 47억 2천만 달러 규모이며, 2034년까지 269억 4천만 달러로 성장할 것으로 예상됩니다. 이는 현실적인 CGI 캐릭터에 대한 수요 증가에 힘입은 것입니다. 가까운 미래에 이 기술은 그 틈새를 메우며 배우들이 캐릭터와 보다 직접적으로 얼굴을 공유할 수 있게 할 것입니다.

교육

교육 분야 역시 이 기술이 활짝 피어날 수 있는 영역입니다. 여기서는 장치를 개인 맞춤형 튜터로 활용할 수 있습니다. 이미 일부 보고서에 따르면 로봇 기반 수업을 이용한 학생들의 수학 이해도가 30% 상승했습니다.

채택 타임라인

이 기술은 향후 5~10년 내에 일상 생활에 스며들 것으로 기대됩니다. 로봇은 이미 많은 공장과 작업 현장에 투입돼 있으며, 통합은 계속 증가할 전망입니다. 로봇공학자들은 이러한 기술을 통합하면 장치를 보다 친근하게 만들 수 있다고 이해하고 있습니다.

Columbia 주요 연구원

이 연구는 Columbia의 Creative Machines Lab에서 진행되었습니다. 논문에는 Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyuan Chen, 그리고 Hod Lipson이 기여자로 등재되었습니다.

인간형 로봇의 다음 단계는?

팀은 이제 알고리즘을 더욱 완벽하게 다듬는 데 집중할 예정입니다. 이 단계에서는 더 많은 인간 상호작용이 필요하며, 실시간으로 학습하고 중앙 모델과 데이터를 공유할 수 있는 다중 유닛으로 진화할 가능성도 있습니다.

로봇 혁신에 투자하기

로봇 산업은 지난 5년간 급격히 성장한 빠른 속도의 분야입니다. LLM과 3D 프린터와 같은 새로운 기술 도입이 혁신을 새로운 수준으로 끌어올렸습니다. 보다 포괄적인 시장 기회를 살펴보려면 2026년 물리 AI 및 인간형 로봇 투자 가이드를 읽어보세요.

다음은 이 혁신을 선도하고 있는 기업 중 하나입니다.

Teradyne ($36B)

Teradyne, Inc. (TER )는 협동 로봇(“cobots”) 시장을 선도하는 Universal Robots(UR)의 모회사입니다. Teradyne은 인간형 얼굴을 제작하지는 않지만, Columbia 연구에서 설명된 “watch-and-learn” AI를 공장 현장에 도입하는 데 현재 선두 주자입니다.

특히 Teradyne은 Nvidia (NVDA )와 전략적 파트너십을 맺어 “Isaac Manipulator” 플랫폼을 통합했습니다. 이를 통해 Teradyne의 로봇은 AI 카메라로 환경을 “보고” 입을 조정하는 Emo 로봇처럼 경로를 동적으로 조정할 수 있게 되었습니다—고정된 사전 코드에 의존하지 않습니다.

(TER )

2026 성과 및 평가: Teradyne은 “블루칩” 로봇 주식으로 널리 평가됩니다. 2025년에 주가가 거의 50% 상승했으며 2026년 초에도 230달러 근처에서 거래되고 있습니다.

투자자 경고: 모멘텀이 강하지만, 분석가들은 TER이 현재 높은 평가 프리미엄(70배 이상 P/E)으로 거래되고 있다고 지적합니다. 이 주식은 AI 통합이 제조업에서 대규모 하드웨어 업그레이드 사이클을 촉발할 것이라는 베팅이지만, 전통적인 산업 주식인 Deere나 Caterpillar에 비해 변동성 위험이 큽니다.

결론

현실적인 로봇 얼굴의 도입은 완전히 타당합니다. LLM은 이제 인간의 말을 복제할 수 있으며, 현실적인 얼굴 표정과 결합될 때 이러한 장치는 새로운 수준의 교육, 학습, 의료 및 그 이상을 제공할 것입니다. 현재 팀은 불완전함을 개선하고 전략적 파트너와 자금을 찾는 데 집중하고 있습니다.

다른 멋진 로봇 혁신에 대해 알아보려면 여기를 클릭하세요.

References

1. Yuhang Hu et al., Learning realistic lip motions for humanoid face robots. Science ^Robotics 11, eadx3017 (2026). DOI:10.1126/scirobotics.adx3017 한국어로.

David Hamilton

David Hamilton은 전임 기자이며 오랜 시간 비트코인에 관심을 가지고 있습니다. 그는 블록체인에 관한 기사를 작성하는 데 전문가입니다. 그의 기사들은 여러 비트코인 출판물에 게재되었으며, 포함된 출판물은 Bitcoinlightning.com입니다.

Securities.io

AI 기반 로봇이 인간 입 움직임을 학습

로보틱스

AI 기반 로봇이 인간 입 움직임을 학습

Table Of Contents