Connect with us

Robótica

Robôs Movidos a IA Aprendem Movimento Labial Humano

mm
Uncanny Robots that Sing and Speak Like Humans 1

Engenheiros da Columbia criaram um robô capaz de imitar e aprender movimentos labiais humanos durante a fala. O design atualizado combina robótica avançada com IA, permitindo que o dispositivo — chamado Emo — aprenda observando expressões humanas e replique emoções humanas quando apropriado. Aqui está o que você precisa saber.

Resumo: Engenheiros da Columbia desenvolveram um robô humanoides movido a IA capaz de aprender movimentos labiais humanos realistas por meio da observação, melhorando drasticamente a sincronização da fala e a expressão emocional.

Por Que Robôs Humanoides Desencadeiam o Vale da Estranheza

Desde os primeiros dias da robótica, houve uma busca para criar robôs humanoides. Essa tarefa é muito mais fácil de ser dita do que feita, pois engenheiros robóticos continuamente fizeram avanços nessa direção, mas nunca alcançaram completamente seu objetivo de criar um dispositivo que se pareça e se sinta como um ser humano.

Qualquer pessoa que tenha estado ao redor, mesmo dos robôs humanoides mais básicos, pode atestar a sensação de desconforto que os dispositivos causam em termos de sua capacidade de se misturar como humanos. As mínimas imprecisões, como movimentos oculares ou expressões faciais não naturais, podem criar essa sensação nos observadores.

O Vale da Estranheza

O robótico japonês Masahiro Mori notou esse fenômeno nos anos 70. Em seu agora famoso ensaio “Bukimi no Tani Gensho” (Vale da Estranheza), ele entra em detalhes sobre o conceito. O artigo descreve como robôs humanoides sempre alcançam um ponto de desconexão aguda com seus observadores devido a falhas sutis.

Em 1978, o termo entrou nos círculos científicos ocidentais por meio do livro “Robots: Fact, Fiction, and Prediction“, de Jasia Reichardt, que traduziu o termo para seu uso popular atual, “vale da estranheza”. Esse trabalho constrói sobre a discussão de Mori, descrevendo como as menores diferenças podem causar reações adversas na conexão do observador.

Rostos Humanos São a Parte Mais Difícil da Equação

Ao longo das últimas décadas, vários marcos foram alcançados na criação de robôs humanoides. Nova tecnologia, como LLMs, torna possível para esses dispositivos se comunicarem usando linguagem natural, ajudando a preencher a lacuna. No entanto, uma das maiores áreas que ainda requer muita atenção é o rosto humano.

Robôs Estranhos que Cantam e Falam como Humanos

O rosto humano é uma mistura complexa de tecido, nervos e músculos capaz de demonstrar milhares de expressões diferentes, muitas das quais ajudam a comunicar sentimentos aos outros. Dessa forma, o rosto é visto como o dispositivo de comunicação definitivo.

Engenheiros robóticos há muito tempo reconheceram a importância e a dificuldade de criar rostos robóticos que operem como humanos. Através de anos de trabalho árduo, os robôs conseguiram obter rostos com aparência humana, com pele e expressões. No entanto, apesar de bilhões em pesquisa, a conexão ainda falta.

Deslize para rolar →

Recursos Rosto Humano Robôs Humanoides Tradicionais Sistema de Lábios da Columbia com IA
Complexidade Muscular 30+ músculos faciais com movimento contínuo Motores limitados com restrições rígidas 26 motores com articulação de silicone macio
Sincronização Lábios-Áudio Naturalmente sincronizados durante a fala Movimentos pré-definidos, frequentemente atrasados Aprendido dinamicamente via visão-para-ação IA
Expressão Emocional Micro-expressões sutis e conscientes do contexto Expressões mínimas ou exageradas Sinais labiais e faciais coerentes emocionalmente
Adaptabilidade Aprende continuamente por meio da interação Bibliotecas de movimento estáticas Auto-aperfeiçoamento por meio do aprendizado observacional
Efeito do Vale da Estranheza Nenhum Desconforto do observador alto Resposta estranha significativamente reduzida

A Importância dos Lábios na Comunicação

Robóticos continuamente esbarraram em um problema significativo ao criar dispositivos humanoides — é quase impossível recriar o movimento labial. Seus lábios fazem mais do que direcionar o som da sua voz e ajudam a pronunciar palavras.

Seus lábios realmente exibem emoção em um nível sutil, que, através de milênios de evolução, se tornou vital para a comunicação humana. Notavelmente, os movimentos labiais são uma das características mais focadas do seu rosto durante conversas. Consequentemente, seu cérebro dedica mais poder de pensamento a esses gestos do que a outras ações, como franzir a testa ou piscar.

Lábios de Robôs Parecem Não Naturais

Apesar de robôs ganharem a capacidade de parecer quase humanos, eles ainda carecem em termos de expressão facial labial. Décadas de pesquisa provaram que a tecnologia não existe para alcançar a sincronização labial-áudio adequada necessária para criar comportamento realista. Como tal, robôs sempre parecem ter suas conversas dubladas em vez de faladas. Esse efeito de voz dublada faz com que esses dispositivos pareçam desajeitados e sem vida.

Atentamente, rostos humanos dependem de dezenas de músculos para criar respostas emocionais, e lábios robóticos não têm esse nível de complexidade ainda. Isso exigiria um novo tipo de design para alcançar esse nível de complexidade. Além disso, a maioria dos movimentos labiais robóticos são movimentos pré-definidos definidos para corresponder a transmissões vocais específicas, em vez de movimentos projetados para criar a palavra naturalmente. Como robôs não estão realmente produzindo o som com os lábios, os movimentos parecem não naturais e estranhos.

Estudo da Columbia: Ensinar Robôs Movimento Labial Realista

Felizmente, uma equipe de engenheiros da Columbia pode ter descoberto como cruzar o vale da estranheza. O estudo “Aprendizado de movimentos labiais realistas para robôs faciais humanoides¹” apresenta um novo tipo de rosto robótico que se concentra principalmente no movimento labial e sincronização.

Hardware Especializado

Um dos principais obstáculos que a equipe teve que superar foi a rigidez dos rostos robóticos atuais. Embora tenham havido muitos novos designs que fornecem reações motorizadas na face, nenhum pode suportar a complexidade necessária para permitir movimentos labiais realistas.

Para superar essa limitação, os engenheiros usaram lábios de silicone projetados para fornecer expressão máxima. Em seguida, eles incorporaram 26 motores faciais, um transformador de ação facial e um codificador auto-variacional (VAE).

Visão-para-Ação (VLA)

No núcleo dessa quebra tecnológica está o modelo de IA visão-para-ação. Usando esse modelo, um rosto robótico pode criar lábios realistas que não dependem de configurações mecânicas pré-definidas para movimento.

Para criar o modelo, a equipe utilizou métodos de aprendizado observacional. Esse estilo de programação permite que o dispositivo determine a dinâmica labial exata durante a fala em tempo real. Como tal, o primeiro passo foi inserir o algoritmo em um pipeline de aprendizado auto-supervisionado.

Fonte - Columbia

Essa etapa exigiu que os engenheiros colocassem o rosto do robô em frente a um espelho e o instruíssem a criar milhares de faces. Essa ação permitiu que o algoritmo capturasse suas capacidades de expressão facial. Em seguida, o robô assistiu horas de conteúdo do YouTube.

A combinação de áudio e movimento labial foi cuidadosamente rastreada e usada para programar o algoritmo de IA facial do robô. Ao longo de alguns dias, ele aprendeu exatamente como seu rosto deveria parecer a partir da expressão humana, em vez de usar parâmetros de entrada. Em seguida, os engenheiros adicionaram áudio e começaram a testar.

Como o Lip-Sync IA Foi Testado em Diferentes Idiomas

A equipe testou sua teoria em 10 idiomas e contextos linguísticos diferentes. O teste usou idiomas completamente novos para o modelo, garantindo que ele teria que computar a expressão facial e o movimento labial adequados, em vez de lembrar palavras treinadas anteriormente. Interessantemente, o teste também usou contexto e canções.

Resultados do Teste de Robôs Estranhos

Os resultados do teste mostraram sincronização labial-áudio visualmente coerente em toda a parte. Notavelmente, o robô alimentado por algoritmo forneceu movimento labial realista que correspondia com precisão a várias faixas de áudio. Impressionantemente, ele sincronizou com sucesso seus movimentos labiais em 10 idiomas e até cantou uma canção de seu álbum de estreia gerado por IA, hello world_.

Notavelmente, a equipe encontrou algumas limitações na tecnologia. Por um lado, o robô não conseguiu reproduzir consistentemente movimentos labiais difíceis associados a palavras como “pop”. Ele também lutou com palavras com lábios franzidos, como “assobiar”. Atentamente, os engenheiros notaram que essas pequenas imperfeições se resolverão à medida que o algoritmo melhorar com o tempo. Esse recurso de auto-aprendizado é o melhor aspecto do algoritmo. Ele continuará a melhorar à medida que capturar mais dados de humanos com o tempo, abrindo a porta para interações humanas-máquina mais significativas no futuro.

Principais Benefícios da Robótica Humanóide Realista

Há vários benefícios que essa tecnologia traz para o mercado. Por um lado, permitirá que humanos formem uma conexão mais profunda com máquinas. A maioria das pessoas não tem consciência de quanto da comunicação ocorre por meio de expressões faciais de forma subconsciente.

Esse estudo abre a porta para tecnologia de sincronização labial e IA conversacional para criar experiências semelhantes a humanas que poderiam ajudar a combater a epidemia de solidão e mais. Usando essa tecnologia, robôs humanoides poderão dar um passo mais próximo de cruzar o vale da estranheza e impulsionar a robótica para um novo patamar.

Aplicações e Linha do Tempo no Mundo Real

Há muitas aplicações para essa tecnologia que se estendem por vários setores. O uso óbvio dessa tecnologia é ajudar a impulsionar a tecnologia robótica humanoide para frente. A capacidade de projetar faces suaves e quentes em robôs frios poderia ajudar a impulsionar a adoção. Aqui estão algumas outras aplicações para considerar.

Cuidado com Idosos

Embora não sejam considerados as pessoas mais tecnologicamente avançadas, os idosos começaram a abraçar a robótica em um nível completamente novo. O mercado de robôs assistentes para cuidado com idosos está em ascensão, com estatísticas mostrando que alcançou $3,38B em 2025. Os mesmos relatórios preveem que ultrapassará $9,85B até 2033.

Os idosos estariam mais dispostos a interagir e aceitar robôs se eles não parecessem tecnologicamente complicados. Como tal, um assistente robótico que pudesse se comunicar usando fala ao lado de movimentos faciais realistas poderia ser o ajuste perfeito. Pacientes idosos poderiam encontrar uma conexão ao lado da assistência necessária.

Entretenimento

A indústria do entretenimento poderia ser uma das primeiras a adotar essa tecnologia. Os cineastas dependem fortemente da robótica na indústria do entretenimento de hoje. Desde animatrônicos, como os usados em parques temáticos como a Disney, até robôs de captura de movimento usados em grandes filmes, os dispositivos impulsionaram a indústria do entretenimento para frente.

Hoje, o setor de robôs de entretenimento ultrapassa $4,72B. Esse valor é previsto crescer para $26,94B até 2034, impulsionado por uma demanda mais forte por personagens CGI realistas. No futuro próximo, essa tecnologia poderia preencher essa lacuna, permitindo que atores compartilhem seus rostos com personagens de novas e mais diretas maneiras.

Educação

O setor educacional é outro lugar onde essa tecnologia poderia prosperar. Aqui, esses dispositivos poderiam ser configurados como tutores personalizados. Já, alguns relatórios mostraram que os alunos alcançaram um aumento de 30% na compreensão de matemática usando lições adaptadas para robôs.

Linha do Tempo de Adoção

Você pode esperar ver essa tecnologia começar a filtrar na vida cotidiana dentro dos próximos 5-10 anos. Robôs já estão em muitas fábricas e locais de trabalho, com a integração prevista para aumentar. Robóticos entendem que integrar esse tipo de tecnologia pode ajudar a tornar seus dispositivos mais relacionáveis.

Principais Pesquisadores da Columbia

O estudo foi sediado pelo Laboratório de Máquinas Criativas da Columbia. O artigo lista Yuhang Hu, Jiong Lin, Judah Allen Goldfeder, Philippe M. Wyder, Yifeng Cao, Steven Tian, Yunzhe Wang, Jingran Wang, Mengmeng Wang, Jie Zeng, Cameron Mehlman, Yingke Wang, Delin Zeng, Boyuan Chen e Hod Lipson como contribuintes.

O Que Vem a Seguir para Robôs Semelhantes a Humanos

A equipe agora se concentrará em aperfeiçoar o algoritmo ainda mais. Essa etapa envolverá mais interações humanas e pode até evoluir para múltiplas unidades capazes de aprender em tempo real e compartilhar esses dados com um modelo centralizado.

Investindo em Inovação Robótica

A indústria robótica é um setor de rápido crescimento que experimentou um forte crescimento nos últimos 5 anos. A introdução de novas tecnologias, como LLMs e impressoras 3D, ajudou a impulsionar a inovação para novos níveis. Para uma visão abrangente das oportunidades de mercado mais amplas, leia nosso guia sobre investir em IA Física e robôs humanoides em 2026.

Aqui está uma empresa que esteve à frente dessa revolução.

Teradyne ($36B)

Teradyne, Inc. (TER ) é a empresa-mãe da Universal Robots (UR), líder de mercado em “cobot” (robôs colaborativos). Embora Teradyne não construa faces humanoides, é atualmente o principal jogador na introdução do “assistente de aprendizado” IA descrito no estudo da Columbia para o chão de fábrica.

Crucialmente, Teradyne formou uma parceria estratégica com a Nvidia (NVDA ) para integrar a plataforma “Isaac Manipulator”. Isso permite que os robôs da Teradyne usem câmeras de IA para “ver” seu ambiente e ajustar dinamicamente seu caminho — muito como o robô Emo aprende a ajustar seus lábios — em vez de confiar em código rígido e pré-escrito.

(TER )

Desempenho e Valuação em 2026: Teradyne é amplamente considerada uma ação “blue chip” de robótica. Seus títulos dispararam quase 50% em 2025 e continuaram a crescer no início de 2026, negociando perto da faixa de $230.

Aviso ao Investidor: Embora o momentum seja forte, os analistas observam que TER está atualmente negociando a um prêmio de valorização alto (acima de 70x P/E). A ação é uma aposta de que a integração de IA acionará um grande ciclo de atualização de hardware na fabricação, mas carrega um risco de volatilidade significativo em comparação com ações industriais tradicionais como Deere ou Caterpillar.

Últimas Notícias e Desempenho da Teradyne (TER)

Conclusão

A introdução de rostos robóticos realistas faz perfeito sentido. LLMs agora são capazes de replicar a fala humana, e quando combinados com expressões faciais realistas, esses dispositivos fornecerão um novo nível de treinamento, aprendizado, saúde e mais. Por agora, a equipe se concentrará em resolver imperfeições e encontrar parceiros estratégicos e financiamento.

Aprenda sobre outras quebras de robótica legais aqui.

Referências

1. Yuhang Hu et al., Aprendizado de movimentos labiais realistas para robôs faciais humanoides. Ciência Robótica 11, eadx3017 (2026). DOI:10.1126/scirobotics.adx3017

David Hamilton é um jornalista em tempo integral e um bitcoinista de longa data. Ele se especializa em escrever artigos sobre blockchain. Seus artigos foram publicados em várias publicações de bitcoin, incluindo Bitcoinlightning.com

Advertiser Disclosure: Securities.io is committed to rigorous editorial standards to provide our readers with accurate reviews and ratings. We may receive compensation when you click on links to products we reviewed. ESMA: CFDs are complex instruments and come with a high risk of losing money rapidly due to leverage. Between 74-89% of retail investor accounts lose money when trading CFDs. You should consider whether you understand how CFDs work and whether you can afford to take the high risk of losing your money. Investment advice disclaimer: The information contained on this website is provided for educational purposes, and does not constitute investment advice. Trading Risk Disclaimer: There is a very high degree of risk involved in trading securities. Trading in any type of financial product including forex, CFDs, stocks, and cryptocurrencies. This risk is higher with Cryptocurrencies due to markets being decentralized and non-regulated. You should be aware that you may lose a significant portion of your portfolio. Securities.io is not a registered broker, analyst, or investment advisor.