Inteligência artificial

Apple Alega que Seu ReALM Supera o GPT‑4 em Capacidades

Publicado em 3 de abril de 2024

Atualizado em 2 de junho de 2026

Por

Gaurav Roy

Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

Claude 3 Opus recentemente derrubou o GPT 4 como o LLM mais avançado. Enquanto isso, pesquisadores da Apple revelaram o ReALM, pouco depois da notícia de que o Gemini da Google está alimentando o iPhone fez manchetes. O artigo de pesquisa, intitulado “ReALM: Resolução de Referência como Modelagem de Linguagem”, apresenta-o como um sistema de IA de ponta que promete redefinir como assistentes de voz entendem e respondem às consultas dos usuários.

A diferença entre o ReALM e outros sistemas reside em sua integração perfeita da resolução de referência ao tecido da compreensão de linguagem. Essa é uma abordagem inovadora considerando o design atual dos sistemas baseados em grandes modelos de linguagem, e ajuda a melhorar a compreensão de contexto do modelo, ao mesmo tempo que estabelece um novo padrão para a interação entre IA e interfaces gráficas de usuário.

Com base nos resultados da pesquisa, ele está preparado para ajudar engenheiros de LLM e gerentes de produtos de ferramentas de IA a alcançar interações de usuário mais intuitivas e conscientes do contexto. O ReALM também facilita a integração da entrada textual com o contexto visual, ampliando assim o potencial de melhorar as habilidades de assistentes digitais em muitas aplicações.

Abordagem Inovadora do ReALM para Resolução de Referência em PLN

Todos os sistemas de PLN dependem da “resolução de referência”, um processo para identificar e vincular referências ambíguas porém contextuais, como pronomes ou descrições indiretas, por exemplo, “eles” ou “isso”, às entidades corretas dentro de uma conversa ou contexto visual, a fim de manter interações de usuário coerentes.

Sistemas de IA tradicionais dependem de métodos baseados em regras ou heurísticas para a resolução de referência, o que não produz os resultados desejados ao capturar toda a complexidade da linguagem natural. Como resultado, o contexto visual, como entidades na tela, tem sido difícil de integrar à resolução usando esses métodos. Assistentes de voz como a Voice assistants também caem nas mesmas limitações que o ReALM aborda ao tratá‑las como um problema de modelagem de linguagem.

O ReALM utiliza LLMs para entender e resolver referências ambíguas dentro do contexto mais amplo da conversa, em vez de usar regras ou heurísticas. Quando o contexto visual está envolvido, ele reconstrói a tela do dispositivo usando representações textuais e registrando conexões espaciais entre os componentes na tela.

Liderada por Joel Ruben Antony Moniz, a equipe de pesquisadores afirma:

“Até onde sabemos, este é o primeiro trabalho que usa um Large Language Model que tem como objetivo codificar o contexto de uma tela.”

Resultado? Assistentes de voz alimentados pelo ReALM podem compreender consultas como “Toque no botão no canto superior direito” e “Abra o segundo artigo da lista”, que sistemas de IA padrão têm dificuldade em lidar.

Isso torna o método de resolução de referência do ReALM mais eficiente e ideal para processamento no dispositivo, pois pode resolver referências localmente no aparelho, ao contrário dos sistemas de IA baseados em nuvem que exigem transmissão contínua de dados. Isso o torna mais adequado para a Siri devido à privacidade aprimorada, menor latência e funcionamento offline.

Clique aqui para uma lista das cinco melhores extensões do ChatGPT.

Coleta e Avaliação de Conjunto de Dados

A equipe de pesquisa da Apple curou um conjunto de dados diversificado, abrangendo dados conversacionais, de tela e sintéticos, para avaliar minuciosamente a capacidade do ReALM de navegar nas complexidades das interações reais dos usuários em comparação com suas alternativas. Para isso, a equipe curou um conjunto de dados diversificado que inclui dados conversacionais, de tela e sintéticos.

Os dados conversacionais foram gerados ao mostrar a trabalhadores de crowdsourcing imagens contendo listas sintéticas e solicitar que enviassem consultas claras relacionadas a elementos específicos dessas listas. O conjunto de dados de tela passou por um processo de anotação em duas fases que garantiu que o modelo pudesse lidar com a complexidade de páginas da web reais. Esse processo incluiu a classificação dos objetos visíveis, a geração de consultas e o estabelecimento de conexões entre as consultas e as entidades a que se referem.

Resultados de Desempenho Impressionantes

Os resultados da avaliação demonstram o desempenho notável do ReALM em todos os conjuntos de dados. Comparado ao MARRS, um sistema de resolução de referência de última geração anterior, o ReALM alcança melhorias significativas em precisão. Notavelmente, mesmo o menor modelo ReALM obtém ganhos absolutos de mais de 5% no desafiador conjunto de dados de tela, demonstrando sua capacidade de entender e resolver referências de forma eficaz em contextos visuais complexos.

Para avaliar ainda mais as capacidades do ReALM, os pesquisadores o compararam aos modelos GPT‑3.5 e GPT‑4 da OpenAI. De forma impressionante, o menor modelo do ReALM tem desempenho equivalente ao GPT‑4, apesar de possuir várias ordens de magnitude menos parâmetros. À medida que o tamanho do modelo aumenta, o desempenho do ReALM continua a melhorar, com os modelos maiores superando substancialmente o GPT‑4 nos conjuntos de dados avaliados.

A tabela abaixo apresenta um resumo dos resultados de desempenho, destacando a superioridade do ReALM em relação às abordagens existentes e sua competitividade com modelos de linguagem de última geração.

Model Accuracy for Different Datasets

A Chave para o Sucesso: Codificação Ótima da Tela

Como é evidente, a abordagem de codificação de tela otimizada do ReALM é um fator crítico que contribui para seu desempenho impressionante. Isso também se soma ao fato de que os pesquisadores exploraram várias estratégias antes de chegar ao algoritmo final, que se mostrou o mais eficaz.

Uma das tentativas iniciais envolveu agrupar elementos da tela e incluir todos os demais elementos no contexto de cada entidade. No entanto, isso fez com que o comprimento dos prompts aumentasse rapidamente à medida que o número de entidades na tela crescia, tornando‑o bastante impraticável para aplicações reais.

Outra abordagem consistiu em marcar entidades na análise textual da tela, mas fornecê‑las separadamente do contexto principal. Embora esse método pareça promissor, os pesquisadores descobriram que injetar diretamente as tags na própria análise produziu os melhores resultados.

A abordagem final de “codificação injetada na tela”, conforme descrita no artigo, funciona ordenando os centros dos elementos da tela de cima para baixo e, em seguida, da esquerda para a direita. Elementos dentro de uma margem vertical especificada são agrupados na mesma “linha” na representação textual, e os elementos na mesma linha são separados por tabulações. Esse esquema de codificação inteligente permite que o ReALM aproxime o layout 2D da tela em um formato textual 1D, possibilitando que o modelo compreenda efetivamente as relações espaciais entre as entidades.

Experimentos de ablação conduzidos pelos pesquisadores confirmaram a superioridade desta abordagem de codificação otimizada, como mostrado na figura abaixo:

Performance improvements with each encoding experiment

Lidando com Casos de Uso Complexos

O artigo apresenta vários exemplos qualitativos que demonstram a capacidade do ReALM de lidar com casos de uso complexos que exigem diferentes formas de raciocínio, incluindo compreensão semântica, sumarização, conhecimento de mundo e raciocínio de senso comum.

Em um exemplo interessante compartilhado pela equipe, o ReALM resolve corretamente a consulta “Ligar para o número da noite” para o número de telefone listado sob “5 PM – 9 PM” ao receber uma tela que mostra informações de contato tanto da manhã quanto da noite. Apesar de parecer um resultado lógico, isso demonstra uma capacidade impressionante, pois o ReALM compreendeu com sucesso o significado de “noite” e o mapeou para o intervalo de tempo apropriado, algo que ainda não se materializou em outros sistemas de IA.

Outro exemplo de entrada incluiu uma tela exibindo prazos fiscais, e o modelo identificou com sucesso a data de entrega de abril como o prazo relevante quando solicitado a definir um lembrete para imprimir documentos antes da data de vencimento dos impostos.

Esses exemplos qualitativos reforçam as observações feitas sobre a versatilidade do ReALM e seu potencial para lidar com uma ampla gama de cenários reais que exigem compreensão profunda da linguagem e capacidades de raciocínio.

Vantagens Sobre Abordagens End-to-End

Embora abordagens end-to-end que dependem exclusivamente de LLMs massivos tenham mostrado resultados promissores em várias tarefas de compreensão de linguagem, os pesquisadores destacam várias vantagens da arquitetura do ReALM:

Executar um modelo end-to-end completo no dispositivo por razões de latência e privacidade seria inviável com os modelos atuais devido a restrições computacionais e de memória. Ao usar um modelo menor e ajustado especificamente para resolução de referência, o ReALM evita esses problemas e permite um processamento eficiente no dispositivo.

Além disso, a arquitetura modular do ReALM permite integração perfeita com componentes existentes de detecção de entidades e conclusão de tarefas em pipelines de IA conversacional. Em contraste, um modelo end-to-end exigiria mudanças substanciais em todo o pipeline, tornando sua adoção mais desafiadora em sistemas reais.

Escalabilidade para Novos Tipos de Entidade

Um dos principais pontos fortes do ReALM é sua escalabilidade para novos tipos de entidade. Ao contrário de abordagens em pipeline anteriores, como o MARRS, que dependiam de lógica específica de tipo definida manualmente, a abordagem baseada em LLM do ReALM pode generalizar facilmente para domínios não vistos.

Os pesquisadores demonstram essa vantagem avaliando o ReALM em um tipo de entidade “alarme” não visto. De forma impressionante, o ReALM iguala o desempenho zero‑shot do GPT‑4 ao resolver com precisão consultas como “Desligar o alarme que me lembra de pegar o didi” para a entidade de alarme relevante. Isso demonstra a capacidade do modelo de aproveitar suas habilidades de compreensão de linguagem para lidar com novos tipos de entidade sem exigir dados de treinamento explícitos.

A tabela abaixo apresenta a comparação de desempenho entre o ReALM e o GPT‑4 no conjunto de dados de “alarme” não visto, destacando as fortes habilidades de generalização zero‑shot do ReALM:

Performance on Unseen Alarm Dataset

Possibilidades Futuras e Limitações

Embora o ReALM ofereça um progresso substancial em aspectos importantes como a resolução de referência para IA conversacional, a equipe de pesquisa observou algumas limitações que vale a pena compreender.

Um grande inconveniente do sistema, porém, é que converter um layout de tela 2D em uma representação textual 1D resulta na perda de detalhes espaciais intrincados. A equipe propôs o uso de estratégias de codificação mais avançadas, como representar os componentes da tela de forma semelhante a uma grade, a fim de manter localizações relativas mais precisas.

Outra melhoria potencial para o futuro é aprimorar a capacidade do ReALM de lidar com referências mais intrincadas e diversas, incluindo aquelas que envolvem associações temporais ou hierárquicas entre entidades.

Apesar dessas limitações, o desempenho impressionante e o design escalável do ReALM o tornam uma base muito promissora para estudos e desenvolvimentos futuros no domínio da IA conversacional.

Considerações Finais

A capacidade do ReALM de fechar a lacuna entre entrada textual e contexto visual abrirá caminho para interfaces de usuário mais intuitivas e conscientes do contexto. Engenheiros e desenvolvedores de LLM poderão criar sistemas de IA que realmente compreendam e respondam às intenções dos usuários, mesmo ao lidar com elementos complexos na tela.

Do ponto de vista puramente técnico, a arquitetura modular do ReALM e as capacidades de processamento no dispositivo são particularmente valiosas, pois não apenas abordam questões de privacidade e latência do usuário, mas também estabelecem um precedente para sistemas de IA mais escaláveis, eficientes e integrados.

Em termos simples, o sucesso do ReALM ao lidar com casos de uso complexos e sua capacidade de generalizar para novos tipos de entidade sinaliza que nossa compreensão do que é atualmente possível com IA conversacional foi completamente alterada. Isso pode acelerar a taxa de adoção de IA, ainda um tanto estagnada, em setores que vão desde o atendimento ao cliente e comércio eletrônico até saúde e educação.

Clique aqui para aprender tudo sobre investir em inteligência artificial.

Gaurav Roy

Gaurav começou a negociar criptomoedas em 2017 e desde então se apaixonou pelo espaço de criptomoedas. Seu interesse por tudo relacionado a criptomoedas o transformou em um escritor especializado em criptomoedas e blockchain. Em breve, ele se viu trabalhando com empresas de criptomoedas e veículos de comunicação. Ele também é um grande fã do Batman.