Inteligencia artificial

Apple Asegura que su ReALM Supera a GPT‑4 en Capacidades

Publicado el 3 de abril de 2024

Actualizado el 2 de junio de 2026

Por

Gaurav Roy

Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

Claude 3 Opus recientemente derrocó a GPT 4 como el LLM más avanzado. Mientras tanto, investigadores de Apple presentaron ReALM, poco después de la noticia de que Gemini de Google está impulsando el iPhone, lo que causó gran revuelo. El artículo de investigación, titulado “ReALM: Reference Resolution As Language Modeling”, lo promociona como un sistema de IA de vanguardia que promete redefinir cómo los asistentes de voz comprenden y responden a las consultas de los usuarios.

La diferencia entre ReALM y otros sistemas radica en su integración fluida de la resolución de referencias en la estructura de la comprensión del lenguaje. Este es un enfoque innovador dado el diseño actual de los sistemas basados en grandes modelos de lenguaje, y ayuda a mejorar la comprensión del contexto por parte del modelo al tiempo que establece un nuevo referente para la interacción entre IA e interfaces gráficas de usuario.

Basado en los resultados de la investigación, está diseñado para ayudar a ingenieros de LLM y gerentes de productos de herramientas de IA a lograr interacciones de usuario más intuitivas y conscientes del contexto. ReALM también facilita la integración de la entrada textual con el contexto visual, ampliando así el potencial para mejorar las habilidades de los asistentes digitales en numerosas aplicaciones.

Enfoque Innovador de ReALM para la Resolución de Referencias en NLP

Todos los sistemas de NLP dependen de la “resolución de referencias”, un proceso para identificar y enlazar referencias ambiguas pero contextuales, como pronombres o descripciones indirectas, por ejemplo “ellos” o “eso”, con las entidades correctas dentro de una conversación o contexto visual para mantener interacciones de usuario coherentes.

Los sistemas de IA tradicionales dependen de métodos basados en reglas o heurísticas para la resolución de referencias, lo que no produce los resultados deseados al intentar capturar la complejidad completa del lenguaje natural. Como resultado, el contexto visual, como las entidades en pantalla, ha sido difícil de integrar en la resolución mediante estos métodos. Los asistentes de voz como Siri también caen en las mismas limitaciones que ReALM aborda al tratarlo como un problema de modelado del lenguaje.

ReALM aprovecha los LLM para comprender y resolver referencias ambiguas dentro del contexto más amplio de la conversación, en lugar de usar reglas o heurísticas. Cuando se incluye contexto visual, reconstruye la pantalla del dispositivo mediante representaciones textuales y registra las conexiones espaciales entre los componentes en pantalla.

Dirigido por Joel Ruben Antony Moniz, el equipo de investigadores afirma:

“Hasta donde sabemos, este es el primer trabajo que utiliza un Modelo de Lenguaje Grande que pretende codificar el contexto de una pantalla.”

¿Resultado? Los asistentes de voz impulsados por ReALM pueden comprender consultas como “Toca el botón en la esquina superior derecha” y “Abre el segundo artículo de la lista”, con las que los sistemas de IA estándar tienen dificultades.

Esto hace que el método de resolución de referencias de ReALM sea más eficiente e ideal para el procesamiento en el dispositivo, ya que puede resolver referencias localmente, a diferencia de los sistemas de IA basados en la nube que requieren transmisión continua de datos. Por ello, se adapta mejor a Siri gracias a una mayor privacidad, menor latencia y funcionamiento sin conexión.

Haga clic aquí para obtener una lista de las cinco mejores extensiones de ChatGPT.

Recopilación y Evaluación del Conjunto de Datos

El equipo de investigación de Apple creó un conjunto de datos diverso que abarca datos conversacionales, en pantalla y sintéticos para evaluar exhaustivamente la capacidad de ReALM de manejar la complejidad de las interacciones de usuarios del mundo real en comparación con sus alternativas. Para ello, el equipo recopiló un conjunto de datos diverso que incluye datos conversacionales, en pantalla y sintéticos.

Los datos conversacionales se generaron mostrando a trabajadores de crowdsourcing imágenes con listas sintéticas y pidiéndoles que enviaran consultas claras relacionadas con elementos específicos de esas listas. El conjunto de datos en pantalla se sometió a un proceso de anotación de dos fases que garantizó que el modelo pudiera manejar la complejidad de páginas web reales. Este proceso incluyó la clasificación de los objetos visibles, la generación de consultas y el establecimiento de conexiones entre las consultas y las entidades a las que se refieren.

Resultados de Rendimiento Impresionantes

Los resultados de la evaluación muestran el rendimiento notable de ReALM en todos los conjuntos de datos. En comparación con MARRS, un sistema de referencia de resolución de vanguardia anterior, ReALM logra mejoras significativas en precisión. Cabe destacar que incluso el modelo ReALM más pequeño obtiene ganancias absolutas de más del 5 % en el desafiante conjunto de datos en pantalla, demostrando su capacidad para comprender y resolver referencias de manera eficaz en contextos visuales complejos.

Para evaluar más a fondo las capacidades de ReALM, los investigadores lo compararon con los modelos GPT‑3.5 y GPT‑4 de OpenAI. De manera impresionante, el modelo ReALM más pequeño funciona a la par con GPT‑4 a pesar de tener órdenes de magnitud menos parámetros. A medida que aumenta el tamaño del modelo, el rendimiento de ReALM sigue mejorando, y los modelos más grandes superan sustancialmente a GPT‑4 en los conjuntos de datos evaluados.

La tabla a continuación muestra un resumen de los resultados de rendimiento, resaltando la superioridad de ReALM sobre los enfoques existentes y su competitividad con los modelos de lenguaje de última generación.

Precisión del modelo para diferentes conjuntos de datos

La Clave del Éxito: Codificación Óptima de la Pantalla

Como es evidente, el enfoque de codificación de pantalla optimizada de ReALM es un factor crítico que contribuye a su impresionante rendimiento. Además, los investigadores exploraron varias estrategias antes de llegar al algoritmo final, que resultó ser el más eficaz.

Uno de los intentos iniciales consistió en agrupar los elementos de la pantalla e incluir todos los demás elementos en el contexto de cada entidad. Sin embargo, esto provocó que la longitud de los prompts creciera rápidamente a medida que aumentaba el número de entidades en pantalla, lo que lo hacía poco práctico para aplicaciones del mundo real.

Otro enfoque consistió en etiquetar las entidades en el análisis textual de la pantalla, pero proporcionándolas por separado del contexto principal. Aunque este método parecía prometedor, los investigadores descubrieron que inyectar directamente las etiquetas en el propio análisis producía los mejores resultados.

El enfoque final de “codificación inyectada en pantalla”, tal como se describe en el artículo, funciona ordenando los centros de los elementos de la pantalla de arriba a abajo y luego de izquierda a derecha. Los elementos dentro de un margen vertical especificado se agrupan en la misma “línea” en la representación textual, y los elementos en la misma línea se separan con tabulaciones. Este ingenioso esquema de codificación permite a ReALM aproximar el diseño 2D de la pantalla en un formato textual 1D, habilitando al modelo para comprender eficazmente las relaciones espaciales entre las entidades.

Los experimentos de ablación realizados por los investigadores confirmaron la superioridad de este enfoque de codificación optimizada, como se muestra en la figura a continuación:

Mejoras de rendimiento con cada experimento de codificación

Manejo de Casos de Uso Complejos

El artículo ofrece varios ejemplos cualitativos que demuestran la capacidad de ReALM para manejar casos de uso complejos que requieren diversas formas de razonamiento, incluyendo comprensión semántica, resumen, conocimiento del mundo y razonamiento de sentido común.

En un ejemplo interesante compartido por el equipo, ReALM resuelve correctamente la consulta “Llamar al número de la tarde” al número de teléfono listado bajo “5 p.m. – 9 p.m.” cuando se le muestra una pantalla con información de contacto tanto de la mañana como de la tarde. Aunque suene como un resultado lógico, es una demostración impresionante de sus capacidades, ya que ReALM comprendió con éxito el significado de “tarde” y lo asignó al rango horario apropiado, algo que aún no se ha materializado en otros sistemas de IA.

Otro ejemplo de entrada incluyó una pantalla que mostraba fechas límite de impuestos, y el modelo identificó con éxito la fecha de presentación de abril como la fecha límite relevante cuando se le pidió establecer un recordatorio para imprimir documentos antes de la fecha de vencimiento del impuesto.

Estos ejemplos cualitativos refuerzan las observaciones realizadas sobre la versatilidad de ReALM y su potencial para manejar una amplia gama de escenarios del mundo real que requieren una comprensión profunda del lenguaje y capacidades de razonamiento.

Ventajas Sobre los Enfoques de Extremo a Extremo

Aunque los enfoques de extremo a extremo que dependen únicamente de LLM masivos han mostrado resultados prometedores en diversas tareas de comprensión del lenguaje, los investigadores destacan varias ventajas de la arquitectura de ReALM:

Ejecutar un modelo completo de extremo a extremo en el dispositivo por razones de latencia y privacidad sería inviable con los modelos actuales debido a limitaciones computacionales y de memoria. Al usar un modelo más pequeño y afinado, específicamente diseñado para la resolución de referencias, ReALM evita estos problemas y permite un procesamiento eficiente en el dispositivo.

Además, la arquitectura modular de ReALM permite una integración fluida con los componentes existentes de detección de entidades y finalización de tareas en los flujos de trabajo de IA conversacional. En contraste, un modelo de extremo a extremo requeriría cambios sustanciales en todo el flujo, lo que lo hace más difícil de adoptar en sistemas del mundo real.

Escalabilidad a Nuevos Tipos de Entidades

Una de las principales fortalezas de ReALM es su escalabilidad a nuevos tipos de entidades. A diferencia de enfoques en tubería anteriores como MARRS, que dependían de lógica específica de tipo definida manualmente, el enfoque basado en LLM de ReALM puede generalizar fácilmente a dominios no vistos.

Los investigadores demuestran esta ventaja evaluando a ReALM en un tipo de entidad “alarma” no visto previamente. De manera impresionante, ReALM iguala el rendimiento zero‑shot de GPT‑4 al resolver con precisión consultas como “Apagar la que me recuerda recoger a Didi” a la entidad de alarma correspondiente. Esto muestra la capacidad del modelo para aprovechar su comprensión del lenguaje y manejar nuevos tipos de entidades sin requerir datos de entrenamiento explícitos.

La tabla a continuación muestra la comparación de rendimiento entre ReALM y GPT‑4 en el conjunto de datos “alarma” no visto, resaltando las sólidas capacidades de generalización zero‑shot de ReALM:

Rendimiento en el conjunto de datos de alarma no visto

Posibilidades Futuras y Limitaciones

Aunque ReALM ofrece un progreso sustancial en aspectos importantes como la resolución de referencias para IA conversacional, el equipo de investigación señaló algunas limitaciones que vale la pena comprender.

Sin embargo, una desventaja importante del sistema es que convertir el diseño de pantalla 2D en una representación textual 1D conlleva la pérdida de detalles espaciales intrincados. El equipo propuso el uso de estrategias de codificación más avanzadas, como representar los componentes de la pantalla de forma similar a una cuadrícula, para mantener ubicaciones relativas más precisas.

Otra posible mejora futura es potenciar la capacidad de ReALM para manejar referencias más complejas y diversas, incluidas aquellas que involucren asociaciones temporales o jerárquicas entre entidades.

A pesar de estas limitaciones, el impresionante rendimiento y el diseño escalable de ReALM lo convierten en una base muy prometedora para futuros estudios y desarrollos en el ámbito de la IA conversacional.

Reflexiones Finales

La capacidad de ReALM para cerrar la brecha entre la entrada textual y el contexto visual allanará el camino hacia interfaces de usuario más intuitivas y conscientes del contexto. Los ingenieros y desarrolladores de LLM podrán crear sistemas de IA que comprendan y respondan verdaderamente a las intenciones de los usuarios, incluso al tratar con elementos complejos en pantalla.

Desde un punto de vista puramente técnico, la arquitectura modular de ReALM y sus capacidades de procesamiento en el dispositivo son particularmente valiosas, ya que no solo abordan problemas de privacidad y latencia del usuario, sino que también establecen un precedente para sistemas de IA más escalables, eficientes e integrados.

En términos sencillos, el éxito de ReALM al manejar casos de uso complejos y su capacidad para generalizar a nuevos tipos de entidades indica que nuestra comprensión de lo que es posible actualmente con la IA conversacional ha cambiado por completo. Podría acelerar la tasa de adopción de IA, algo algo estancada, en industrias que van desde el servicio al cliente y el comercio electrónico hasta la salud y la educación.

Haga clic aquí para aprender todo sobre la inversión en inteligencia artificial.

Gaurav Roy

Gaurav comenzó a operar con criptomonedas en 2017 y se enamoró del espacio cripto desde entonces. Su interés en todo lo relacionado con criptomonedas lo convirtió en un escritor especializado en criptomonedas y blockchain. Pronto se encontró trabajando con empresas de criptomonedas y medios de comunicación. También es un gran fanático de Batman.