Intelligenza artificiale
Apple afferma che il suo ReALM supera GPT-4 in capacità

Claude 3 Opus recentemente ha spodestato GPT 4 come il LLM più avanzato. Nel frattempo, i ricercatori di Apple hanno presentato ReALM, poco dopo le notizie che Gemini di Google sta alimentando l’iPhone ha fatto notizia. Il documento di ricerca, intitolato “ReALM: Reference Resolution As Language Modeling,” lo presenta come un sistema AI all’avanguardia che promette di ridefinire il modo in cui gli assistenti vocali comprendono e rispondono alle richieste degli utenti.
La differenza tra ReALM e gli altri sistemi risiede nella sua integrazione fluida della risoluzione dei riferimenti nel tessuto della comprensione del linguaggio. Questo è un approccio innovativo data l’attuale progettazione dei sistemi basati su grandi modelli linguistici, e aiuta a migliorare la comprensione del contesto da parte del modello, stabilendo al contempo un nuovo punto di riferimento per l’interazione tra IA e interfacce grafiche.
Basandosi sui risultati della ricerca si prevede che aiuti gli ingegneri LLM e i product manager di strumenti AI a ottenere interazioni utente più intuitive e consapevoli del contesto. ReALM facilita anche l’integrazione dell’input testuale con il contesto visivo, ampliando così il potenziale per migliorare le capacità degli assistenti digitali in molte applicazioni.
L’approccio innovativo di ReALM alla risoluzione dei riferimenti NLP
Tutti i sistemi NLP si basano sulla “risoluzione dei riferimenti”, un processo per identificare e collegare riferimenti ambigui ma contestuali, come pronomi o descrizioni indirette, ad esempio “loro” o “quello”, alle entità corrette all’interno di una conversazione o di un contesto visivo per mantenere interazioni utente coerenti.
I sistemi AI tradizionali si basano su metodi basati su regole o euristiche per la risoluzione dei riferimenti, che non producono i risultati desiderati quando si tratta di catturare la piena complessità del linguaggio naturale. Di conseguenza, il contesto visivo, come le entità sullo schermo, è stato difficile da integrare nella risoluzione usando questi metodi. Assistenti vocali come Siri cadono anch’essi nelle stesse limitazioni che ReALM affronta trattandolo come un problema di modellazione del linguaggio.
ReALM sfrutta i LLM per comprendere e risolvere riferimenti ambigui all’interno del più ampio contesto della conversazione, anziché utilizzare regole o euristiche. Quando è coinvolto il contesto visivo, ricostruisce lo schermo del dispositivo usando rappresentazioni testuali e registrando le connessioni spaziali tra i componenti sullo schermo.
Guidato da Joel Ruben Antony Moniz, il team di ricercatori afferma:
“Per quanto ne sappiamo, questo è il primo lavoro che utilizza un Large Language Model con l’obiettivo di codificare il contesto da uno schermo.”
Risultato? Gli assistenti vocali potenziati da ReALM possono comprendere richieste come “Tocca il pulsante nell’angolo in alto a destra” e “Apri il secondo articolo nella lista”, che i sistemi AI standard faticano a gestire.
Ciò rende il metodo di risoluzione dei riferimenti di ReALM più efficiente e ideale per l’elaborazione sul dispositivo, poiché può risolvere i riferimenti localmente sul dispositivo, a differenza dei sistemi AI basati su cloud che richiedono trasmissioni continue di dati. Questo lo rende più adatto a Siri grazie a una maggiore privacy, latenza ridotta e funzionamento offline.
Clicca qui per un elenco delle cinque migliori estensioni ChatGPT.
Raccolta del dataset e valutazione
Il team di ricerca di Apple ha curato un dataset diversificato che comprende dati conversazionali, on-screen e sintetici per valutare a fondo la capacità di ReALM di gestire le complessità delle interazioni utente nel mondo reale rispetto alle alternative. Per fare ciò, il team ha curato un dataset diversificato che comprende dati conversazionali, on-screen e sintetici.
I dati conversazionali sono stati generati mostrando ai crowd worker immagini contenenti elenchi sintetici e chiedendo loro di inviare query chiare relative a elementi specifici all’interno di quegli elenchi. Il dataset on-screen è stato sottoposto a un processo di annotazione in due fasi che ha garantito che il modello potesse gestire la complessità delle pagine web reali. Questo processo includeva la classificazione degli oggetti visibili, la produzione di query e la creazione di collegamenti tra le query e le entità a cui si riferiscono.
Risultati di prestazioni impressionanti
I risultati della valutazione mostrano le prestazioni notevoli di ReALM su tutti i dataset. Rispetto a MARRS, un precedente sistema di riferimento allo stato dell’arte, ReALM ottiene miglioramenti significativi in accuratezza. In particolare, anche il modello ReALM più piccolo ottiene guadagni assoluti superiori al 5% sul difficile dataset on-screen, dimostrando la sua capacità di comprendere e risolvere efficacemente i riferimenti in contesti visivi complessi.
Per valutare ulteriormente le capacità di ReALM, i ricercatori lo hanno confrontato con i modelli GPT-3.5 e GPT-4 di OpenAI. In modo impressionante, il modello ReALM più piccolo offre prestazioni pari a quelle di GPT-4 nonostante abbia un numero di parametri di ordine di grandezza inferiore. Man mano che la dimensione del modello aumenta, le prestazioni di ReALM continuano a migliorare, con i modelli più grandi che superano di gran lunga GPT-4 sui dataset valutati.
La tabella sottostante rappresenta un riepilogo dei risultati di prestazione, evidenziando la superiorità di ReALM rispetto agli approcci esistenti e la sua competitività con i modelli linguistici allo stato dell’arte.

La chiave del successo: codifica ottimale dello schermo
Come evidente, l’approccio di codifica ottimizzata dello schermo di ReALM è un fattore critico che contribuisce alle sue prestazioni impressionanti. Inoltre, i ricercatori hanno esplorato diverse strategie prima di arrivare all’algoritmo finale, che si è rivelato il più efficace.
Uno dei tentativi iniziali prevedeva il clustering degli elementi dello schermo e l’inclusione di tutti gli altri elementi nel contesto di ciascuna entità. Tuttavia, ciò ha portato a un rapido aumento della lunghezza dei prompt man mano che il numero di entità sullo schermo aumentava, rendendolo poco pratico per le applicazioni reali.
Un altro approccio prevedeva il tagging delle entità nella rappresentazione testuale dello schermo, ma fornendole separatamente dal contesto principale. Sebbene questo metodo sembrasse promettente, i ricercatori hanno scoperto che l’iniezione diretta dei tag nella rappresentazione stessa ha prodotto i migliori risultati.
L’approccio finale di “codifica on-screen iniettata”, come descritto nel documento, funziona ordinando i centri degli elementi dello schermo dall’alto verso il basso e poi da sinistra a destra. Gli elementi entro un margine verticale specificato vengono raggruppati sulla stessa “linea” nella rappresentazione testuale, e gli elementi sulla stessa linea sono separati da tabulazioni. Questo ingegnoso schema di codifica consente a ReALM di approssimare la disposizione 2D dello schermo in un formato testuale 1D, permettendo al modello di comprendere efficacemente le relazioni spaziali tra le entità.
Gli esperimenti di ablazione condotti dai ricercatori hanno confermato la superiorità di questo approccio di codifica ottimizzata, come mostrato nella figura sottostante:

Gestione di casi d’uso complessi
Il documento fornisce diversi esempi qualitativi che mostrano la capacità di ReALM di gestire casi d’uso complessi che richiedono varie forme di ragionamento, inclusa la comprensione semantica, la sintesi, la conoscenza del mondo e il ragionamento di senso comune.
In un esempio interessante condiviso dal team, ReALM risolve correttamente la query “Chiama il numero serale” al numero di telefono elencato sotto “5 PM – 9 PM” quando viene mostrato uno schermo con informazioni di contatto sia mattutine che serali. Nonostante sembri un risultato logico, si tratta di una dimostrazione impressionante delle capacità, poiché ReALM ha compreso con successo il significato di “serale” e lo ha associato all’intervallo di tempo appropriato, cosa che altri sistemi AI non hanno ancora realizzato.
Un altro esempio di input includeva uno schermo che mostrava le scadenze fiscali, e il modello ha identificato correttamente la data di presentazione di aprile come scadenza rilevante quando gli è stato chiesto di impostare un promemoria per stampare i documenti prima della data di scadenza fiscale.
Questi esempi qualitativi rafforzano le osservazioni sulla versatilità di ReALM e sul suo potenziale nel gestire una vasta gamma di scenari reali che richiedono una profonda comprensione del linguaggio e capacità di ragionamento.
Vantaggi rispetto agli approcci end-to-end
Mentre gli approcci end-to-end basati esclusivamente su LLM massivi hanno mostrato risultati promettenti in vari compiti di comprensione del linguaggio, i ricercatori evidenziano diversi vantaggi dell’architettura di ReALM:
Eseguire un modello end-to-end completo sul dispositivo per motivi di latenza e privacy sarebbe impraticabile con i modelli attuali a causa di vincoli computazionali e di memoria. Utilizzando un modello più piccolo, fine-tuned e specificamente progettato per la risoluzione dei riferimenti, ReALM evita questi problemi e consente un’elaborazione efficiente sul dispositivo.
Inoltre, l’architettura modulare di ReALM consente un’integrazione fluida con i componenti esistenti di rilevamento delle entità e completamento dei compiti nelle pipeline di IA conversazionale. Al contrario, un modello end-to-end richiederebbe modifiche sostanziali all’intera pipeline, rendendo più difficile la sua adozione nei sistemi reali.
Scalabilità a nuovi tipi di entità
Una delle principali forze di ReALM è la sua scalabilità a nuovi tipi di entità. A differenza degli approcci a pipeline precedenti come MARRS, che si basavano su logiche specifiche di tipo definite manualmente, l’approccio basato su LLM di ReALM può facilmente generalizzare a domini non visti.
I ricercatori dimostrano questo vantaggio valutando ReALM su un tipo di entità “allarme” non visto. In modo impressionante, ReALM eguaglia le prestazioni zero-shot di GPT-4 nel risolvere con precisione query come “Spegni quello che mi ricorda di prendere didi” all’entità allarme pertinente. Questo dimostra la capacità del modello di sfruttare le sue capacità di comprensione del linguaggio per gestire nuovi tipi di entità senza richiedere dati di addestramento espliciti.
La tabella sottostante presenta il confronto delle prestazioni tra ReALM e GPT-4 sul dataset “allarme” non visto, evidenziando le solide capacità di generalizzazione zero-shot di ReALM:

Possibilità future e limitazioni
Sebbene ReALM offra progressi significativi in aspetti importanti come la risoluzione dei riferimenti per l’IA conversazionale, il team di ricerca ha segnalato alcune limitazioni che vale la pena comprendere.
Un grande svantaggio del sistema, tuttavia, è che la conversione di un layout dello schermo 2D in una rappresentazione testuale 1D comporta la perdita di dettagli spaziali intricati. Il team ha proposto l’uso di strategie di codifica più avanzate, come rappresentare i componenti dello schermo in modo simile a una griglia, per mantenere posizioni relative più accurate.
Un altro possibile miglioramento per il futuro è potenziare la capacità di ReALM di gestire riferimenti più intricati e diversificati, inclusi quelli che comprendono associazioni temporali o gerarchiche tra entità.
Nonostante queste limitazioni, le impressionanti prestazioni di ReALM e il suo design scalabile lo rendono una base molto promettente per ulteriori studi e sviluppi nel dominio dell’IA conversazionale.
Considerazioni finali
La capacità di ReALM di colmare il divario tra input testuale e contesto visivo aprirà la strada a interfacce utente più intuitive e consapevoli del contesto. Gli ingegneri LLM e gli sviluppatori potranno creare sistemi AI che comprendono davvero e rispondono alle intenzioni degli utenti, anche quando si tratta di elementi complessi sullo schermo.
Da un punto di vista puramente tecnico, l’architettura modulare di ReALM e le capacità di elaborazione sul dispositivo sono particolarmente preziose poiché non solo affrontano le problematiche di privacy e latenza degli utenti, ma stabiliscono anche un precedente per sistemi AI più scalabili, efficienti e integrati.
In termini semplici, il successo di ReALM nella gestione di casi d’uso complessi e la sua capacità di generalizzare a nuovi tipi di entità indicano che la nostra comprensione di ciò che è attualmente possibile con l’IA conversazionale è stata completamente trasformata. Potrebbe accelerare il tasso di adozione dell’IA, finora piuttosto stagnante, in settori che vanno dal servizio clienti e e‑commerce alla sanità e all’istruzione.
Clicca qui per scoprire tutto sull’investimento nell’intelligenza artificiale.












