Kunstig intelligens
Apple hævder, at deres ReALM overgår GPT-4 i kapaciteter

Claude 3 Opus for nyligt afløste GPT 4 som den mest avancerede LLM. I mellemtiden afslørede forskere hos Apple ReALM, kort efter den nyhed at Google’s Gemini driver iPhone, som fik overskrifter. Forskningspapiret, med titlen “ReALM: Reference Resolution As Language Modeling,” præsenterer det som et banebrydende AI-system, der lover at omdefinere, hvordan stemmeassistenter forstår og svarer på brugerforespørgsler.
Forskellen mellem ReALM og andre systemer ligger i dens sømløse indvævning af referenceopløsning i sprogforskningens stof. Dette er en innovativ tilgang i betragtning af den nuværende design af store sprogmodelbaserede systemer, og det hjælper med at forbedre modellens forståelse af kontekst, samtidig med at det etablerer en ny benchmark for interaktion mellem AI og grafiske brugerflader.
Baseret på forskning resultater er den sat til at hjælpe LLM-ingeniører og produktledere for AI-værktøjer med at opnå mere intuitive og kontekstbevidste brugerinteraktioner. ReALM muliggør også integration af tekstinput med visuel kontekst, hvilket udvider potentialet for at forbedre digitale assistenters færdigheder i mange anvendelser.
ReALMs innovative tilgang til NLP-referenceopløsning
Alle NLP-systemer er afhængige af “referenceopløsning”, en proces til at identificere og forbinde tvetydige, men kontekstuelle referencer såsom pronomener eller indirekte beskrivelser, f.eks. “de” eller “det”, med de korrekte enheder inden for en samtale eller visuel kontekst for at opretholde sammenhængende brugerinteraktioner.
Traditionelle AI-systemer er afhængige af regelbaserede metoder eller heuristikker for referenceopløsning, hvilket ikke giver de ønskede resultater, når det gælder at indfange den fulde kompleksitet af naturligt sprog. Som følge heraf har visuel kontekst, såsom på-skærmen enheder, været vanskelig at integrere i opløsningen ved brug af disse metoder. Stemmeassistenter som Siri falder også for de samme begrænsninger, som ReALM adresserer ved at behandle det som et sprogmodelproblem.
ReALM udnytter LLM’er til at forstå og løse tvetydige referencer inden for den bredere kontekst af samtalen i stedet for at bruge regler eller heuristikker. Når visuel kontekst er involveret, genopbygger den enhedens skærm ved hjælp af tekstuelle repræsentationer og registrerer rumlige forbindelser mellem på-skærmen komponenter.
Ledet af Joel Ruben Antony Moniz, udtaler forskerteamet:
“Så vidt vi ved, er dette det første arbejde, der bruger en stor sprogmodel, som har til formål at kode kontekst fra en skærm.”
Resultat? ReALM-drevne stemmeassistenter kan forstå forespørgsler som “Tryk på knappen i øverste højre hjørne” og “Åbn den anden artikel i listen”, som standard AI-systemer har svært ved.
Dette gør ReALMs referenceopløsningsmetode mere effektiv og ideel til on-device behandling, da den kan løse referencer lokalt på enheden, i modsætning til skybaserede AI-systemer, der kræver løbende dataoverførsel. Dette gør den bedre egnet til Siri på grund af forbedret privatliv, latenstid og offline funktion.
Klik her for en liste over de fem bedste ChatGPT-udvidelser.
Datasamling og evaluering
Apple-forskningsholdet udarbejdede et mangfoldigt datasæt, der omfatter samtale-, på-skærm- og syntetiske data, for grundigt at vurdere ReALMs evne til at navigere i kompleksiteten af brugerinteraktioner i den virkelige verden sammenlignet med alternativerne. For at gøre dette, udarbejdede holdet et mangfoldigt datasæt, der omfatter samtale-, på-skærm- og syntetiske data.
De samtale-data blev genereret ved at vise crowd workers billeder med syntetiske lister og bede dem om at indsende klare forespørgsler, der relaterer til specifikke elementer i disse lister. På-skærm-datasættet blev underlagt en to-faset annoteringsproces, som sikrede, at modellen kunne håndtere kompleksiteten af virkelige websider. Denne proces omfattede klassificering af de synlige objekter, udarbejdelse af forespørgsler og etablering af forbindelser mellem forespørgslerne og de enheder, de refererer til.
Imponerende præstationsresultater
Evalueringsresultaterne viser den bemærkelsesværdige præstation af ReALM på tværs af alle datasæt. Sammenlignet med MARRS, et tidligere state-of-the-art referenceopløsningssystem, opnår ReALM betydelige forbedringer i nøjagtighed. Bemærkelsesværdigt er, at selv den mindste ReALM-model opnår absolutte gevinster på over 5 % på det udfordrende på-skærm-datasæt, hvilket demonstrerer dens evne til effektivt at forstå og løse referencer i komplekse visuelle kontekster.
For yderligere at vurdere ReALMs kapaciteter benchmarkede forskerne den mod OpenAI’s GPT-3.5 og GPT-4 modeller. Imponerende præsterer ReALMs mindste model på niveau med GPT-4 på trods af at have mange færre parametre. Efterhånden som modelstørrelsen øges, fortsætter ReALMs præstation med at forbedres, hvor de større modeller væsentligt overgår GPT-4 på de evaluerede datasæt.
Tabellen nedenfor viser et resumé af præstationsresultaterne, der fremhæver ReALMs overlegenhed over eksisterende tilgange og dens konkurrenceevne med state-of-the-art sprogmodeller.

Nøglen til succes: Optimal skærmkodning
Som tydeligt fremgår, er ReALMs optimerede skærmkodningsmetode en kritisk faktor, der bidrager til dens imponerende præstation. Dette tilføjer også, at forskerne udforskede flere strategier, før de nåede frem til den endelige algoritme, som viste sig at være den mest effektive.
Et af de første forsøg involverede at klynge skærmelementer og inkludere alle andre elementer i hver enheds kontekst. Dette førte dog til, at promptlængderne voksede hurtigt, efterhånden som antallet af på-skærmen enheder steg, hvilket gjorde det ret upraktisk for virkelige anvendelser.
En anden tilgang involverede at mærke enheder i den tekstuelle skærmparse, men levere dem separat fra hovedkonteksten. Selvom denne metode virker lovende, fandt forskerne, at direkte indsprøjtning af mærkerne i selve parse’en gav de bedste resultater.
Den endelige “injected on-screen encoding” tilgang, som beskrevet i papiret, fungerer ved at sortere centre af skærmelementer fra top til bund og derefter fra venstre til højre. Elementer inden for en specificeret vertikal margen grupperes på samme “linje” i den tekstuelle repræsentation, og elementer på samme linje adskilles med tabulatorer. Dette smarte kodningsskema gør det muligt for ReALM at approximere 2D-skærmlayoutet i et 1D-tekstformat, så modellen effektivt kan forstå de rumlige relationer mellem enheder.
Ablationsforsøg udført af forskerne bekræftede overlegenheden af denne optimerede kodningsmetode, som vist i figuren nedenfor:

Håndtering af komplekse brugssager
Papiret giver flere kvalitative eksempler, der viser ReALMs evne til at håndtere komplekse brugssager, der kræver forskellige former for ræsonnement, herunder semantisk forståelse, opsummering, verdensviden og sund fornuft.
I et interessant eksempel delt af teamet løser ReALM korrekt forespørgslen “Ring til aftennummeret” til telefonnummeret opført under “17.00 – 21.00”, når den får en skærm, der viser både morgen- og aftenkontaktinformation. Selvom det lyder som et logisk resultat, er dette en imponerende demonstration af kapaciteter, da ReALM med succes forstod betydningen af “aften” og matchede den til den passende tidsramme, hvilket endnu ikke er realiseret for andre AI-systemer.
Et andet inputeksempel indeholdt en skærm, der viste skattefrister, og modellen identificerede korrekt april-indsendelsesdatoen som den relevante deadline, da den blev bedt om at sætte en påmindelse om at udskrive dokumenter inden skattefristen.
Disse kvalitative eksempler forstærker observationerne om ReALMs alsidighed og potentiale til at håndtere et bredt spektrum af virkelige scenarier, der kræver dyb sprogforståelse og ræsonneringskapaciteter.
Fordele i forhold til end-to-end tilgange
Selvom end-to-end tilgange, der udelukkende bygger på massive LLM’er, har vist lovende resultater i forskellige sprogforståelsesopgaver, fremhæver forskerne flere fordele ved ReALMs arkitektur:
At køre en fuld end-to-end model på enheden af hensyn til latenstid og privatliv ville være urealistisk med nuværende modeller på grund af beregnings- og hukommelsesbegrænsninger. Ved at bruge en mindre, finjusteret model specifikt designet til referenceopløsning, undgår ReALM disse problemer og muliggør effektiv on-device behandling.
Desuden tillader ReALMs modulære arkitektur en sømløs integration med eksisterende entitetsdetekterings- og opgavefuldførelseskomponenter i samtale-AI-pipelines. I modsætning hertil ville en end-to-end model kræve betydelige ændringer af hele pipeline’en, hvilket gør det sværere at implementere i virkelige systemer.
Skalerbarhed til nye entitetstyper
En af ReALMs nøglestyrker er dens skalerbarhed til nye entitetstyper. I modsætning til tidligere pipeline-tilgange som MARRS, der var afhængige af manuelt defineret type-specifik logik, kan ReALMs LLM-baserede tilgang let generalisere til usete domæner.
Forskerne demonstrerer denne fordel ved at evaluere ReALM på en uset “alarm” entitetstype. Imponerende matcher ReALM GPT-4’s zero-shot præstation i præcist at løse forespørgsler som “Sluk den, der minder mig om at hente didi” til den relevante alarmentitet. Dette viser modellens evne til at udnytte sine sprogforståelseskapaciteter til at håndtere nye entitetstyper uden at kræve eksplicit træningsdata.
Tabellen nedenfor viser præstationssammenligningen mellem ReALM og GPT-4 på det usete “alarm” datasæt, og fremhæver ReALMs stærke zero-shot generaliseringskapacitet:

Fremtidige muligheder og begrænsninger
Selvom ReALM leverer betydelige fremskridt inden for vigtige aspekter som referenceopløsning for samtale-AI, bemærkede forskerteamet nogle begrænsninger, der er værd at forstå.
En væsentlig ulempe ved systemet er dog, at konvertering af et 2D-skærmlayout til en 1D-tekstuel repræsentation medfører tab af indviklede rumlige detaljer. Teamet foreslog brug af mere avancerede kodningsstrategier, såsom at fremstille skærmkomponenterne i et gitterlignende format, for at bevare mere præcise relative placeringer.
En anden potentiel forbedring for fremtiden er at styrke ReALMs evne til at håndtere mere indviklede og diverse referencer, herunder dem, der indeholder tidsmæssige eller hierarkiske associationer mellem enheder.
På trods af disse begrænsninger gør ReALMs imponerende præstation og skalerbare design det til et meget lovende grundlag for yderligere forskning og udvikling inden for samtale-AI.
Afsluttende tanker
ReALMs evne til at bygge bro mellem tekstinput og visuel kontekst vil bane vejen for mere intuitive og kontekstbevidste brugergrænseflader. LLM-ingeniører og udviklere vil kunne skabe AI-systemer, der virkelig forstår og reagerer på brugernes intentioner, selv når de håndterer komplekse på-skærmen elementer.
Set fra et rent teknisk perspektiv er ReALMs modulære arkitektur og on-device behandlingskapaciteter særligt værdifulde, da de ikke kun adresserer brugernes privatlivs- og latenstidsproblemer, men også sætter en præcedens for mere skalerbare, effektive og integrerede AI-systemer.
I almindelige termer signalerer ReALMs succes med at håndtere komplekse brugssager og dens evne til at generalisere til nye entitetstyper, at vores forståelse af, hvad der i øjeblikket er muligt med samtale-AI, er blevet fuldstændigt ændret. Det kan accelerere den til dels stillestående AI-adoptionsrate på tværs af brancher fra kundeservice og e-handel til sundhedspleje og uddannelse.
Klik her for at lære alt om investering i kunstig intelligens.












