Τεχνητή νοημοσύνη

Η Apple ισχυρίζεται ότι το ReALM της υπερέχει του GPT-4 σε δυνατότητες

Δημοσιεύτηκε 3 Απριλίου 2024

Ενημερώθηκε 2 Ιουνίου 2026

Από

Gaurav Roy

Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

Ο Claude 3 Opus πρόσφατα απέσυρε το GPT 4 ως το πιο προηγμένο LLM. Εν τω μεταξύ, ερευνητές της Apple παρουσίασαν το ReALM, λίγο μετά τα news ότι το Gemini της Google τροφοδοτεί το iPhone, κέρδισε τις ειδήσεις. Η ερευνητική εργασία με τίτλο “ReALM: Reference Resolution As Language Modeling,” το προωθεί ως ένα πρωτοποριακό σύστημα AI που υπόσχεται να επαναπροσδιορίσει τον τρόπο με τον οποίο οι φωνητικοί βοηθοί κατανοούν και ανταποκρίνονται σε ερωτήματα χρηστών.

Η διαφορά μεταξύ του ReALM και άλλων συστημάτων έγκειται στην αδιάκοπη ενσωμάτωση της επίλυσης αναφορών στο ύφασμα της κατανόησης της γλώσσας. Πρόκειται για μια καινοτόμο προσέγγιση δεδομένης της τρέχουσας σχεδίασης των συστημάτων βασισμένων σε μεγάλα γλωσσικά μοντέλα, και βοηθά στην ενίσχυση της κατανόησης του πλαισίου από το μοντέλο, ενώ ταυτόχρονα θέτει ένα νέο πρότυπο για την αλληλεπίδραση μεταξύ AI και γραφικών διεπαφών χρήστη.

Βασιζόμενο στα research αποτελέσματα, στοχεύει να βοηθήσει μηχανικούς LLM και διαχειριστές προϊόντων AI εργαλείων να επιτύχουν πιο διαισθητικές και συνειδητές αλληλεπιδράσεις χρήστη. Το ReALM επίσης διευκολύνει την ενσωμάτωση κειμενικής εισόδου με οπτικό πλαίσιο, επεκτείνοντας έτσι το δυναμικό βελτίωσης των δεξιοτήτων των ψηφιακών βοηθών σε πολλές εφαρμογές.

Η καινοτόμος προσέγγιση του ReALM στην επίλυση αναφορών NLP

Όλα τα συστήματα NLP βασίζονται στην «επίλυση αναφορών», μια διαδικασία για την ταυτοποίηση και σύνδεση ασαφών αλλά συμφραζόμενων αναφορών όπως αντωνυμίες ή έμμεσες περιγραφές, π.χ. «αυτοί» ή «αυτό», με τις σωστές οντότητες μέσα σε μια συνομιλία ή οπτικό πλαίσιο, ώστε να διατηρούνται συνεπείς αλληλεπιδράσεις χρήστη.

Τα παραδοσιακά συστήματα AI βασίζονται σε μεθόδους βασισμένες σε κανόνες ή ευρετικές για την επίλυση αναφορών, κάτι που δεν αποδίδει τα επιθυμητά αποτελέσματα όταν πρόκειται να καταγράψουν την πλήρη πολυπλοκότητα της φυσικής γλώσσας. Ως αποτέλεσμα, το οπτικό πλαίσιο, όπως οι οντότητες στην οθόνη, ήταν δύσκολο να ενσωματωθεί στην επίλυση με αυτές τις μεθόδους. Οι Φωνητικοί βοηθοί όπως η Siri επίσης πέφτουν θύματα των ίδιων περιορισμών που αντιμετωπίζει το ReALM, αντιμετωπίζοντάς το ως πρόβλημα μοντελοποίησης γλώσσας.

Το ReALM αξιοποιεί τα LLM για να κατανοήσουν και να επιλύσουν ασαφείς αναφορές μέσα στο ευρύτερο πλαίσιο της συνομιλίας, αντί να χρησιμοποιούν κανόνες ή ευρετικές. Όταν εμπλέκεται οπτικό πλαίσιο, αναδημιουργεί την οθόνη της συσκευής χρησιμοποιώντας κειμενικές αναπαραστάσεις και καταγράφοντας τις χωρικές συνδέσεις μεταξύ των στοιχείων στην οθόνη.

Καθοδηγούμενη από τον Joel Ruben Antony Moniz, η ομάδα ερευνητών δηλώνει:

“Στο καλύτερο της γνώσης μας, αυτή είναι η πρώτη εργασία που χρησιμοποιεί ένα Μεγάλο Γλωσσικό Μοντέλο με σκοπό την κωδικοποίηση του πλαισίου από μια οθόνη.”

Αποτέλεσμα; Οι φωνητικοί βοηθοί με ενσωμάτωση ReALM μπορούν να κατανοήσουν ερωτήματα όπως «Πατήστε το κουμπί στην επάνω δεξιά γωνία» και «Ανοίξτε το δεύτερο άρθρο στη λίστα», στα οποία τα τυπικά συστήματα AI δυσκολεύονται.

Αυτό καθιστά τη μέθοδο επίλυσης αναφορών του ReALM πιο αποδοτική και ιδανική για επεξεργασία στην ίδια τη συσκευή, καθώς μπορεί να επιλύει αναφορές τοπικά, σε αντίθεση με τα συστήματα AI που βασίζονται στο σύννεφο και απαιτούν συνεχή μετάδοση δεδομένων. Αυτό το καθιστά πιο κατάλληλο για τη Siri λόγω βελτιωμένης ιδιωτικότητας, καθυστέρησης και λειτουργίας εκτός σύνδεσης.

Κάντε κλικ εδώ για μια λίστα με τις πέντε καλύτερες επεκτάσεις του ChatGPT.

Συλλογή και Αξιολόγηση Συνόλων Δεδομένων

Η ερευνητική ομάδα της Apple συνέθεσε ένα ποικίλο σύνολο δεδομένων που περιλαμβάνει συνομιλιακά, οπτικά στην οθόνη και συνθετικά δεδομένα, προκειμένου να αξιολογήσει διεξοδικά την ικανότητα του ReALM να αντιμετωπίζει την πολυπλοκότητα των πραγματικών αλληλεπιδράσεων χρηστών σε σύγκριση με τις εναλλακτικές του. Για να το επιτύχει, η ομάδα συνέθεσε ένα ποικίλο σύνολο δεδομένων που περιλαμβάνει συνομιλιακά, οπτικά στην οθόνη και συνθετικά δεδομένα.

Τα συνομιλιακά δεδομένα δημιουργήθηκαν δείχνοντας σε εργαζόμενους του πλήθους εικόνες που περιείχαν συνθετικές λίστες και ζητώντας τους να υποβάλουν σαφή ερωτήματα που σχετίζονται με συγκεκριμένα στοιχεία εντός αυτών των λιστών. Το σύνολο δεδομένων στην οθόνη υποβλήθηκε σε διαδικασία διπλής φάσης σήμανσης που διασφάλιζε ότι το μοντέλο θα μπορούσε να αντιμετωπίσει την πολυπλοκότητα των πραγματικών ιστοσελίδων. Αυτή η διαδικασία περιελάμβανε την ταξινόμηση των ορατών αντικειμένων, την παραγωγή ερωτημάτων και τη δημιουργία συνδέσεων μεταξύ των ερωτημάτων και των οντοτήτων στις οποίες αναφέρονται.

Εντυπωσιακά Αποτελέσματα Απόδοσης

Τα αποτελέσματα αξιολόγησης παρουσιάζουν την αξιοσημείωτη απόδοση του ReALM σε όλα τα σύνολα δεδομένων. Σε σύγκριση με το MARRS, ένα προηγούμενο κορυφαίο σύστημα επίλυσης αναφορών, το ReALM επιτυγχάνει σημαντικές βελτιώσεις στην ακρίβεια. Ιδιαίτερα, ακόμη και το μικρότερο μοντέλο ReALM καταγράφει απόλυτες κερδισμένες βελτιώσεις άνω του 5% στο απαιτητικό σύνολο δεδομένων στην οθόνη, αποδεικνύοντας την ικανότητά του να κατανοεί και να επιλύει αναφορές σε σύνθετα οπτικά πλαίσια.

Για να αξιολογηθεί περαιτέρω η ικανότητα του ReALM, οι ερευνητές το σύγκριναν με τα μοντέλα GPT-3.5 και GPT-4 της OpenAI. Εντυπωσιακά, το μικρότερο μοντέλο του ReALM αποδίδει ισοδύναμα με το GPT-4 παρόλο που διαθέτει τάξεις μεγέθους παραγόντων πολύ μικρότερη. Καθώς το μέγεθος του μοντέλου αυξάνεται, η απόδοση του ReALM συνεχίζει να βελτιώνεται, με τα μεγαλύτερα μοντέλα να υπερβαίνουν σημαντικά το GPT-4 στα αξιολογημένα σύνολα δεδομένων.

Ο παρακάτω πίνακας παρουσιάζει μια σύνοψη των αποτελεσμάτων απόδοσης, επισημαίνοντας την υπεροχή του ReALM σε σχέση με τις υπάρχουσες προσεγγίσεις και τον ανταγωνιστικό του χαρακτήρα με τα κορυφαία μοντέλα γλώσσας.

Model Accuracy for Different Datasets

Το Κλειδί της Επιτυχίας: Βέλτιστη Κωδικοποίηση Οθόνης

Όπως φαίνεται, η βελτιστοποιημένη προσέγγιση κωδικοποίησης οθόνης του ReALM αποτελεί κρίσιμο παράγοντα που συμβάλλει στην εντυπωσιακή του απόδοση. Αυτό προσθέτει επίσης στο γεγονός ότι οι ερευνητές εξερεύνησαν διάφορες στρατηγικές πριν καταλήξουν στον τελικό αλγόριθμο, ο οποίος αποδείχθηκε ο πιο αποτελεσματικός.

Μία από τις αρχικές προσπάθειες περιελάμβανε την ομαδοποίηση των στοιχείων της οθόνης και την ένταξη όλων των άλλων στοιχείων στο πλαίσιο κάθε οντότητας. Ωστόσο, αυτό οδήγησε σε ταχεία αύξηση του μήκους των προτροπών καθώς ο αριθμός των οντοτήτων στην οθόνη αυξήθηκε, καθιστώντας το αρκετά μη πρακτικό για πραγματικές εφαρμογές.

Μια άλλη προσέγγιση περιελάμβανε την επισήμανση των οντοτήτων στην κειμενική ανάλυση της οθόνης, αλλά παρέχοντάς τες ξεχωριστά από το κύριο πλαίσιο. Ενώ αυτή η μέθοδος φαίνεται υποσχόμενη, οι ερευνητές διαπίστωσαν ότι η άμεση ενσωμάτωση των ετικετών στην ίδια την ανάλυση έδωσε τα καλύτερα αποτελέσματα.

Η τελική προσέγγιση «ενσωματωμένη κωδικοποίηση στην οθόνη», όπως περιγράφεται λεπτομερώς στην εργασία, λειτουργεί ταξινομώντας τα κέντρα των στοιχείων της οθόνης από πάνω προς τα κάτω και στη συνέχεια από αριστερά προς δεξιά. Τα στοιχεία εντός ενός καθορισμένου κάθετου περιθωρίου ομαδοποιούνται στην ίδια «γραμμή» στην κειμενική αναπαράσταση, και τα στοιχεία στην ίδια γραμμή διαχωρίζονται με καρτέλες. Αυτό το έξυπνο σχήμα κωδικοποίησης επιτρέπει στο ReALM να προσεγγίζει τη δισδιάστατη διάταξη της οθόνης σε μια μονοδιάστατη κειμενική μορφή, επιτρέποντας στο μοντέλο να κατανοεί αποτελεσματικά τις χωρικές σχέσεις μεταξύ των οντοτήτων.

Πειράματα αφαίρεσης (ablation) που διεξήχθησαν από τους ερευνητές επιβεβαίωσαν την υπεροχή αυτής της βελτιστοποιημένης προσέγγισης κωδικοποίησης, όπως φαίνεται στην παρακάτω εικόνα:

Performance improvements with each encoding experiment

Αντιμετώπιση Πολύπλοκων Περιπτώσεων Χρήσης

Η εργασία παρέχει αρκετά ποιοτικά παραδείγματα που επιδεικνύουν την ικανότητα του ReALM να αντιμετωπίζει πολύπλοκες περιπτώσεις χρήσης που απαιτούν διάφορες μορφές λογικής, συμπεριλαμβανομένης της σημασιολογικής κατανόησης, της περίληψης, της γνώσης του κόσμου και της κοινής λογικής.

Σε ένα ενδιαφέρον παράδειγμα που μοιράστηκε η ομάδα, το ReALM επιλύει σωστά το ερώτημα «Καλέστε τον αριθμό βράδυ» στον αριθμό τηλεφώνου που αναγράφεται κάτω από «5 μ.μ. – 9 μ.μ.» όταν του παρουσιάζεται μια οθόνη που εμφανίζει τόσο πρωινές όσο και βραδινές πληροφορίες επαφών. Παρά το γεγονός ότι ακούγεται λογικό, αυτή είναι μια εντυπωσιακή επίδειξη δυνατοτήτων, καθώς το ReALM κατάφερε να κατανοήσει τη σημασία του «βράδυ» και να το αντιστοιχίσει στο κατάλληλο χρονικό διάστημα, κάτι που δεν έχουν ακόμη επιτύχει άλλα συστήματα AI.

Ένα άλλο δείγμα εισόδου περιελάμβανε μια οθόνη που εμφάνιζε προθεσμίες φορολογίας, και το μοντέλο εντόπισε επιτυχώς την ημερομηνία υποβολής του Απριλίου ως τη σχετική προθεσμία όταν του ζητήθηκε να ορίσει υπενθύμιση για την εκτύπωση εγγράφων πριν από την ημερομηνία λήξης της φορολογίας.

Αυτά τα ποιοτικά παραδείγματα ενισχύουν τις παρατηρήσεις σχετικά με την ευελιξία του ReALM και το δυναμικό του να αντιμετωπίζει ένα ευρύ φάσμα πραγματικών σεναρίων που απαιτούν βαθιά κατανόηση της γλώσσας και λογικές ικανότητες.

Πλεονεκτήματα έναντι Προσεγγίσεων End-to-End

Ενώ οι προσεγγίσεις end-to-end που βασίζονται αποκλειστικά σε τεράστια LLM έχουν δείξει υποσχόμενα αποτελέσματα σε διάφορα καθήκοντα κατανόησης γλώσσας, οι ερευνητές επισημαίνουν αρκετά πλεονεκτήματα της αρχιτεκτονικής του ReALM:

Η εκτέλεση ενός πλήρους μοντέλου end-to-end στην ίδια τη συσκευή για λόγους καθυστέρησης και ιδιωτικότητας θα ήταν ανέφικτη με τα τρέχοντα μοντέλα λόγω περιορισμών υπολογιστικής ισχύος και μνήμης. Χρησιμοποιώντας ένα μικρότερο, εξειδικευμένο μοντέλο που έχει βελτιστοποιηθεί για την επίλυση αναφορών, το ReALM αποφεύγει αυτά τα προβλήματα και επιτρέπει αποδοτική επεξεργασία στην συσκευή.

Επιπλέον, η αρθρωτή αρχιτεκτονική του ReALM επιτρέπει την απρόσκοπτη ενσωμάτωση με υπάρχοντα συστατικά ανίχνευσης οντοτήτων και ολοκλήρωσης εργασιών σε αγωγούς συνομιλιακής AI. Αντίθετα, ένα μοντέλο end-to-end θα απαιτούσε σημαντικές αλλαγές σε όλο τον αγωγό, καθιστώντας την υιοθέτησή του πιο δύσκολη σε πραγματικά συστήματα.

Κλιμακωσιμότητα σε Νέους Τύπους Οντοτήτων

Ένα από τα κύρια πλεονεκτήματα του ReALM είναι η κλιμακωσιμότητά του σε νέους τύπους οντοτήτων. Σε αντίθεση με προηγούμενες προσσεγγίσεις με αγωγούς όπως το MARRS, που βασίζονταν σε χειροκίνητα ορισμένη λογική ειδική για κάθε τύπο, η προσέγγιση του ReALM βασισμένη σε LLM μπορεί εύκολα να γενικεύσει σε αόρατους τομείς.

Οι ερευνητές επιδεικνύουν αυτό το πλεονέκτημα αξιολογώντας το ReALM σε έναν αόρατο τύπο οντότητας «ξυπνητήρι». Εντυπωσιακά, το ReALM ταιριάζει με την απόδοση μηδενικής εκπαίδευσης (zero-shot) του GPT-4 στην ακριβή επίλυση ερωτημάτων όπως «Απενεργοποιήστε το ξυπνητήρι που μου θυμίζει να παραλάβω το διδί» προς τη σχετική οντότητα ξυπνητηρίου. Αυτό επιδεικνύει την ικανότητα του μοντέλου να αξιοποιεί τις γλωσσικές του ικανότητες για να χειρίζεται νέους τύπους οντοτήτων χωρίς την ανάγκη ρητής εκπαίδευσης.

Ο παρακάτω πίνακας παρουσιάζει τη σύγκριση απόδοσης μεταξύ του ReALM και του GPT-4 στο αόρατο σύνολο δεδομένων «ξυπνητήρι», επισημαίνοντας τις ισχυρές ικανότητες γενίκευσης zero-shot του ReALM:

Performance on Unseen Alarm Dataset

Μελλοντικές Δυνατότητες και Περιορισμοί

Παρόλο που το ReALM προσφέρει σημαντική πρόοδο σε κρίσιμες πτυχές όπως η επίλυση αναφορών για συνομιλιακή AI, η ερευνητική ομάδα σημειώνει ορισμένους περιορισμούς που αξίζει να κατανοηθούν.

Ένα σημαντικό μειονέκτημα του συστήματος, ωστόσο, είναι ότι η μετατροπή μιας δισδιάστατης διάταξης οθόνης σε μονοδιάστατη κειμενική αναπαράσταση οδηγεί σε απώλεια λεπτομερών χωρικών στοιχείων. Η ομάδα πρότεινε τη χρήση πιο προχωρημένων στρατηγικών κωδικοποίησης, όπως η απεικόνιση των στοιχείων της οθόνης με μορφή πλέγματος, προκειμένου να διατηρηθούν πιο ακριβείς σχετικές θέσεις.

Μια άλλη πιθανή βελτίωση για το μέλλον είναι η ενίσχυση της ικανότητας του ReALM να αντιμετωπίζει πιο πολύπλοκες και ποικίλες αναφορές, συμπεριλαμβανομένων εκείνων που περιλαμβάνουν χρονικές ή ιεραρχικές συσχετίσεις μεταξύ των οντοτήτων.

Παρά αυτούς τους περιορισμούς, η εντυπωσιακή απόδοση και η κλιμακωτή σχεδίαση του ReALM το καθιστούν πολύ υποσχόμενο θεμέλιο για περαιτέρω μελέτη και ανάπτυξη στον τομέα της συνομιλιακής AI.

Συμπερασματικές Σκέψεις

Η ικανότητα του ReALM να γεφυρώνει το χάσμα μεταξύ κειμενικής εισόδου και οπτικού πλαισίου θα ανοίξει το δρόμο για πιο διαισθητικές και συνειδητές διεπαφές χρήστη. Οι μηχανικοί LLM και οι προγραμματιστές θα μπορούν να δημιουργούν συστήματα AI που πραγματικά κατανοούν και ανταποκρίνονται στις προθέσεις των χρηστών, ακόμη και όταν αντιμετωπίζουν σύνθετα στοιχεία στην οθόνη.

Από τεχνική άποψη, η αρθρωτή αρχιτεκτονική του ReALM και οι δυνατότητες επεξεργασίας στην ίδια τη συσκευή είναι ιδιαίτερα πολύτιμες, καθώς όχι μόνο αντιμετωπίζουν ζητήματα ιδιωτικότητας και καθυστέρησης, αλλά θέτουν επίσης ένα πρότυπο για πιο κλιμακώσιμα, αποδοτικά και ενσωματωμένα συστήματα AI.

Με απλά λόγια, η επιτυχία του ReALM στην αντιμετώπιση πολύπλοκων περιπτώσεων χρήσης και η ικανότητά του να γενικεύει σε νέους τύπους οντοτήτων υποδεικνύει ότι η κατανόησή μας για το τι είναι δυνατόν σήμερα με τη συνομιλιακή AI έχει αλλάξει ριζικά. Θα μπορούσε να επιταχύνει το σχετικά αδρανές ρυθμό υιοθέτησης AI σε βιομηχανίες που κυμαίνονται από την εξυπηρέτηση πελατών και το ηλεκτρονικό εμπόριο μέχρι την υγειονομική περίθαλψη και την εκπαίδευση.

Κάντε κλικ εδώ για να μάθετε τα πάντα σχετικά με την επένδυση στην τεχνητή νοημοσύνη.

Gaurav Roy

Ο Gaurav ξεκίνησε να交易uje κρυπτονομίσματα το 2017 και από τότε έχει ερωτευθεί με τον κρυπτοχώρο. Το ενδιαφέρον του για όλα τα κρυπτονομίσματα τον μετέτρεψε σε συγγραφέα που ειδικεύεται σε κρυπτονομίσματα και blockchain. Σύντομα βρέθηκε να εργάζεται με εταιρείες κρυπτονομισμάτων και μέσα ενημέρωσης. Είναι επίσης μεγάλος θαυμαστής του Batman.