Kecerdasan buatan

Apple Klaim ReALM-nya Mengungguli GPT-4 dalam Kemampuan

Published April 3, 2024

Updated April 6, 2026

Gaurav Roy

Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.

Claude 3 Opus baru-baru ini menggantikan GPT 4 sebagai LLM paling canggih. Sementara itu, peneliti di Apple memperkenalkan ReALM, tidak lama setelah berita bahwa Google’s Gemini memungkinkan iPhone membuat headline. Makalah penelitian, berjudul “ReALM: Reference Resolution As Language Modeling,” memuji itu sebagai sistem AI canggih yang berjanji untuk mendefinisikan kembali bagaimana asisten suara memahami dan merespons kueri pengguna.

Perbedaan antara ReALM dan sistem lainnya terletak pada pengintegrasian resolusi referensi yang mulus ke dalam bahasa pemahaman. Ini adalah pendekatan inovatif mengingat desain sistem berbasis model bahasa besar saat ini, dan itu membantu meningkatkan pemahaman model tentang konteks sambil juga menetapkan benchmark baru untuk interaksi antara AI dan antarmuka pengguna grafis.

Berdasarkan hasil penelitian itu, diharapkan dapat membantu insinyur LLM dan manajer produk alat AI mencapai interaksi pengguna yang lebih intuitif dan konteks-kesadaran. ReALM juga memfasilitasi integrasi input teks dengan konteks visual, sehingga memperluas potensi untuk meningkatkan keterampilan asisten digital dalam banyak aplikasi.

Pendekatan Inovatif ReALM untuk Resolusi Referensi NLP

Semua sistem NLP bergantung pada “resolusi referensi,” proses untuk mengidentifikasi dan menghubungkan referensi yang ambigu tetapi kontekstual seperti kata ganti atau deskripsi tidak langsung, yaitu “mereka” atau “itu,” ke entitas yang benar dalam percakapan atau konteks visual untuk mempertahankan interaksi pengguna yang konsisten.

Sistem AI tradisional bergantung pada metode berbasis aturan atau heuristik untuk resolusi referensi, yang tidak menghasilkan hasil yang diinginkan ketika datang untuk menangkap kompleksitas bahasa alami. Akibatnya, konteks visual, seperti entitas pada layar, sulit untuk diintegrasikan ke dalam resolusi menggunakan metode ini. Asisten suara seperti Siri juga rentan terhadap keterbatasan yang sama yang diatasi oleh ReALM dengan menganggapnya sebagai masalah pemodelan bahasa.

ReALM menggunakan LLM untuk memahami dan menyelesaikan referensi yang ambigu dalam konteks percakapan yang lebih luas sebagai lawan dari menggunakan aturan atau heuristik. Ketika konteks visual terlibat, itu membangun kembali layar perangkat menggunakan representasi teks dan merekam koneksi spasial antara komponen pada layar.

Dipimpin oleh Joel Ruben Antony Moniz, tim peneliti menyatakan:

“Menurut pengetahuan kami, ini adalah pekerjaan pertama yang menggunakan Model Bahasa Besar yang bertujuan untuk mengkodekan konteks dari layar.”

Hasilnya? Asisten suara yang ditenagai oleh ReALM dapat memahami kueri seperti “Ketuk tombol di pojok kanan atas” dan “Buka artikel kedua dalam daftar,” yang sistem AI standar kesulitan dengan itu.

Hal ini membuat metode resolusi referensi ReALM lebih efisien dan ideal untuk pemrosesan perangkat karena dapat menyelesaikan referensi secara lokal di perangkat, tidak seperti sistem AI berbasis cloud yang memerlukan transmisi data terus-menerus. Ini membuatnya lebih cocok untuk Siri karena privasi, latensi, dan fungsionalitas offline yang lebih baik.

Klik di sini untuk daftar lima ekstensi ChatGPT terbaik.

Pengumpulan dan Evaluasi Dataset

Tim penelitian Apple mengumpulkan dataset yang beragam yang mencakup data percakapan, layar, dan sintetis untuk menilai secara menyeluruh kemampuan ReALM untuk menavigasi kompleksitas interaksi pengguna dunia nyata dibandingkan dengan alternatifnya. Untuk melakukan ini, tim mengumpulkan dataset yang beragam yang mencakup data percakapan, layar, dan sintetis.

Data percakapan dihasilkan dengan menampilkan gambar kepada pekerja kerumunan yang berisi daftar sintetis dan meminta mereka untuk mengirimkan kueri yang jelas yang terkait dengan elemen tertentu dalam daftar tersebut. Dataset layar dikenakan proses anotasi dua fase yang memastikan model dapat menangani kompleksitas halaman web dunia nyata. Proses ini termasuk mengklasifikasikan objek yang terlihat, menghasilkan kueri, dan membentuk koneksi antara kueri dan entitas yang mereka referensikan.

Hasil Kinerja yang Mengesankan

Hasil evaluasi menampilkan kinerja luar biasa dari ReALM di semua dataset. Dibandingkan dengan MARRS, sistem resolusi referensi state-of-the-art sebelumnya, ReALM mencapai perbaikan signifikan dalam akurasi. Secara khusus, bahkan model ReALM terkecil mendapatkan keuntungan absolut lebih dari 5% pada dataset layar yang menantang, menunjukkan kemampuannya untuk memahami dan menyelesaikan referensi dalam konteks visual yang kompleks.

Untuk lebih menilai kemampuan ReALM, peneliti membandingkannya dengan model GPT-3.5 dan GPT-4 dari OpenAI. Mengesankan, model ReALM terkecil berkinerja setara dengan GPT-4 meskipun memiliki parameter yang jauh lebih sedikit. Ketika ukuran model meningkat, kinerja ReALM terus membaik, dengan model yang lebih besar secara substansial mengungguli GPT-4 pada dataset yang dievaluasi.

Tabel di bawah ini mewakili ringkasan hasil kinerja, menyoroti keunggulan ReALM atas pendekatan yang ada dan kemampuan kompetitifnya dengan model bahasa state-of-the-art.

Model Accuracy for Different Datasets

Kunci Kesuksesan: Pengkodean Layar Optimal

Seperti yang jelas, pendekatan pengkodean layar yang dioptimalkan ReALM adalah faktor kritis yang menyumbang kinerja impresifnya. Ini juga menambahkan fakta bahwa peneliti menjelajahi beberapa strategi sebelum tiba pada algoritma akhir, yang terbukti paling efektif.

Salah satu upaya awal melibatkan pengelompokan elemen layar dan memasukkan semua elemen lain dalam konteks setiap entitas. Namun, ini menyebabkan panjang prompt berkembang pesat karena jumlah entitas pada layar meningkat, membuatnya tidak praktis untuk aplikasi dunia nyata.

Pendekatan lain melibatkan penandaan entitas dalam parse teks layar tetapi menyediakannya secara terpisah dari konteks utama. Meskipun metode ini tampaknya menjanjikan, peneliti menemukan bahwa menyuntikkan tag langsung ke dalam parse itu sendiri menghasilkan hasil terbaik.

Pendekatan “pengkodean layar yang disuntikkan” akhir, seperti yang dijelaskan dalam makalah, bekerja dengan mengurutkan pusat-pusat elemen layar dari atas ke bawah dan kemudian dari kiri ke kanan. Elemen dalam margin vertikal yang ditentukan dikelompokkan ke “baris” yang sama dalam representasi teks, dan elemen pada baris yang sama dipisahkan oleh tab. Skema pengkodean cerdas ini memungkinkan ReALM untuk mengapproximasi tata letak layar 2D dalam format teks 1D, memungkinkan model untuk memahami hubungan spasial antara entitas.

Eksperimen ablasi yang dilakukan oleh peneliti mengonfirmasi superioritas pendekatan pengkodean yang dioptimalkan, seperti yang ditunjukkan pada gambar di bawah:

Performance improvements with each encoding experiment

Menangani Kasus Penggunaan yang Kompleks

Makalah tersebut menyediakan beberapa contoh kualitatif yang menunjukkan kemampuan ReALM untuk menangani kasus penggunaan yang kompleks yang memerlukan berbagai bentuk penalaran, termasuk pemahaman semantik, ringkasan, pengetahuan dunia, dan penalaran umum.

Dalam contoh menarik yang dibagikan oleh tim, ReALM dengan benar menyelesaikan kueri “Panggil nomor malam” ke nomor telepon yang terdaftar di bawah “5 PM – 9 PM” ketika diberi layar yang menampilkan informasi kontak pagi dan malam. Meskipun terdengar seperti hasil logis, ini adalah tampilan kemampuan yang mengesankan karena ReALM berhasil memahami makna “malam” dan memetakan ke rentang waktu yang sesuai, yang belum terwujud untuk sistem AI lain.

Contoh input lain termasuk layar yang menampilkan batas waktu pajak, dan mode tersebut berhasil mengidentifikasi tanggal pengajuan April sebagai batas waktu yang relevan ketika diminta untuk mengatur pengingat untuk mencetak dokumen sebelum batas waktu pajak.

Contoh kualitatif ini memperkuat observasi tentang ReALM’s fleksibilitas dan potensi untuk menangani berbagai skenario dunia nyata yang memerlukan pemahaman bahasa yang mendalam dan kemampuan penalaran.

Kelebihan atas Pendekatan End-to-End

Sementara pendekatan end-to-end yang bergantung sepenuhnya pada LLM besar menunjukkan hasil yang menjanjikan dalam berbagai tugas pemahaman bahasa, peneliti menyoroti beberapa kelebihan arsitektur ReALM:

Menjalankan model end-to-end penuh di perangkat untuk alasan latensi dan privasi akan tidak mungkin dilakukan dengan model saat ini karena keterbatasan komputasi dan memori. Dengan menggunakan model yang lebih kecil, yang disesuaikan khusus untuk resolusi referensi, ReALM menghindari masalah ini dan memungkinkan pemrosesan perangkat yang efisien.

Lebih lanjut, arsitektur modular ReALM memungkinkan integrasi yang mulus dengan komponen deteksi entitas dan penyelesaian tugas yang ada dalam pipa AI percakapan. Sebaliknya, model end-to-end akan memerlukan perubahan signifikan pada pipa seluruhnya, membuatnya lebih menantang untuk diadopsi dalam sistem dunia nyata.

Skalabilitas ke Jenis Entitas Baru

Salah satu kekuatan utama ReALM adalah skalabilitasnya ke jenis entitas baru. Tidak seperti pendekatan pipa sebelumnya seperti MARRS, yang bergantung pada logika tipe-spesifik yang didefinisikan secara manual, pendekatan berbasis LLM ReALM dapat dengan mudah diterapkan pada domain yang tidak terlihat.

Peneliti menunjukkan kelebihan ini dengan mengevaluasi ReALM pada jenis entitas “alarm” yang tidak terlihat. Mengesankan, ReALM mencapai kinerja zero-shot GPT-4 dengan akurat menyelesaikan kueri seperti “Matikan yang mengingatkan saya untuk menjemput didi” ke entitas alarm yang relevan. Ini menunjukkan kemampuan model untuk menggunakan kemampuan pemahaman bahasanya untuk menangani jenis entitas baru tanpa memerlukan data pelatihan eksplisit.

Tabel di bawah ini menyajikan perbandingan kinerja antara ReALM dan GPT-4 pada dataset “alarm” yang tidak terlihat, menyoroti kemampuan generalisasi zero-shot ReALM yang kuat:

Performance on Unseen Alarm Dataset

Kemungkinan dan Keterbatasan Masa Depan

Meskipun ReALM memberikan kemajuan signifikan dalam aspek-aspek penting seperti resolusi referensi untuk AI percakapan, tim penelitian mencatat beberapa keterbatasan yang patut dipahami.

Satu kelemahan besar dari sistem ini, bagaimanapun, adalah bahwa mengubah tata letak layar 2D menjadi representasi teks 1D menghasilkan kehilangan detail spasial yang rumit. Tim mengusulkan penggunaan strategi pengkodean yang lebih maju, seperti menggambarkan komponen layar dalam cara grid, untuk mempertahankan lokasi relatif yang lebih akurat.

Perbaikan potensial lainnya untuk masa depan adalah meningkatkan kemampuan ReALM untuk menangani referensi yang lebih kompleks dan beragam, termasuk yang melibatkan asosiasi temporal atau hierarkis antara entitas.

Meskipun keterbatasan ini, kinerja impresif ReALM dan desain yang skalabel membuatnya menjadi fondasi yang sangat menjanjikan untuk penelitian dan pengembangan lebih lanjut dalam domain AI percakapan.

Pemikiran Penutup

Kemampuan ReALM untuk menjembatani kesenjangan antara input teks dan konteks visual akan membuka jalan bagi antarmuka pengguna yang lebih intuitif dan konteks-kesadaran. Insinyur LLM dan pengembang akan dapat menciptakan sistem AI yang benar-benar memahami dan merespons niat pengguna, bahkan ketika menangani elemen layar yang kompleks.

Dari sudut pandang teknis murni, arsitektur modular ReALM dan kemampuan pemrosesan perangkatnya sangat berharga karena tidak hanya menangani masalah privasi dan latensi pengguna tetapi juga menetapkan preseden untuk sistem AI yang lebih skalabel, efisien, dan terintegrasi.

Dalam bahasa sederhana, kesuksesan ReALM dalam menangani kasus penggunaan yang kompleks dan kemampuannya untuk diterapkan pada jenis entitas baru menandakan bahwa pemahaman kita tentang apa yang mungkin dilakukan dengan AI percakapan telah diubah secara total. Ini dapat mempercepat laju adopsi AI yang sedikit stagnan di berbagai industri, mulai dari layanan pelanggan dan e-commerce hingga kesehatan dan pendidikan.

Klik di sini untuk mempelajari semua tentang berinvestasi di kecerdasan buatan.

Gaurav Roy

Gaurav memulai perdagangan cryptocurrency pada 2017 dan telah jatuh cinta dengan ruang crypto sejak saat itu. Minatnya pada semua hal crypto menjadikannya seorang penulis yang berspesialisasi dalam cryptocurrency dan blockchain. Tak lama kemudian, dia menemukan dirinya bekerja dengan perusahaan crypto dan outlet media. Dia juga seorang penggemar besar Batman.