Ajatusjohtajat

Tekoälytiivistäminen: Avain halvempiin malleihin vai resepti enemmän tekoälyharhaluulujen luomiseen?

mm

Kun teknologiajätit kuten Meta, OpenAI ja Microsoft kilpailevat rakentamaan älykkäämpiä, edullisempia ja kustannustehokkaampia tekoälyjärjestelmiä, he ovat omaksuneet “tiivistämisen” — menetelmän, joka uskotaan vähentävän tekoälymallien käyttämien kustannusten ja laskentatehon tarvetta.

Mutta vaikka tämä tekniikka saa lisääntymään “kultaisen lipan” halvemman tekoälyn, on siihen liittyvä ongelmakohta: Onko tiivistäminen todella ratkaisu, vai voiko se johtaa epäluotettavampiin, virhealttiisiin malleihin, jotka kärsivät harhaluuloista?

Vastataksesi tähän, meidän on tutkittava, mitä tiivistäminen todella tarkoittaa, punnittava sen etuja ja haittoja ja selvittävä, miten tiivistäminen ja harhaluulot liittyvät toisiinsa. Lähdetään liikkeelle.

Uusi läpimurto vai vanha temppu?

Tekoälytiivistämisen ydin on prosessi, jossa koulutetaan pienempi, “heikompi” tekoälymalli käyttäen syntetistä dataa, jota on luonut voimakkaampi “vahvempi” malli. Niitä kutsutaan usein “oppilaaksi” ja “opettajaksi”.

Yksinkertaisesti sanottuna, se on kuin opettaa aloittelija jollekin pelille näyttämällä sarjan käytännön opetuksia sen sijaan, että hänet opetettaisiin sääntöjä alusta alkaen. Tässä tapauksessa heikompi malli voi oppia avainkuvioita ja tehdä päätöksiä käyttäen paljon vähemmän laskentatehoa.

Mutta onko tämä todella uraauurtava lähestymistapa, vai vain vanha idea, jolle on annettu uusi nimi?

Vaikka termi “Tekoälytiivistäminen” saattaa olla uusi, sen taustalla oleva käsite ei ole uusi. Idean käyttämisestä yksinkertaisempien mallien luomiseen monimutkaisempien järjestelmien approksimointiin on ollut olemassa jo jonkin aikaa, useiden nimien alla, kuten “tietämyksen siirto” tai “opettaja-oppilas -opetus”. Esimerkiksi tämätutkimus vuodelta 2018 pureutuu koko käsitteeseen — mikä vahvistaa, että se ei ole vain nykyaikainen suuntaus.

Se, mikä tekee siitä tuntuvan uudelta, on se, miten sitä on sovellettu nykyisten resursseja vaativien mallien kontekstissa. Aikaisemmin se saattaa olla ollut käytössä pienemmissä koneoppimisen (ML) sovelluksissa, mutta kun tekoälymallit kasvavat, tiivistäminen on saavuttanut laajemman soveltamisen.

Kaiken kaikkiaan se on todella älykäs työkalu, mutta ei läpimurto luonteeltaan. Se on yksinkertaisesti jalostettu lähestymistapa vanhaan temppuun, josta tulee yhä suositumpi nykyisen tekoälykehityksen näyttämöllä.

Tekoälyn mentorimalli: Hyödyt ja haitat

Nyt, vaikka tekoälytiivistäminen on älykkäämpi lähestymistapa vanhaan strategiaan, se ei ole ilman kompromisseja. Suuri kysymys tässä: Mitä saamme ja mitä menetämme käyttämällä pienempää mallia jäljitelläksesi suurempaa mallia? Otetaan katsaus tämän menetelmän etuihin ja haittoihin.

Yksi ilmeisimmistä edusta on tehokkuus. Tiivistetyt mallit ovat merkittävästi kevyempiä, mikä tarkoittaa, että ne voivat toimia jopa matkapuhelimilla. Ja pointti on, että se on lähes mahdotonta suurten mallien kanssa. Onko tämä vain teoriassa? Ei lainkaan. Meta:n LlaMA-perheen optimoidut versiot, kuten TinyLLaMA, ovat jo käytössä kevyissä tekoälysovelluksissa, jotka toimivat puhelimilla ilman pilvipalveluja. Tuloksena on nopeammat vastausajat ja vähennetyt kustannukset sekä yrityksille että tavallisille käyttäjille.

Toinen vahva puoli — tietoturva. Tiivistäminen mahdollistaa pienempien mallien luomisen, jotka voivat toimia paikallisesti ilman pilvipalvelujen käyttöä. Se on pelinmuuttaja aloilla, kuten rahoituksessa, jossa tietosuojaa pidetään kriittisenä ja pilvipohjaiset ratkaisut voivat aiheuttaa riskejä. Näissä tapauksissa paikallinen käyttöönotto ei ole vain vaihtoehto — se on välttämätöntä, jos haluat pitää arkaluontoiset tiedot turvassa.

Nämä edut eivät kuitenkaan tule ilmaiseksi.

Vaikka tiivistäminen toimii hyvin tehtävissä, kuten data-analyysissä, se voi aiheuttaa yksityiskohtaisuuden menetyksen. “Heikompi” malli usein kamppailee emotionaalisen älymystön ja “hienovaraisuuden” kanssa. Kuvittele asiakaspalvelu- tekoäly, joka vastaa kysymyksiin suoraan ja tehokkaasti, mutta jää lyhyeksi havainnoimassa sävyä tai vastaamassa empaattisesti — ehdottomasti ei lämmin tai inhimillinen. Se voi helposti karkottaa monia ihmisiä, ottaen huomioon laajan epäluottamuksen tekoälyä kohtaan ja epämukavuuden, jonka jotkut ihmiset kokevat puhuessaan chatbotin kanssa ihmisen sijaan.

Samaan aikaan harhaluulon riski on myös olemassa. Kun malli on tiivistetty, se ei opi vain hyviä asioita — se voi yhtä hyvin omaksua “opettajansa” huonot tavat. Se voi jopa tehdä pahempia virheitä yksinkertaistamalla asioita liikaa. Todennäköinen tulos on, että se toimittaa outoja tai jopa täysin virheellisiä tietoja.

Mikä johtaa meidät seuraavaan osioon tässä keskustelussa.

Tekoäly keksii asioita — Voisko tiivistäminen hallita sitä?

Lyhykäisyyden vuoksi “harhaluulo” tarkoittaa tilannetta, jossa tekoäly, joka näyttää melko älykkäältä, toimittaa virheellisiä tai epäolennaisia tietoja. Ja kuten mainitsin jo aiemmin, kun tekoäly on tiivistetty, riski tämän tapahtumisesta lisääntyy. Mutta onko kaikki todella niin huonosti?

Vaikka “oppilas”-malli voi väärin tulkita “opettajan” tietoja — käytännössä kopioi vastaukset ymmärtämättä työtä — on siinä mielenkiintoinen twisti: tiivistäminen, oikeissa käsissä, voi itse asiassa auttaa.

Jos käyttäjät valitsevat huolellisesti oikeat vastaukset suuremmasta mallista — periaatteessa, ruokkivat “oppilasta” vain parhaimmilla esimerkeillä — he saattavat huomata, että pienempi malli tekee vähemmän virheitä. Se on yhtä yksinkertaista kuin tavallinen opetus. Jos opettaja on ajatteleva ja opetukset on suunniteltu hyvin, oppilas voi välttää virheet.

Lisäksi jotkut tutkijat ovat jopa käyttäneet tiivistämistä puhdistamaan koulutusdataa ja tekemään malleja luotettavammiksi. Vuonna 2023 Google:n tutkijat esittivät menetelmän “Askelttainen tiivistäminen”, jossa he integroivat välimuistojen päättelyaskelten koulutusdataan. Tiivistetyt mallit ovat oppineet, miten päästä oikeisiin vastauksiin tehokkaammin.

Niin, auttaako tekoälytiivistäminen todella taistelussa harhaluuloja vastaan? Se riippuu. Mutta jos tehty oikein, se voi varmasti auttaa rakentamaan malleja, jotka eivät ole vain älykkäämpiä ja nopeampia, vaan myös tosiasiallisesti tarkempia.

Pohjimmiltaan

Tekoälytiivistäminen saa suosiota, ja siihen on hyvä syy: se tarjoaa älykkäämmän, nopeamman ja kustannustehokkaamman tavan tekoälyn käyttöön resursseja rajoittavissa ympäristöissä. Pääasiallinen viesti on, että vaikka tiivistäminen kantaa joitakin riskejä — erityisesti harhaluulojen suhteen — se voi myös auttaa ratkaisemaan nämä riskit, kun sitä lähestytään varovasti.

Tämä voidaan vahvistaa jopa suurimpien markkinapelaajien esimerkillä. Muistatko, miten DeepSeek-neuraaliverkko sai huomiota medialla ei niin kauan sitten? Sen R1-mallikäyttää tiivistämistä luomaan pienemmän, tehokkaamman tekoälyn, joka suoriutuu silti hyvin. He kouluttivat sen suurempien mallien, kuten OpenAI:n ChatGPT:n, datalla, mikä mahdollisti kilpailukykyisen tekoälyjärjestelmän rakentamisen paljon alhaisemmilla kustannuksilla.

Lopulta tekoälytiivistäminen ei ole taikasauva eikä kohtalokas virhe. Se on työkalu — ja kuten mikä tahansa työkalu, sen tehokkuus riippuu ainoastaan siitä, miten varovasti sitä käytetään.

Roman Eloshvili, ComplyControlin perustaja, joka on UK:n tarjoaja, joka tarjoaa tekoälykäytön palveluita, jotka parantavat riskienhallintakäytäntöjä ja varmistavat sääntelyn mukaisuuden rahoituslaitosten keskuudessa.