Intelligenza artificiale
Tattiche di addestramento AI discutibili, una preoccupazione crescente

Le tattiche di addestramento AI continuano a essere soggette a scrutinio a causa della mancanza di controllo. È comune per gli scrittori contemporanei trarre ispirazione e addirittura prendere in prestito aspetti da storie precedenti. Mentre questa pratica fa parte dell’evoluzione della scrittura, ci sono volte in cui l’opera e lo stile di un autore vengono duplicati senza consenso.
Quando si verifica questa situazione, le leggi moderne sulla violazione del diritto d’autore consentono al creatore di contenuti originale di recuperare le perdite. Tuttavia, non si può dire lo stesso per il crescente numero di sistemi AI che utilizzano opere acquisite illegalmente per sviluppare i loro modelli. Ora, l’industria si trova a un bivio in termini di tattiche di addestramento e risarcimento per coloro che hanno subito perdite. Ecco cosa è necessario sapere.
Tattiche di addestramento AI discutibili
Una serie di cause legali affermano ora che OpenAI e META (META ) hanno cercato di aggirare le leggi sull’acquisizione di dati per l’addestramento dei loro modelli. I querelanti affermano che l’azienda era a conoscenza del fatto che stava potenzialmente rubando milioni di dollari agli autori senza compensazione o menzione.
Affermazioni come queste non sono una grande sorpresa per molti che credono che la corsa all’AI abbia portato a un disprezzo di base per le leggi sul diritto d’autore. Di conseguenza, gli autori continuano a reagire contro gli sviluppatori di AI, chiedendo maggiore trasparenza su come i dati vengono acquisiti e utilizzati da questi sistemi.
Mentre non sono state condivise con il pubblico alcune soluzioni chiare, le prove hanno iniziato a cumularsi contro le aziende AI. Queste prove potrebbero portare a cambiamenti radicali nelle tattiche di addestramento utilizzate dagli sviluppatori di AI in futuro.
Tattiche di addestramento utilizzate dalle aziende per creare modelli
L’addestramento di un sistema AI è un processo complesso che può coinvolgere la raccolta e l’elaborazione di enormi quantità di dati da varie fonti. Questi dati sono quelli a cui il sistema AI fa riferimento quando tenta di rispondere a domande o risolvere nuove situazioni. Di conseguenza, la maggior parte dei sistemi AI funziona meglio quando ha più dati a cui fare riferimento.
Creazione di AI
Il modo principale per creare un modello AI coinvolge la raccolta di dati. In passato, la raccolta di dati sarebbe stato un processo lungo e noioso che richiedeva agli ingegneri di cercare database esistenti piuttosto che costruirli da zero. Ad esempio, i fornitori di assistenza sanitaria potrebbero sviluppare un AI che sfrutta le statistiche sanitarie nazionali per fornire risposte mediche più pertinenti.
Da lì, gli sviluppatori decidono quale algoritmo utilizzare. Le principali opzioni sono apprendimento supervisionato, non supervisionato, semi-supervisionato, apprendimento per rinforzo, regressione lineare, apprendimento profondo, foresta casuale, Bayes ingenuo e reti neurali. Ognuno di questi algoritmi presenta vantaggi e svantaggi unici, che li rendono più adatti a compiti specifici.
Infine, inizia il processo di addestramento iterativo. In questa fase, il modello viene interrogato e valutato in base all’accuratezza e alle prestazioni fornite. Questo passaggio consente agli ingegneri di affinare e convalidare il modello, aumentando le sue capacità. Questa fase aiuta anche gli ingegneri a garantire che il modello continui a imparare dai dati di addestramento, anziché limitarsi a memorizzarli.

Source – Uptech.team
Le tattiche di addestramento AI attuali sono costose
Il processo di addestramento del modello AI è lungo e costoso e può essere suddiviso in due categorie principali: addestramento e esecuzione. L’addestramento si riferisce al costo una tantum della creazione di un modello specifico. Ad esempio, ChatGPT ha speso circa 100 milioni di dollari per il suo modello 4o, secondo il CEO dell’azienda, Sam Altman.
Nota che questi costi hanno superato quelli dei modelli precedenti. Ad esempio, ChatGPT-3 è costato circa 4 milioni di dollari per l’addestramento. I costi crescenti dell’addestramento AI sono il risultato diretto di maggiori requisiti computazionali. I modelli più recenti funzionano con i chip NVIDIA più recenti, aumentando i loro costi.
Inoltre, l’AI ha spinto i prezzi del cloud computing verso l’alto. La maggior parte delle applicazioni AI non funziona nativamente sui PC degli utenti. Invece, si affidano a data center e algoritmi di cloud computing all’avanguardia per supportare i requisiti computazionali massicci. Tutti questi fattori hanno reso la programmazione AI costosa.
Marketplace AI
Un recente aumento nel numero di marketplace di addestramento AI indica che ci sono ora più sviluppi in questo settore che cercano di risparmiare sui costi. I marketplace AI consentono agli sviluppatori, ai creatori di contenuti e a coloro che cercano di integrare l’AI di incontrarsi. Gli sviluppatori possono trovare modelli già costruiti che possono migliorare o affinare per le loro esigenze, risparmiando così molto tempo e denaro nel processo.
Costo di runtime
I costi di runtime o inferenza dei sistemi AI sono un’altra spesa che gli sviluppatori devono considerare. Il costo di inferenza si riferisce a quanto denaro costa ogni interazione con l’AI. Il costo di esecuzione di molti dei sistemi AI attuali è più alto perché il sistema deve accedere a tutti i dati nel suo modello per fornire una risposta accurata e utile. Ciò significa che l’AI avrà bisogno di utilizzare molta potenza di calcolo, da macchine dotate di attrezzature ad alte prestazioni, frequentemente. Questo requisito aggiunge costi significativi al sistema.
Le tattiche di addestramento AI attuali sono etiche?
Quando si esaminano le tattiche e le strategie di addestramento utilizzate dalle grandi aziende AI, è facile vedere che esistono posizioni etiche e morali sfidanti all’interno dell’industria. Sì, per creare i migliori sistemi AI, gli sviluppatori devono fornire dati preziosi e accurati al modello. Tuttavia, alcuni sviluppatori sostengono che il costo di ottenere l’approvazione del diritto d’autore su tutti i dati utilizzati nel set sarebbe astronomico, soffocando di fatto l’innovazione.
Le leggi internazionali sul diritto d’autore proteggono gli autori dall’uso non autorizzato delle loro opere, stile e somiglianza. I sistemi AI sembrano aver trovato una scappatoia legale nel fatto che possono utilizzare repliche quasi esatte di persone, luoghi, informazioni e storie, con poca reazione legale segnalata finora.
Tuttavia, c’è un sentimento crescente tra i creatori di contenuti che questi sistemi hanno ottenuto illegalmente le loro opere e le hanno utilizzate per addestrare modelli AI per duplicare il formato, il tono e lo stile. Le prove dell’uso illegale di libri protetti da diritto d’autore all’interno dei modelli di addestramento di OpenAI sono state portate alla luce da recenti rivelazioni.
Causa legale contro OpenAI
Nella causa legale contro OpenAI, i querelanti affermano che gli sviluppatori sapevano di utilizzare biblioteche ombra per evitare di pagare per grandi collezioni di libri. Le biblioteche ombra sono piattaforme online che forniscono l’accesso a opere protette da diritto d’autore gratuitamente. Quelli elencati nella causa legale contro OpenAI includono LibGen, Bok, Sci-Hub e Bibliotik.
La causa legale mira a dimostrare che OpenAI e META sapevano di stare aggirando le leggi sul diritto d’autore. Dimostra come le aziende abbiano utilizzato biblioteche ombra e altre fonti gratuite per ridurre notevolmente i costi di addestramento, mentre derubavano gli autori dei loro pagamenti giusti.
In risposta alle accuse, META ha inizialmente agito come se non fosse a conoscenza di tali azioni. Tuttavia, dopo che sono emerse email che si ritiene rivelino la piena comprensione dell’azienda delle sue azioni, e spiegano che ha utilizzato il protocollo torrent per scaricare +81,7 terabyte di dati da biblioteche ombra, equivalenti a milioni di opere.
Email non modificate di META
Ironia della sorte, sono state le email interne a rivelare che l’azienda era a conoscenza della natura discutibile della sua decisione di utilizzare biblioteche ombra. Nelle email non modificate, un ingegnere preoccupato di nome Nikolay Bashlykov mette in discussione la moralità del progetto, prima di scherzare sulla legalità del piano.
In email successive, l’impiegato ha affermato di essere preoccupato per l’uso degli indirizzi IP di META per caricare contenuti piratati. Riconoscendo che ciò poteva essere un problema, META ha istruito gli ingegneri a scaricare i dati da server esterni non collegati a Facebook o META.
Ordini dall’alto
Quando originariamente interrogato sull’involvimento di META nel torrenting, Mark Zuckerberg ha affermato di non essere a conoscenza del processo. Le email non modificate hanno dimostrato il contrario. Si ritiene che le email dimostrino che la decisione di utilizzare server non FB sia arrivata solo dopo l’approvazione diretta di Zuckerberg.
Gli sviluppatori di AI utilizzano contenuti rubati?
Date le prove fornite e il improvviso aumento delle capacità AI, sembra ovvio che molti sistemi AI abbiano rivolto la loro attenzione alle biblioteche ombra e ad altri mezzi per costruire modelli di addestramento più efficaci. Questi set di dati contengono materiali protetti da diritto d’autore che non hanno mai ricevuto il consenso degli autori o degli editori per l’uso nell’addestramento dei modelli AI.
È illegale?
Mentre sta diventando sempre più difficile negare l’uso di materiale piratato nei modelli AI più avanzati attuali, la legalità di questa pratica rimane in discussione. Nessuna azienda AI è stata soggetta a leggi sul diritto d’autore fino ad ora. Inoltre, la corsa all’AI è in pieno svolgimento e molti politici potrebbero vedere la limitazione dell’accesso ai dati dei sistemi AI locali come un ostacolo all’innovazione. Di conseguenza, potrebbero non muoversi per rendere più facile la lotta alla violazione del diritto d’autore AI rispetto ai tradizionali furti.
Cause legali in arrivo
I regolatori potrebbero non essere pronti a mettere pressione sulle aziende AI, ma i creatori di contenuti ne hanno avuto abbastanza. Le cause legali continuano a fioccare da parte di autori delusi che affermano che i loro contenuti sono stati acquisiti, distribuiti e duplicati illegalmente senza alcun compenso.
Recentemente, lo studio legale Joseph Saveri Law Firm ha presentato una causa legale collettiva federale negli Stati Uniti proprio su questo argomento. La causa legale, presentata a nome di Sarah Silverman e altri autori contro OpenAI e META, cerca un risarcimento per le perdite causate dalla capacità del prodotto di duplicare il formato e lo stile.
La causa legale collettiva allega molteplici violazioni del Digital Millennium Copyright Act, negligenza criminale e leggi di concorrenza sleale. L’obiettivo della causa legale è quello di ottenere un’inibizione permanente su queste tattiche di addestramento fino a quando non può essere messa in atto una strategia di compensazione e protezione equa per gli autori.
DeepSeek addestrato da ChatGPT?
Ironia della sorte, ChatGPT ha affermato di essere vittima di furto di proprietà intellettuale da parte di un sistema AI dopo che l’azienda cinese di AI, DeepSeek ha mandato onde d’urto nel mercato. DeepSeek ha causato un’onda di interesse dopo che l’azienda ha rivelato le sue impressionanti prestazioni, bassi costi e capacità avanzate al pubblico lo scorso mese.
Gli sviluppatori di OpenAI hanno accusato DeepSeek di utilizzare i dati di ChatGPT per programmare il suo modello, il che gli ha permesso di creare un modello che supera la concorrenza e costa molto meno. In confronto, DeepSeek ha raggiunto prestazioni pari a quelle di ChatGPT per un costo di 6 milioni di dollari rispetto ai più di 100 milioni di dollari utilizzati da ChatGPT.
Inoltre, DeepSeek riesce a utilizzare molto meno potenza di calcolo grazie alla sua configurazione unica. I costi di inferenza per DeepSeek sono molto inferiori a quelli di ChatGPT a causa dell’utilizzo di diversi modelli specializzati anziché un unico modello mastodontico.
Di conseguenza, DeepSeek ha solo bisogno di attivare il modello che fa riferimento alla domanda, consentendogli di utilizzare chip NVIDIA molto meno costosi e potenti. Nello specifico, DeepSeek utilizza 1/50 del costo di esecuzione del modello Claude 3.5 Sonnet più recente, rendendolo una soluzione più conveniente per le aziende nel lungo termine.
Si tratta di un prestito
Interessantemente, DeepSeek non nega l’uso di ChatGPT per sviluppare “script di pensiero”. Lo descrive addirittura nel whitepaper originale di DeepSeek. Gli ingegneri hanno ritenuto che questo approccio avrebbe fornito a DeepSeek informazioni più accurate, accelerando il suo processo di distillazione.
Inoltre, ha garantito che i dati utilizzati per programmare i modelli AI dei concorrenti non siano stati utilizzati per programmare DeepSeek. I risultati sono un sistema più efficiente che supera il suo predecessore e costa solo una frazione per funzionare. Naturalmente, molti sostengono che i costi di ChatGPT dovrebbero essere inclusi nel budget di DeepSeek se hanno sfruttato il sistema per creare il loro.
Crisi di identità di DeepSeek
In un recente articolo, un ricercatore di AI è andato alla fonte per vedere se DeepSeek ha preso in prestito molto da ChatGPT. Ha iniziato chiedendo al LLM se pensava che DeepSeek fosse più intelligente di Gemini, il concorrente di Google. Ironia della sorte, il LLM ha risposto che pensava “che fosse ChatGPT”. Questa rivelazione è stata vista da molti come tutta la prova necessaria per dimostrare la grande quantità di dati che DeepSeek ha raccolto da ChatGPT.
I creatori di contenuti dovrebbero essere compensati per l’uso di AI?
C’è una crescente preoccupazione per i creatori di contenuti nel mercato. Mentre i sistemi AI evolvono, sono destinati a inghiottire ancora più materiali protetti da diritto d’autore. In passato, gli ingegneri hanno visto le aziende disattivare le informazioni di gestione del diritto d’autore per ridurre il rischio delle loro azioni di essere catturate. Tuttavia, la marea sta cambiando.
Nel luglio 2023, un gruppo di oltre 8000 scrittori ha firmato una lettera indirizzata al CEO di META Mark Zuckerberg, al CEO di OpenAI Sam Altman, al CEO di Alphabet Sundar Pichai, al CEO di Stability AI Emad Mostaque, al CEO di IBM Arvind Krishna e al CEO di Microsoft Satya Nadella. La lettera afferma che l’AI “mimica e rigurgita il nostro linguaggio, storie, stile e idee”. Chiede un compenso e un riconoscimento.
La Writers Guild of America e la Screen Actors Guild hanno anche espresso preoccupazione sull’uso delle loro opere all’interno del settore AI. Cercano di garantire determinati diritti e compensi per gli scrittori ogni volta che le loro opere vengono utilizzate per creare modelli AI.
Opzioni per le tattiche di addestramento
Riconoscendo i limiti dell’attuale setup e come manchi di un percorso legittimo, BookCorpus ha cercato di offrire una soluzione migliore. L’azienda è stata fondata nel 2015 con l’obiettivo specifico di supportare i ricercatori di AI nell’addestramento dei LLM. Pertanto, include migliaia di opere e modelli progettati per migliorare le prestazioni, senza oltrepassare i confini etici.
Già, molti fornitori di servizi AI stanno entrando nel mercato. Queste aziende combinano l’accesso a dati preziosi, modelli e altro ancora. Sono progettate per soddisfare i requisiti computazionali dell’AI e spesso vengono fornite con un’opzione di cloud computing per ridurre ulteriormente i costi di sviluppo.
Aziende che guidano la rivoluzione dei LLM
L’ascesa dei LLM ha reso più facile che mai per chiunque interagire con questi sistemi. Da un semplice prompt di chat, è possibile condurre ricerche approfondite, creare immagini e storie e molto altro. Di conseguenza, i LLM sono considerati una delle più grandi innovazioni nella tecnologia di interazione con il computer di sempre. Ecco un’azienda che continua a guidare l’innovazione nel mercato dei LLM.
Alphabet Inc
Alphabet Inc. (GOOG ) è la società madre di Google e delle sue numerose consociate. È una delle aziende più riconoscibili e di successo nel settore AI. Interessantemente, gli ingegneri scelgono di utilizzare il modello della società, Google DeepMind, per creare il LLM Gemini di Google. Gemini è un LLM avanzato che traduce, comprende il contenuto, risponde a domande e molto altro.
Nota che Google DeepMind ha lavorato sodo per creare LLM e nuove funzionalità per l’azienda. Ad esempio, la nuova funzionalità SELF-DISCOVER crea un’architettura specifica per attività all’interno dei modelli, riducendo il tempo necessario per rispondere con precisione alle domande.
(GOOG )
Data la dominanza di Google nel mercato, l’accesso diretto a enormi quantità di dati e la continua espansione in modelli progettati appositamente, GOOG è un’azione intelligente da detenere. L’azienda è uno dei principali fornitori di AI a livello globale e ha la rete e le risorse per integrare la sua tecnologia ed espanderla al pubblico in modo efficace.
Come cambieranno le tattiche di addestramento in futuro
È possibile aspettarsi che le tattiche di addestramento AI si affidino a sistemi AI più raffinati per i dati man mano che l’industria si espande. DeepSeek ha dimostrato che il suo approccio ha ridotto notevolmente i costi. Inoltre, sarà più difficile affermare la violazione del diritto d’autore se l’azienda utilizza semplicemente i dati creati da un altro AI anziché quelli direttamente.
Tutti questi fattori e la crescente richiesta da parte dei governi di guidare la corsa all’AI hanno portato i creatori di contenuti in un luogo molto pericoloso. Speriamo che nei prossimi mesi gli sviluppatori di AI creino tattiche di addestramento più efficaci che rispettino e compensino coloro i cui dati utilizzano per il successo.
Scopri altri progetti AI interessanti ora.










