Connect with us

Intelligenza artificiale

Il modello AI UNITE può rilevare qualsiasi deepfake senza affidarsi ai volti

mm
Analyzing a video frame for deepfakes

Gli scienziati stanno ora affrontando il problema dell’AI con l’AI stessa. I ricercatori dell’UC Riverside hanno creato un modello UNITE per affrontare il grave problema dei deepfake.

“Le persone meritano di sapere se ciò che stanno vedendo è reale”, ha dichiarato Rohit Kundu, un candidato PhD del Marlan e Rosemary Bourns College of Engineering dell’UCR, che ha guidato il documento ‘Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content.1 “E poiché l’AI migliora nel falsificare la realtà, dobbiamo migliorare nel rivelare la verità”.

I ricercatori hanno collaborato con scienziati di Google, un’azienda Alphabet (GOOG ), per sviluppare un nuovo modello AI che rileva la manipolazione dei video e espone il contenuto falso, utilizzato per diffondere disinformazione e incitare danni. Lo studio ha notato:

“La rapida diffusione di informazioni false, in particolare durante periodi critici come le elezioni, evidenzia la necessità di modelli di rilevamento generalizzabili in grado di identificare manipolazioni diverse, comprese quelle del viso, dello sfondo e del contenuto completamente generato da AI con o senza soggetti umani”.

Il modello è in grado di rilevare sia video parzialmente manipolati che completamente sintetici. Invece di concentrarsi solo sul viso, come fanno la maggior parte dei rilevatori convenzionali, questo modello analizza interi frame, indipendentemente dalla presenza di un soggetto umano nei video.

Ciò lo rende uno strumento potente che può essere utilizzato da fact-checker, educatori, editor, piattaforme di social media e altri per prevenire la diffusione di video contraffatti.

L’ascesa dell’AI e il conseguente sovraccarico sintetico

A crowded digital space filled with hyperreal faces/images floating like data shards.

L’intelligenza artificiale (AI) ha un enorme potenziale nel rivoluzionare vari aspetti della nostra vita e del nostro lavoro.

La capacità di questa tecnologia nell’automazione, nell’analisi dei dati e nella decision-making ha già iniziato a trasformare le industrie, con una previsione di aggiungere multi-trilioni di dollari all’economia globale entro la fine di questo decennio.

Uno studio del gigante della previsione di mercato IDC stima che l’ascesa dell’AI porterà a un aumento dell’economia globale di 19,9 trilioni di dollari entro il 2030.

La ricerca di McKinsey, nel frattempo, prevede che il valore aggiunto dall’AI generativa sarà di 4,4 trilioni di dollari su 63 casi d’uso analizzati dalla società di consulenza globale. Circa il 75% del valore che l’AI potrebbe fornire sarà solo su quattro campi:

  • R&D
  • Ingegneria del software
  • Marketing e vendite
  • Operazioni dei clienti

Mentre l’impatto della tecnologia è previsto essere significativo in tutti i settori, il tecnologico e la banca potrebbero vedere l’impatto più grande in percentuale dei loro ricavi da gen AI. Goldman Sachs è della stessa opinione, prevedendo un aumento del 7% del PIL globale grazie all’AI. Gli economisti della banca, Joseph Briggs e Devesh Kodnani, hanno notato:

“Nonostante l’incertezza significativa intorno al potenziale dell’AI generativa, la sua capacità di generare contenuti indistinguibili da quelli creati dagli esseri umani e di rompere le barriere di comunicazione tra esseri umani e macchine rappresenta un grande progresso con potenziali effetti macroeconomici significativi”.

Tuttavia, questa stessa capacità del sistema informatico di eseguire compiti come l’apprendimento, la risoluzione dei problemi e la decision-making che richiedono intelligenza umana, che sta per rivoluzionare il mondo, sta anche mandando il mondo nel caos.

Perché i vecchi rilevatori di deepfake non funzionano più

Azienda Strumento Focalizzazione del rilevamento Limitazioni
UC Riverside + Google UNITE Full-frame (viso, sfondo, T2V/I2V) Ancora in fase di sviluppo
Microsoft Video Authenticator Manipolazioni del viso Superato dall’AI generativa moderna
Intel FakeCatcher Autenticità tramite segnali fisiologici Richiede footage facciale di alta qualità
OpenAI Text Watermarking Output di testo dell’AI Limitato per contenuti visivi
Google SynthID Rilevamento di watermark generati da AI Funziona solo con modelli AI di Google

Negli ultimi anni, i progressi nell’AI hanno portato a un aumento senza precedenti dei media sintetici. Le stime suggeriscono che più della metà dei post di LinkedIn più lunghi sono attualmente scritti da AI.Poi c’è il ‘slop AI’, che si riferisce a contenuti generati da AI di bassa qualità e prodotti in massa.

Ma più preoccupante di tutto sono i deepfake, che sono immagini, video o registrazioni audio che sono stati generati o alterati utilizzando l’AI. È un contenuto contraffatto che utilizza l’AI per presentare una rappresentazione falsa come realistica.

Oggi, questo tipo di contenuto è ovunque, penetrando tutti gli angoli di Internet. Questi media digitali iperrealistici stanno causando confusione e diffondendo disinformazione. Stanno anche ponendo una minaccia alla privacy e alla sicurezza delle persone.

I cybercriminali stanno utilizzando l’AI per migliorare il loro gioco, conducendo truffe di phishing e furto di identità con una precisione allarmante. Secondo Kundu:

“È spaventoso quanto questi strumenti siano accessibili. Chiunque con abilità moderate può bypassare i filtri di sicurezza e generare video realistici di personaggi pubblici che dicono cose che non hanno mai detto”.

In un incidente, i cybercriminali si sono spacciati per il direttore finanziario (CFO) di un’azienda durante una riunione su Zoom, provocando una perdita di 25 milioni di dollari.

Questo è solo l’inizio, però, poiché Deloitte prevede che le perdite per truffa derivanti da tali incidenti raggiungeranno i 40 miliardi di dollari negli Stati Uniti entro il 2027, rispetto ai 12,3 miliardi di dollari del 2023. Un rapporto del Tesoro degli Stati Uniti ha anche scoperto che “i quadri di gestione dei rischi esistenti” adottati dalle aziende “potrebbero non essere adeguati per coprire le tecnologie AI emergenti”.

Non si può dire che non ci siano strumenti per aiutare a rilevare il contenuto AI e proteggersi contro i rischi della tecnologia.

Le stesse aziende che lanciano nuovi strumenti AI per rendere facile la creazione di nuovo contenuto stanno anche introducendo modi per aiutare a rilevare il contenuto sintetico.

Nel 2020, il gigante tecnologico Microsoft (MSFT ) ha annunciato un Video Authenticator per analizzare una foto o un video per fornire un punteggio di fiducia per determinare se il media è manipolato in modo artificiale. Lo strumento funziona rilevando il confine di fusione del deepfake e il leggero sfumato che l’occhio umano potrebbe non riuscire a rilevare.

Al tempo stesso, ha introdotto una tecnologia per identificare il contenuto contraffatto e confermare l’autenticità dei media con cui le persone interagiscono. Ha incluso uno strumento che consente a un creatore di aggiungere hash digitali e certificati al suo contenuto, che vivono al suo interno come metadati. Un lettore, nel frattempo, è stato introdotto per controllare i certificati e abbbinare gli hash per l’autenticità del contenuto.

Il gigante tecnologico ha avvertito della utilità a breve termine della tecnologia nell’era dell’AI. Poiché i deepfake sono generati da un’AI che impara continuamente, è solo una questione di tempo prima che superino i metodi di rilevamento tradizionali.

Intorno allo stesso periodo, Facebook, un’azienda Meta (META ), ha anche avviato una competizione per sviluppare un rilevatore di deepfake utilizzando i dati che i ricercatori non avevano precedentemente accesso.

Un paio di anni fa, Intel (INTC ) ha introdotto un FakeCatcher, un rilevatore di deepfake in tempo reale che afferma di avere un’accuratezza del 96%.

Lo strumento utilizza OpenVino per eseguire modelli AI per l’analisi del viso e dei punti di riferimento, mentre i blocchi di visione computerizzata sono stati ottimizzati con i suoi Integrated Performance Primitives e OpenCV. Per quanto riguarda il suo hardware, la piattaforma può eseguire più di settanta flussi di rilevamento contemporaneamente sui suoi processori Xeon Scalable di terza generazione.

In vece di cercare ciò che non va, FakeCatcher cerca indizi autentici valutando ciò che ci rende umani e traducendo quei segnali in mappe spaziotemporali, e infine, utilizzando l’apprendimento profondo per rilevare istantaneamente se un video è reale o falso.

L’anno scorso, OpenAI ha anche annunciato che stava ricercando strumenti per aiutare con l’autenticità del contenuto.

Questo include il watermarking del testo, che ha notato è efficace contro la manomissione localizzata ma non contro la manomissione globalizzata. Ha anche dichiarato che potrebbe “colpire sproporzionatamente” gruppi come i parlanti non madrelingua inglesi.

Questo aggiornamento è stato fatto dopo che il Wall Street Journal ha segnalato che l’azienda ha già sviluppato uno strumento che marca e rileva il testo generato da ChatGPT con “alta accuratezza” per alcuni casi, ma non ha ancora deciso di rilasciarlo.

In oltre, OpenAI si è unita al Comitato di direzione di C2PA (la Coalizione per la provenienza e l’autenticità del contenuto), uno standard ampiamente utilizzato per la certificazione dei contenuti digitali. L’azienda aggiunge i metadati C2PA a tutte le immagini create e modificate da tutti i suoi servizi, come parte degli strumenti di rilevamento delle immagini.

Ora, quest’anno, Google ha anche introdotto il suo strumento di rilevamento del contenuto generato da AI chiamato SynthID Detector.

Lo strumento di Google, tuttavia, funziona solo per il contenuto generato utilizzando i servizi AI di Google stessi, come Gemini, Imagen, Veo e Lyria. Ciò è perché lo strumento identifica la presenza di un “watermark” che i prodotti di Google hanno incorporato nel loro output.

Un watermark è un elemento unico, leggibile dalle macchine, che viene incorporato nel contenuto. Invisibile per noi umani, può essere rilevato e estratto da algoritmi costruiti per quel scopo.

All’interno della tecnologia che alimenta il breakthrough di UNITE

A computer vision system analyzing a full video frame

Quindi, poiché la tecnologia AI avanza rapidamente, così fanno anche gli strumenti per rilevare il contenuto generato con il suo aiuto. Ma non c’è uno strumento universale che possa essere utilizzato da tutti su tutti i tipi di contenuto AI.

In oltre, la focalizzazione degli strumenti di rilevamento di deepfake, in particolare, rimane sui visi manipolati come il lip-syncing o il face-swapping, e i progressi nella tecnologia stanno rendendo inadeguati.

Con l’innovazione tecnologica che fa progressi significativi nei modelli generativi di testo-in-video (T2V) e immagine-in-video (I2V), ora è possibile per chiunque creare facilmente contenuti sintetici altamente convincenti e video completamente generati da AI. Ciò, naturalmente, pone una minaccia a tutti, dalle persone alle istituzioni e persino alle nazioni.

Contro questo sfondo, la dipendenza totale degli strumenti di rilevamento di deepfake sui visi li rende superati nel mondo di oggi, più tecnologicamente avanzato.

“Se non c’è un viso nel frame, molti rilevatori semplicemente non funzionano. Ma la disinformazione può arrivare in molte forme. Alterare lo sfondo di una scena può distortare la verità altrettanto facilmente”.

– Kundu

Quindi, i rilevatori convenzionali non funzionano sui nuovi manipolati, poiché il nuovo contenuto sintetico ora in funzione di scene piene e sfondi pone una sfida ai metodi di rilevamento basati sui visi.

Ciò richiede un approccio più versatile. Come soluzione a questo problema, i ricercatori dell’UC Riverside hanno introdotto UNITE.

Il modello UNITE cattura le manipolazioni di interi frame.

“I deepfake sono evoluti”, ha detto Kundu, il cui focus all’UC Riverside è sull’utilizzo di modelli fondamentali per compiti di visione avanzati, compresi la segmentazione delle immagini e il rilevamento di media falsi. “Le persone stanno ora creando interamente falsi videodai visi agli sfondiutilizzando potenti modelli generativi. Il nostro sistema è costruito per catturare tutto ciò”.

Il modello estende le capacità di rilevamento a scenari in cui non ci sono visi o soggetti umani, e in oltre a ciò, può identificare sottili discrepanze spaziali e temporali e persino coprire modifiche di sfondo complesse che i sistemi precedenti hanno mancato.

Quindi, esaminando i visi come anche lo sfondo e i modelli di movimento, coprendo interi frame video, UNITE offre uno dei primi strumenti per identificare video sintetici che non si basano solo sul contenuto facciale.

Per farlo, il modello utilizza un modello di apprendimento profondo basato su un meccanismo di attenzione multi-testa, un tipo di rete neurale che impiega un meccanismo di attenzione multi-testa per elaborare dati sequenziali. Qui, il testo viene convertito in rappresentazioni numeriche chiamate token. Questa architettura è in realtà la base per molti modelli linguistici moderni come GPT.

Elaborando le informazioni in parallelo, i transformer possono agevolare un addestramento più veloce e migliorare le prestazioni.

Nel caso di UNITE, l’architettura basata su transformer elabora caratteristiche indipendenti dal dominio che vengono estrate da video attraverso il modello fondamentale SigLIP-So400M. Il quadro fondamentale SigLIP estrae caratteristiche non legate a un oggetto o persona specifici.

A causa dei set di dati limitati che coprono le modifiche sia del viso/sfondo che del contenuto T2V/I2V completamente generato da AI, il team ha utilizzato strategie di addestramento innovative per il loro modello. Ciò significa addestrare utilizzando dati irrilevanti per il compito insieme ai dati deepfake standard.

Quindi, oltre al popolare set di dati FaceForensics++, il team ha anche utilizzato il set di dati SAIL-VOS-3D, che simula ambienti complessi, offrendo scene sintetiche diverse utili per l’addestramento dei modelli di rilevamento AI. Questo, il team ha trovato, migliora la capacità del loro modello di rilevare varie forme di manipolazione sintetica.

Google ha fornito l’accesso ai set di dati necessari nonché le risorse di calcolo per addestrare il modello.

Per ridurre la propensione del modello a concentrarsi eccessivamente sui visi, il team ha anche utilizzato una perdita di attenzione-diversità (AD), che incoraggia un’attenzione spaziale diversificata in tutto il frame.

La perdita di AD è stata combinata con l’entropia incrociata, anche nota come funzione di perdita logaritmica, e comunemente utilizzata nell’apprendimento automatico (ML) per misurare le prestazioni di un modello di classificazione, al fine di migliorare le prestazioni del modello in situazioni diverse.

Solo l’addestramento del modello sulla perdita di entropia incrociata (CE) tende a rendere difficile per il modello gestire i video in cui c’è un soggetto umano reale con uno sfondo manipolato o contenuto generato da modelli T2V e I2V.

Pertanto, il team ha introdotto la perdita di AD, che sollecita il sistema a monitorare molte regioni visive in ogni frame, migliorando così la capacità del modello di catturare segni importanti sia dal primo piano che dallo sfondo.

La perdita di AD segna l’innovazione chiave nell’approccio del team, abilitando UNITE non solo a eccellere nel rilevamento di video generati da AI e manipolati nello sfondo, ma anche a migliorare notevolmente la capacità di rilevare il solito contenuto manipolato del viso.

Al confronto delle prestazioni di UNITE con altri modelli, il team ha trovato che “supera i rilevatori di stato dell’arte su set di dati (in impostazioni di dati incrociati) che presentano manipolazioni del viso/sfondo e video T2V/I2V completamente sintetici, evidenziando la sua adattabilità e le capacità di rilevamento generalizzabili.

In un mondo che sta diventando sempre più digitale e automatizzato, il nuovo sistema offre un rilevatore universale che può segnalare una gamma di falsi, dalle semplici sostituzioni del viso a video completamente sintetici creati senza nessun footage reale. Secondo Kundu:

“È un modello che gestisce tutti questi scenari. È questo che lo rende universale”.

Attualmente in corso, UNITE, secondo i suoi creatori, è uno strumento prezioso nel paesaggio di rilevamento dei video sintetici in sviluppo. Presto, potrà essere utilizzato per difendere contro la disinformazione video.

Investire nel rilevamento basato sull’AI

Nel regno dell’AI, Palantir Technologies è noto per la sua piattaforma di integrazione dei dati basata sull’AI, il riconoscimento dei modelli e il rilevamento delle anomalie. L’azienda opera attraverso quattro piattaforme software principali: Gotham, Foundry, Apollo e AIP. Apollo è un singolo strato di controllo che coordina la configurazione, le aggiornamenti di sicurezza e la consegna di nuove funzionalità per garantire il funzionamento continuo dei sistemi critici. Gotham consente agli utenti di identificare modelli nascosti all’interno dei set di dati, mentre Foundry funge da sistema operativo per la gestione efficace degli asset e del rischio. AIP consente alle aziende di eseguire modelli di intelligenza artificiale con pieno controllo.

Palantir Technologies (PLTR )

Palantir vanta legami profondi con il governo degli Stati Uniti, le forze armate e le agenzie di intelligence. Quest’anno, ha ottenuto un contratto di 30 milioni di dollari per costruire una piattaforma di sorveglianza per l’ICE.

Con un capitale di 372 miliardi di dollari, le azioni PLTR sono attualmente in negoziazione a 157,72 dollari, con un aumento del 109,35% su base annua, grazie alla domanda di AI, all’interesse al dettaglio e ai contratti governativi in espansione. Il suo utile per azione (TTM) è 0,23, e il rapporto prezzo/utili (TTM) è 687,90.

(PLTR )

Dal punto di vista finanziario, Palantir ha segnalato un aumento del 39% su base annua del ricavo a 884 milioni di dollari nel primo trimestre del 2025. Il suo ricavo negli Stati Uniti è cresciuto del 55% su base annua a 628 milioni di dollari, compresi 255 milioni di dollari di ricavi commerciali negli Stati Uniti e 373 milioni di dollari di ricavi del governo negli Stati Uniti.

Durante questo periodo, l’azienda ha registrato il suo quarto trimestre di valore contrattuale commerciale negli Stati Uniti, con un valore residuo di 2,32 miliardi di dollari.

Il numero di clienti di Palantir nel primo trimestre del 2025 è aumentato del 39% su base annua. Il suo utile per azione GAAP è stato di 0,08 dollari, e l’utile per azione aggiustato è stato di 0,13 dollari. Le riserve di contanti, equivalenti di contanti e titoli del Tesoro a breve termine degli Stati Uniti sono stati di 5,4 miliardi di dollari alla fine del trimestre.

“Stiamo fornendo il sistema operativo per l’impresa moderna nell’era dell’AI. Siamo in mezzo a un cambiamento tettonico nell’adozione del nostro software, in particolare negli Stati Uniti”.

– CEO Alexander C. Karp

Ultimi Palantir Technologies (PLTR) notizie e sviluppi azionari

Conclusione

L’avvento dell’intelligenza artificiale ha completamente cambiato il mondo, con individui e organizzazioni che stanno sempre più adottando la tecnologia per migliorare la produttività e migliorare la presa <span data-preserver-spaces

Gaurav ha iniziato a negoziare criptovalute nel 2017 e da allora si è innamorato dello spazio crypto. Il suo interesse per tutto ciò che riguarda le criptovalute lo ha trasformato in uno scrittore specializzato in criptovalute e blockchain. Presto si è trovato a lavorare con aziende di criptovalute e testate giornalistiche. È anche un grande fan di Batman.

Advertiser Disclosure: Securities.io is committed to rigorous editorial standards to provide our readers with accurate reviews and ratings. We may receive compensation when you click on links to products we reviewed. ESMA: CFDs are complex instruments and come with a high risk of losing money rapidly due to leverage. Between 74-89% of retail investor accounts lose money when trading CFDs. You should consider whether you understand how CFDs work and whether you can afford to take the high risk of losing your money. Investment advice disclaimer: The information contained on this website is provided for educational purposes, and does not constitute investment advice. Trading Risk Disclaimer: There is a very high degree of risk involved in trading securities. Trading in any type of financial product including forex, CFDs, stocks, and cryptocurrencies. This risk is higher with Cryptocurrencies due to markets being decentralized and non-regulated. You should be aware that you may lose a significant portion of your portfolio. Securities.io is not a registered broker, analyst, or investment advisor.