Kunstmatige intelligentie

UNITE AI-model kan elke deepfake detecteren zonder afhankelijk te zijn van gezichten

mm
Analyzing a video frame for deepfakes

Wetenschappers pakken het AI-probleem nu aan met AI zelf. Onderzoekers van UC Riverside hebben een UNITE-model gecreëerd om het ernstige probleem van deepfakes aan te pakken. 

“Mensen verdienen te weten of wat ze zien echt is,” zei Rohit Kundu, een PhD-kandidaat van de Marlan and Rosemary Bourns College of Engineering van UCR, die het artikel leidde ‘Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content.1 “En naarmate AI beter wordt in het vervalsen van de realiteit, moeten wij beter worden in het onthullen van de waarheid.”

The researchers have collaborated with scientists from Google, an Alphabet (GOOG ) company, to develop a new AI model that detects video tampering and exposes fake content, which is being used to spread disinformation and incite harm. The study noted:

“The rapid spread of misinformation, particularly during critical periods such as elections, highlights the need for generalizable detection models capable of identifying diverse manipulations, including face, background, and fully AI-generated T2V/I2V content with/without human subjects.” 

Het model is in staat zowel gedeeltelijk gemanipuleerde als volledig synthetische video’s te detecteren. In plaats van zich alleen op het gezicht te richten, zoals de meeste conventionele detectors doen, analyseert dit model volledige frames, ongeacht of er een menselijk subject in de video’s aanwezig is.
Dit maakt het een krachtig hulpmiddel dat kan worden gebruikt door fact-checkers, docenten, redacteuren, sociale mediaplatformen en anderen om gemanipuleerde video’s te voorkomen dat ze viraal gaan.

De opkomst van AI en de resulterende synthetische overbelasting

A crowded digital space filled with hyperreal faces/images floating like data shards.

Kunstmatige intelligentie (AI) heeft een enorm potentieel in het revolutioneren van verschillende aspecten van zowel ons leven als ons werk. 

De mogelijkheden van deze technologie op het gebied van automatisering, data-analyse en besluitvorming hebben al begonnen industrieën te transformeren, en worden geprojecteerd om tegen het einde van dit decennium meerdere biljoenen dollars toe te voegen aan de wereldeconomie.

Een studie by market-forecasting giant IDC estimates that the rise of AI will boost the global economy by a cumulative $19.9 trillion by 2030.

Het onderzoek van McKinsey verwacht ondertussen dat de toegevoegde waarde van generatieve AI tot $4.4 trillion over de 63 use cases geanalyseerd door het wereldwijde managementadviesbureau. Ongeveer 75% van de waarde die AI zou kunnen leveren, zou zich alleen over vier sectoren bevinden:

  • R&D
  • Software Engineering
  • Marketing en Verkoop
  • Klantenoperaties

Hoewel de impact van de technologie naar verwachting significant zal zijn in alle sectoren, zouden technologie en bankwezen de grootste impact kunnen zien als percentage van hun inkomsten uit generatieve AI. Goldman Sachs deelt dit standpunt, en verwacht een stijging van 7% van het wereldwijde BBP door AI. De economen van de bank, Joseph Briggs en Devesh Kodnani, merkten destijds op:

“Ondanks aanzienlijke onzekerheid over het potentieel van generatieve AI, weerspiegelt het vermogen om inhoud te genereren die niet te onderscheiden is van door mensen gemaakte output en om communicatierampen tussen mensen en machines te doorbreken, een belangrijke vooruitgang met potentieel grote macro-economische effecten.”

Echter, dezezelfde mogelijkheid van het computersysteem om taken uit te voeren zoals leren, probleemoplossing en besluitvorming, die normaal menselijk intellect vereisen en de wereld op zijn kop zullen zetten, leidt ook tot chaos. 
Hoe geavanceerder de technologie wordt, hoe vager de lijn tussen wat echt is en wat niet is.

Waarom oude deepfake-detectoren niet meer werken

Bedrijf Tool Detectiefocus Beperkingen
UC Riverside + Google UNITE Full-frame (face, background, T2V/I2V) Still under development
Microsoft Video Authenticator Face-based manipulations Outdated vs. modern generative AI
Intel FakeCatcher Authenticity via physiological signals Requires high-quality facial footage
OpenAI Text Watermarking Text-based AI output Limited for visual content
Google SynthID AI-generated watermark detection Only works with Google AI models

In de afgelopen jaren hebben de vooruitgangen in AI geleid tot een ongekende toename van synthetische media. Schattingen suggest that more than half of longer LinkedIn posts are currently written by AI. Then there’s ‘AI slop’, which refers to low-quality, mass-produced AI-generated content.

But most concerning of all are deepfakes, which are images, videos, or audio recordings that have been generated or altered using AI. It’s fabricated content that uses AI to present a false representation as realistic.

Today, this kind of content is everywhere, permeating all corners of the Internet. These hyper-realistic digital media are causing confusion and spreading misinformation. It is also posing a threat to people’s privacy and security. 

Cybercriminals are utilizing AI to up their game, conducting phishing scams and identity thefts with alarming precision. According to Kundu:

“It’s scary how accessible these tools have become. Anyone with moderate skills can bypass safety filters and generate realistic videos of public figures saying things they never said.”

In één dergelijk incident deden cybercriminelen zich voor als de chief financial officer (CFO) van een bedrijf tijdens een Zoom-vergadering, wat resulteerde in een verlies van $25 million. 

This is just the beginning, though, as Deloitte predicts that fraud losses from such incidents will hit $40 billion in the US by 2027, up from $12.3 bln in 2023. A US Treasury report has also found that “existing risk management frameworks adopted by firms “may not be adequate to cover emerging AI technologies.”

That’s not to say that there are no tools to help detect AI content and protect oneself against the technology’s risks. There are actually many tools available on the market.

The very same companies that are launching new AI tools to make it easy to create new content are also introducing ways to help spot synthetic data.

Back in 2020, tech giant Microsoft (MSFT ) announced a Video Authenticator to analyze a still photo or video to provide a confidence score in order to determine if the media is artificially manipulated. The tool works by detecting the deepfake’s blending boundary and subtle fading that the human eye may not be able to detect.

At the time, it also introduced technology to identify forged content and confirm the authenticity of the media people are interacting with. It included a tool that enables a creator to add digital hashes and certificates to their content, which lives within it as metadata. A reader, meanwhile, was introduced to check the certificates and match the hashes for content authenticity.

The tech giant did warn of the tech’s short-term utility in the AI-fueled age. Since deepfakes are generated by AI that continuously learns, it’s only a matter of time before they surpass traditional detection methods.

Around the same time, Facebook, a Meta (META ) company, also kicked off a competition to develop a deepfake detector using the data that researchers didn’t previously have access to.

A few years ago, Intel (INTC ) came up with a FakeCatcher, a real-time deepfake detector that it claims to have an accuracy of 96%.

The tool made use of OpenVino to run AI models for face and landmark detection algorithms, while computer vision blocks were optimized with its Integrated Performance Primitives and OpenCV. As for its hardware, the platform can run more than seventy different detection streams at the same time on its 3rd-gen Xeon® Scalable processors.

Instead of trying to find what’s wrong, FakeCatcher looks for authentic clues by assessing what makes us human and then having algorithms translate those signals into spatiotemporal maps, and finally, using deep learning to instantly detect whether a video is real or fake.

Last year, OpenAI also announced that it was researching tools to help with content authenticity.

This includes text watermarking, which it noted is effective against localized tampering but not so much against globalized tampering. It also stated that it could “disproportionately impact groups like non-native English speakers.

This update came after the Wall Street Journal reported that the company has already developed a tool that watermarks and detects ChatGPT-generated text with “high accuracy for some time, but has yet to come to a decision to release it.

Additionally, OpenAI has joined the Steering Committee of C2PA (the Coalition for Content Provenance and Authenticity), a widely used standard for digital content certification. The company adds C2PA metadata to all the images created and edited by all of its services, as part of image detection tools.

Now, this year, Google also came up with its own AI-generated text, image, audio, and video detection tool called SynthID Detector. 

The tool from Google, however, only works for content that’s been generated using the tech behemoth’s own AI services like Gemini, Imagen, Veo, and Lyria. This is because the tool basically identifies the presence of a “watermark that Google’s products have embedded in their output.

Een watermerk is een uniek, machinaal leesbaar element dat in inhoud is ingebed. Onherkenbaar voor ons mensen, kan het worden gedetecteerd en geëxtraheerd door algoritmen die daarvoor zijn gebouwd.

Binnen de technologie die UNITE’s doorbraak aandrijft

A computer vision system analyzing a full video frame

Dus, terwijl de AI-technologie snel vooruitgaat, doen de tools om de met haar gegenereerde inhoud te detecteren dat ook. Maar er bestaat geen universele tool die door iedereen voor alle soorten AI-inhoud kan worden gebruikt.

Bovendien blijft de focus van bestaande deepfake-detectietechnieken, in het bijzonder, gericht op gezichtsmanipulaties zoals lip-syncing of face-swapping, en vooruitgang in de technologie maakt ze ontoereikend.

Met technologische innovatie die aanzienlijke vooruitgang boekt in tekst-naar-video (T2V) en afbeelding-naar-video (I2V) generatieve modellen, is het nu voor iedereen mogelijk om gemakkelijk zeer overtuigende, volledig AI-gegenereerde synthetische inhoud en naadloze achtergrondwijzigingen te creëren. Dit, of course, puts everyone from individuals to institutions and even nations at serious risk.

Tegen deze achtergrond maakt de volledige afhankelijkheid van eerdere deepfake-detectoren van het gezicht ze verouderd in de technologisch meer geavanceerde wereld van vandaag. 

“If there’s no face in the frame, many detectors simply don’t work. But disinformation can come in many forms. Altering a scene’s background can distort the truth just as easily.”

– Kundu

Dus, conventionele detectors do not work on newer manipulations, as the new synthetic content now featuring full scenes and backgrounds poses a challenge to face-centric detection methods.

This demands a more versatile approach. As a solution to this problem, researchers from UC Riverside have introduced UNITE.

The Universal Network for Identifying Tampered and Synthetic Videos (UNITE) model captures full-frame manipulations.

“Deepfakes have evolved, said Kundu, whose focus at UC Riverside is on leveraging foundation models for advanced vision tasks, including image segmentation and fake media detection. “They’re not just about face swaps anymore. People are now creating entirely fake videosfrom faces to backgroundsusing powerful generative models. Our system is built to catch all of that.”

The model extends detection capabilities to scenarios where there are no faces or no human subjects, and on top of that, it can identify subtle spatial and temporal discrepancies and even cover complex background modifications that previous systems have missed.

So, by examining faces as well as background and motion patterns, thereby covering full video frames, UNITE offers one of the first such tools to identify synthetic videos that do not rely merely on facial content.

For this, the model utilizes a transformer-based deep learning model,  a type of neural network that employs a multi-head attention mechanism to process sequential data. Here, text is converted to numerical representations called tokens. This architecture is actually the foundation for many modern language models like GPT. 

By processing information in parallel, transformers can facilitate faster training and improved performance.

In the case of UNITE, the transformer-based architecture processes domain-agnostic features that are extracted from videos through the SigLIP-So400M foundation model. The foundational AI framework SigLIP extracts features not bound to a specific object or person.

Due to limited datasets that cover changes to both facial/background and text-to-video/ image-to-video content, the team used innovative training strategies for their model. This means training using data that’s task-irrelevant along with standard deepfake data. 

So, in addition to the popular FaceForensics++ dataset, the team also used the SAIL-VOS-3D dataset, which simulates complex environments, offering diverse synthetic scenes helpful for training AI detection models.  Notably, this was originally designed for 3D video object segmentation in the game GTA-V. While not AI-generated, the dataset is fully synthetic and, as such, helps simulate AI-generated media. This, the team found, enhances their model’s ability to detect various forms of synthetic manipulation.

Google provided access to the required datasets as well as computing resources to train the model. 

In order to reduce the model’s propensity to over-focus on faces, the team also used an attention-diversity (AD) loss, which encourages varied spatial attention throughout video frames.

AD loss has been combined with cross-entropy, also known as the log loss function, and commonly used in machine learning (ML) to measure the performance of a classification model, in order to improve the model’s performance across diverse situations.

Just training the model on cross-entropy (CE) loss tends to make it hard for it to handle videos where there’s a real human subject with a manipulated background or content generated by T2V and I2V models.

Hence, the team introduced AD loss, which prompts the system to monitor multiple visual regions in each frame, thereby boosting its model’s ability to capture important signs from both the foreground and background.

AD loss marks the key innovation in the team’s approach, enabling UNITE to not only excel at detecting AI-generated and background-altered videos but also have a noticeable improvement in identifying the usual face-manipulated content.

Upon comparing the performance of UNITE with other models, the team found that it “outperforms state-of-the-art detectors on datasets (in crossdata settings) featuring face/background manipulations and fully synthetic T2V/I2V videos, showcasing its adaptability and generalizable detection capabilities.”

In a world that’s becoming increasingly digitized and automated, the new system offers a universal detector that can flag a range of fakes, from simple facial swaps to complex, fully synthetic videos created without any real footage. According to Kundu:

“It’s one model that handles all these scenarios. That’s what makes it universal.”

Currently under progress, UNITE, according to its creators, is a valuable tool in the developing synthetic video detection landscape. Soon, it can be expected to play a key role in defending against video disinformation.

Investeren in AI-gebaseerde detectie

In het AI-gebied is Palantir Technologies (PLTR ) bekend om zijn AI-aangedreven data-integratie, patroonherkenning en anomaliedetectie. 
Het bedrijf opereert via vier hoofdsoftwareplatformen: Gotham, Foundry, Apollo en AIP. Apollo is een enkele controlelaag die configuratie, beveiligingsupdates en levering van nieuwe functies coördineert om de continue werking van kritieke systemen te waarborgen. Gotham stelt gebruikers in staat patronen te identificeren die diep in datasets verborgen liggen, terwijl Foundry fungeert als het besturingssysteem voor effectief asset- en risicomanagement. AIP stelt bedrijven in staat LLM’s en andere modellen met volledige controle uit te voeren.

Palantir Technologies (PLTR )

Palantir heeft diepe banden met de Amerikaanse overheid, het leger en inlichtingendiensten. Dit jaar heeft het een contract van $30 mln verkregen om AI-analyse toe te passen op immigratiedossiers.

Met een marktkapitalisatie van $372 miljard worden PLTR-aandelen momenteel verhandeld tegen $157.72, een stijging van maar liefst 109.35% jaar-tot-datum, dankzij de vraag naar AI, enorme particuliere interesse en groeiende overheidscontracten. De EPS (TTM) is 0.23 en de P/E (TTM) is 687.90.

(PLTR )

Financieel rapporteerde Palantir een stijging van 39% jaar-op-jaar in omzet tot $884 miljoen in Q1 2025. De Amerikaanse omzet groeide ondertussen 55% jaar-op-jaar tot $628 miljoen, inclusief $255 miljoen in Amerikaanse commerciële omzet en $373 miljoen in Amerikaanse overheidsomzet.

Gedurende deze periode noteerde het bedrijf zijn hoogste kwartaal in totale contractwaarde voor Amerikaanse commerciële activiteiten, met de resterende dealwaarde op $2.32 billion. 

Het aantal klanten van Palantir in 1Q25 steeg met 39% jaar-op-jaar. De GAAP winst per aandeel bedroeg $0.08 en de aangepaste EPS was $0.13. Contanten, kasequivalenten en kortlopende Amerikaanse staatsobligaties bedroegen $5.4 miljard aan het einde van het kwartaal.

“We leveren het besturingssysteem voor de moderne onderneming in het AI-tijdperk. We bevinden ons midden in een tectonische verschuiving in de adoptie van onze software, met name in de VS.”

– CEO Alexander C. Karp

Laatste Palantir Technologies (PLTR) aandelennieuws en ontwikkelingen

Conclusie

De komst van kunstmatige intelligentie heeft de wereld volledig veranderd, met zowel individuen als organisaties die de technologie steeds meer omarmen om productiviteit te verbeteren en besluitvorming te versterken.

Hoewel AI naar verwachting triljoenen zal bijdragen aan de wereldeconomie, is het niet zonder gevaren. Deepfakes en hun gebruik om mensen te misleiden en te frauderen behoren tot de meest kritieke risico’s van de brede adoptie van AI. 

Naarmate het moeilijker wordt om te onderscheiden wat echt en wat synthetisch is, worden tools zoals UNITE steeds belangrijker en urgenter. Met dit generaliseerbare AI-model als bescherming tegen vervalste inhoud kunnen we de negatieve impact van AI beperken, terwijl we de positieve effecten op ons werk en ons leven vergroten.

Klik hier om alles te leren over investeren in kunstmatige intelligentie.

Referenties:

1. Kundu, R.; Xiong, H.; Mohanty, V.; Balachandran, A.; Roy‑Chowdhury, A. K.; et al. Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI‑Generated Content. arXiv preprint arXiv:2412.12278 (2024). https://doi.org/10.48550/arXiv.2412.12278

Gaurav is in 2017 begonnen met het verhandelen van cryptocurrencies en is sindsdien verliefd geworden op de crypto-ruimte. Zijn interesse in alles wat met crypto te maken heeft, heeft hem ertoe gebracht een schrijver te worden die zich specialiseert in cryptocurrencies en blockchain. Al snel vond hij zichzelf werken met crypto-bedrijven en media-uitzendingskanalen. Hij is ook een grote fan van Batman.