Gegevensdiefstal met onzichtbare tekst: Hoe gemakkelijk ChatGPT en andere AI-tools kunnen worden misleid

Bij een AgentFlayer-aanval worden afbeeldingen gebruikt om verborgen prompts af te leveren. (Afbeeldingsbron: OpenAI)

Tijdens de beveiligingsconferentie Black Hat USA onthulden onderzoekers een nieuwe techniek om AI-systemen aan te vallen. Door verborgen instructies in te sluiten, kunnen aanvallers tools zoals ChatGPT stilletjes manipuleren om gevoelige gegevens uit aangesloten cloud-opslag te halen. Sommige providers zijn begonnen met reageren, terwijl andere het risico bagatelliseren.

Marius Müller (vertaald door Ninh Duy), Gepubliceerd 18-08-2025 🇺🇸 🇩🇪 ...

AI Security Cyberlaw Business

Tijdens de Black Hat USA 2025 beveiligingsconferentie in Las Vegas onthulden onderzoekers een nieuwe methode om AI-systemen zoals ChatGPT, Microsoft Copilot en Google Gemini te misleiden. De techniek, bekend als AgentFlayer, werd ontwikkeld door Zenity-onderzoekers Michael Bargury en Tamir Ishay Sharbat. Een persbericht van https://www.prnewswire.com/news-releases/zenity-labs-exposes-widespread-agentflayer-vulnerabilities-allowing-silent-hijacking-of-major-enterprise-ai-agents-circumventing-human-oversight-302523580.html met de bevindingen werd op 6 augustus gepubliceerd.

Het concept achter de aanval is bedrieglijk eenvoudig: tekst wordt verborgen in een document met behulp van een wit lettertype op een witte achtergrond. De tekst is onzichtbaar voor het menselijk oog, maar kan gemakkelijk worden gelezen door AI-systemen. Zodra de afbeelding bij het doelwit is afgeleverd, is de val gezet. Als het bestand is opgenomen in een prompt, gooit de AI de oorspronkelijke taak overboord en volgt in plaats daarvan de verborgen instructie - het doorzoeken van verbonden cloud-opslag voor toegangsreferenties.

Om de gegevens te exfiltreren, gebruikten de onderzoekers een tweede tactiek: ze gaven de AI de opdracht om de gestolen informatie in een URL te coderen en er een afbeelding van te laden. Deze methode brengt de gegevens discreet over naar de servers van de aanvallers zonder argwaan te wekken.

Zenity toonde aan dat de aanval in de praktijk werkt:

In ChatGPT werden e-mails gemanipuleerd zodat de AI-agent toegang kreeg tot Google Drive.
In Microsoft's Copilot Studio ontdekten de onderzoekers meer dan 3.000 gevallen van onbeveiligde CRM-gegevens.
Salesforce Einstein kon worden misleid om klantcommunicatie om te leiden naar externe adressen.
Google Gemini en Microsoft 365 Copilot waren ook gevoelig voor valse e-mails en agenda-items.
Aanvallers verkregen zelfs inloggegevens voor het ontwikkelaarsplatform Jira via vervalste tickets.

OpenAI en Microsoft reageren, terwijl anderen geen noodzaak zien voor actie

Het goede nieuws is dat OpenAI en Microsoft al updates hebben uitgebracht om de kwetsbaarheden te verhelpen nadat ze door de onderzoekers waren gewaarschuwd. Andere leveranciers hebben echter langzamer gereageerd en sommigen hebben de exploits zelfs afgedaan als "bedoeld gedrag" Onderzoeker Michael Bargury benadrukte de ernst van het probleem door te stellen: "De gebruiker hoeft niets te doen om gecompromitteerd te worden, en er is geen actie nodig om de gegevens te laten uitlekken."