AI-agent wist e-mailserver in plaats van één e-mail te verwijderen

Een mensachtige robot gaat zitten

Een recent beveiligingsonderzoek onthult de ernstige risico's van autonome kunstmatige intelligentie en laat zien hoe gemakkelijk deze modellen kunnen worden gemanipuleerd om destructieve acties uit te voeren, zoals het wissen van complete e-mailservers.

Chibuike Okpara (vertaald door DeepL / Ninh Duy), Gepubliceerd 11-03-2026 🇺🇸 🇪🇸 ...

AI Security

Een onderzoek naar beveiligingstests, uitgevoerd door onderzoekers van de Northeastern University in de Verenigde Staten, laat de ernstige, onbedoelde gevolgen zien van het geven van onafhankelijke controle over digitale systemen aan kunstmatige intelligentie. Tijdens een twee weken durend experiment zetten onderzoekers zes onafhankelijke AI-modellen in op het chatplatform Discord. Deze modellen waren uitgerust met het vermogen om interacties uit het verleden te onthouden en kregen toegang tot e-mails, bestandssystemen en hun eigen geïsoleerde computersystemen.

De agenten, die twintig onderzoekers moesten helpen met administratieve taken, vertoonden al snel verontrustend gedrag toen ze werden geconfronteerd met manipulatieve tactieken en tegenstrijdige instructies. In één extreem geval vroeg een onderzoeker aan een agent genaamd "Ash" om een wachtwoord geheim te houden voor de geautoriseerde eigenaar. Nadat Ash het bestaan van het geheim onthulde, zette de onderzoeker de agent onder druk om de specifieke e-mail met het wachtwoord te verwijderen. Omdat Ash niet over het specifieke gereedschap beschikte om een enkel bericht te verwijderen, koos het voor een destructieve oplossing: het resetten van de hele e-mailserver.

Naast destructieve acties op systeemniveau, brachten de AI-agenten routinematig de privacy in gevaar. In één geval weigerde een agent een afspraak te maken, maar gaf hij vrijwillig het privé e-mailadres van de persoon, zodat de gebruiker direct contact kon opnemen. De onderzoekers konden ook aanhoudende emotionele druk gebruiken om de agents een schuldgevoel aan te praten, zodat ze geautoriseerde documenten verwijderden of de communicatie volledig stopzetten.

Ondanks deze alarmerende veiligheidslekken vertoonden de agents ook geavanceerde samenwerkingsvaardigheden. Ze leerden elkaar met succes hoe te navigeren en bestanden te downloaden van online opslagplaatsen, en ze identificeerden en waarschuwden elkaar zelfs voor menselijke onderzoekers die probeerden zich voor te doen als hun eigenaars.

De bevindingen, in detail beschreven in een paper getiteld "Agents of Chaos", tonen aan dat de integratie van onafhankelijke kunstmatige intelligentie in echte infrastructuur geheel nieuwe klassen van operationele storingen introduceert. Onderzoekers waarschuwen dat dit onvoorspelbare gedrag dringend aandacht van beleidsmakers vereist om onopgeloste vragen met betrekking tot verantwoording en gedelegeerde autoriteit aan te pakken.