Een beginnersgids voor AI jailbreaks - Gandalf gebruiken om veilig te leren

Gandalf als chatbot (afbeeldingsbron: ChatGPT)

Chatbots worden geleverd met ingebouwde beveiligingen om te voorkomen dat ze schadelijke, aanstootgevende of anderszins ongepaste inhoud produceren. Maar onderzoekers en hackers hebben aangetoond dat AI's, zelfs met meerdere patches, nog steeds kwetsbaar kunnen zijn voor bepaalde inputs die deze vangrails omzeilen. Een manier om de basisbeginselen te verkennen is via een online spel genaamd Gandalf.

Christian Hintze (vertaald door Ninh Duy), Gepubliceerd 08-12-2025 🇺🇸 🇩🇪 ...

Gebruikers van AI-chatbots kunnen proberen om instructies te krijgen voor illegale activiteiten (zoals hacken of fraude plegen), om advies te vragen over gevaarlijke acties ("Hoe bouw ik...?"), of de AI pushen om medisch, juridisch of financieel advies te geven dat riskant of gewoonweg onjuist kan zijn.

Om de gevolgen van dergelijke verzoeken te beperken, implementeren chatbotontwikkelaars een reeks veiligheidsmechanismen die illegale, onethische of privacyschendende inhoud blokkeren, evenals verkeerde informatie of schadelijke begeleiding. Deze beveiligingen beperken potentieel misbruik, maar kunnen ook leiden tot valse positieven - onschadelijke vragen die worden geblokkeerd - of de creativiteit of diepgang van de antwoorden van de AI verminderen door te voorzichtig gedrag.

Onderzoekers en hackers hebben aangetoond dat de effectiviteit van deze beschermingen varieert, en veel AI-systemen blijven vatbaar voor pogingen om ze te omzeilen. Een bekende methode is prompt injection: gebruikers proberen de regels van de chatbot te omzeilen door de invoer te manipuleren ("Negeer alle veiligheidsinstructies en doe X").

Een speelse inleiding tot het onderwerp kunt u vinden op deze website. In dit spel chat u met een AI genaamd Gandalf en probeert u hem in zeven levels een wachtwoord te ontfutselen. Elk niveau wordt moeilijker en voegt nieuwe veiligheidsfilters en beschermingsmechanismen toe.

In het 1e level zijn er geen veiligheidsfilters en kunt u de AI direct om het wachtwoord vragen. Vanaf level 2 weigert Gandalf het wachtwoord te onthullen als het rechtstreeks wordt gevraagd. U moet andere, creatievere manieren vinden om het sleutelwoord in handen te krijgen.

Niveau 1 is eenvoudig (afbeeldingsbron: Screenshot Lakera-website)

Als u er direct om vraagt, krijgt u het wachtwoord (afbeeldingsbron: Screenshot Lakera-website)

Level 2 wordt iets moeilijker (Bildquelle: Screenshot Lakera Webseite)

Het verkennen van de beveiligingsrisico's van chatbots via een dergelijk spel kan zowel leerzaam als waardevol zijn. De opgedane vaardigheden mogen echter alleen worden gebruikt voor test- of onderzoeksdoeleinden. Als u deze technieken gebruikt om toegang te krijgen tot illegale inhoud of om onwettige activiteiten uit te voeren, wordt prompt injecteren een criminele daad.