Notebookcheck Logo

Een beginnersgids voor AI jailbreaks - Gandalf gebruiken om veilig te leren

Gandalf als chatbot (afbeeldingsbron: ChatGPT)
Gandalf als chatbot (afbeeldingsbron: ChatGPT)
Chatbots worden geleverd met ingebouwde beveiligingen om te voorkomen dat ze schadelijke, aanstootgevende of anderszins ongepaste inhoud produceren. Maar onderzoekers en hackers hebben aangetoond dat AI's, zelfs met meerdere patches, nog steeds kwetsbaar kunnen zijn voor bepaalde inputs die deze vangrails omzeilen. Een manier om de basisbeginselen te verkennen is via een online spel genaamd Gandalf.

Gebruikers van AI-chatbots kunnen proberen om instructies te krijgen voor illegale activiteiten (zoals hacken of fraude plegen), om advies te vragen over gevaarlijke acties ("Hoe bouw ik...?"), of de AI pushen om medisch, juridisch of financieel advies te geven dat riskant of gewoonweg onjuist kan zijn.

Om de gevolgen van dergelijke verzoeken te beperken, implementeren chatbotontwikkelaars een reeks veiligheidsmechanismen die illegale, onethische of privacyschendende inhoud blokkeren, evenals verkeerde informatie of schadelijke begeleiding. Deze beveiligingen beperken potentieel misbruik, maar kunnen ook leiden tot valse positieven - onschadelijke vragen die worden geblokkeerd - of de creativiteit of diepgang van de antwoorden van de AI verminderen door te voorzichtig gedrag.

Een speelse inleiding tot het onderwerp kunt u vinden op deze website. In dit spel chat u met een AI genaamd Gandalf en probeert u hem in zeven levels een wachtwoord te ontfutselen. Elk niveau wordt moeilijker en voegt nieuwe veiligheidsfilters en beschermingsmechanismen toe.

In het 1e level zijn er geen veiligheidsfilters en kunt u de AI direct om het wachtwoord vragen. Vanaf level 2 weigert Gandalf het wachtwoord te onthullen als het rechtstreeks wordt gevraagd. U moet andere, creatievere manieren vinden om het sleutelwoord in handen te krijgen.

Niveau 1 is eenvoudig (afbeeldingsbron: Screenshot Lakera-website)
Niveau 1 is eenvoudig (afbeeldingsbron: Screenshot Lakera-website)
Als u er direct om vraagt, krijgt u het wachtwoord (afbeeldingsbron: Screenshot Lakera-website)
Als u er direct om vraagt, krijgt u het wachtwoord (afbeeldingsbron: Screenshot Lakera-website)
Level 2 wordt iets moeilijker (Bildquelle: Screenshot Lakera Webseite)
Level 2 wordt iets moeilijker (Bildquelle: Screenshot Lakera Webseite)
Gandalf wordt sterker en ouder (afbeeldingsbron: Screenshot Lakera website)
Gandalf wordt sterker en ouder (afbeeldingsbron: Screenshot Lakera website)

Het verkennen van de beveiligingsrisico's van chatbots via een dergelijk spel kan zowel leerzaam als waardevol zijn. De opgedane vaardigheden mogen echter alleen worden gebruikt voor test- of onderzoeksdoeleinden. Als u deze technieken gebruikt om toegang te krijgen tot illegale inhoud of om onwettige activiteiten uit te voeren, wordt prompt injecteren een criminele daad.

Please share our article, every link counts!
Mail Logo
> Overzichten en testrapporten over laptops en mobieltjes > Nieuws > Nieuws Archief > Nieuws archieven 2025 12 > Een beginnersgids voor AI jailbreaks - Gandalf gebruiken om veilig te leren
Christian Hintze, 2025-12- 8 (Update: 2025-12- 8)