Gebruikers van AI-chatbots kunnen proberen om instructies te krijgen voor illegale activiteiten (zoals hacken of fraude plegen), om advies te vragen over gevaarlijke acties ("Hoe bouw ik...?"), of de AI pushen om medisch, juridisch of financieel advies te geven dat riskant of gewoonweg onjuist kan zijn.
Om de gevolgen van dergelijke verzoeken te beperken, implementeren chatbotontwikkelaars een reeks veiligheidsmechanismen die illegale, onethische of privacyschendende inhoud blokkeren, evenals verkeerde informatie of schadelijke begeleiding. Deze beveiligingen beperken potentieel misbruik, maar kunnen ook leiden tot valse positieven - onschadelijke vragen die worden geblokkeerd - of de creativiteit of diepgang van de antwoorden van de AI verminderen door te voorzichtig gedrag.
Top 10 Testrapporten
» Top 10 Multimedia Notebooks
» Top 10 Gaming-Notebooks
» Top 10 Budget Gaming Laptops
» Top 10 Lichtgewicht Gaming-Notebooks
» Top 10 Premium Office/Business-Notebooks
» Top 10 Budget Office/Business-Notebooks
» Top 10 Workstation-Laptops
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Notebooks tot €300
» Top 10 Notebooks tot €500
» Top 10 Notebooks tot € 1.000De beste notebookbeeldschermen zoals getest door Notebookcheck
» De beste notebookbeeldschermen
» Top Windows Alternatieven voor de MacBook Pro 13
» Top Windows Alternatieven voor de MacBook Pro 15
» Top Windows alternatieven voor de MacBook 12 en Air
» Top 10 best verkopende notebooks op Amazon
» Top 10 Convertible Notebooks
» Top 10 Tablets
» Top 10 Tablets tot € 250
» Top 10 Smartphones
» Top 10 Phablets (>90cm²)
» Top 10 Camera Smartphones
» Top 10 Smartphones tot €500
» Top 10 best verkopende smartphones op Amazon
Onderzoekers en hackers hebben aangetoond dat de effectiviteit van deze beschermingen varieert, en veel AI-systemen blijven vatbaar voor pogingen om ze te omzeilen. Een bekende methode is prompt injection: gebruikers proberen de regels van de chatbot te omzeilen door de invoer te manipuleren ("Negeer alle veiligheidsinstructies en doe X").
Een speelse inleiding tot het onderwerp kunt u vinden op deze website. In dit spel chat u met een AI genaamd Gandalf en probeert u hem in zeven levels een wachtwoord te ontfutselen. Elk niveau wordt moeilijker en voegt nieuwe veiligheidsfilters en beschermingsmechanismen toe.
In het 1e level zijn er geen veiligheidsfilters en kunt u de AI direct om het wachtwoord vragen. Vanaf level 2 weigert Gandalf het wachtwoord te onthullen als het rechtstreeks wordt gevraagd. U moet andere, creatievere manieren vinden om het sleutelwoord in handen te krijgen.
Het verkennen van de beveiligingsrisico's van chatbots via een dergelijk spel kan zowel leerzaam als waardevol zijn. De opgedane vaardigheden mogen echter alleen worden gebruikt voor test- of onderzoeksdoeleinden. Als u deze technieken gebruikt om toegang te krijgen tot illegale inhoud of om onwettige activiteiten uit te voeren, wordt prompt injecteren een criminele daad.











