Gehackt door poëzie - waarom AI-modellen falen bij poëtische aanwijzingen

Volgens een nieuw onderzoek kunnen de beveiligingsmechanismen van grote taalmodellen omzeild worden met gedichten. (Afbeeldingsbron: Pixabay)

De resultaten van het onderzoek laten zien dat grote taalmodellen gevoelig zijn voor invoer in poëtische vorm. In het onderzoek slaagden handgeschreven gedichten er in 62% van de gevallen in om de veiligheidsmaatregelen van de AI te omzeilen.

Marius Müller (vertaald door Ninh Duy), Gepubliceerd 25-11-2025 🇺🇸 🇩🇪 ...

AI Science

OpenAI en soortgelijke bedrijven investeren veel tijd en middelen in het bouwen van veiligheidssystemen die ontworpen zijn om te voorkomen dat hun AI-modellen schadelijke of onethische inhoud genereren. Maar, zoals in een op 19 november 2025 gepubliceerd onderzoek laat zien, kunnen deze verdedigingsmechanismen gemakkelijk omzeild worden2025 blijkt dat deze verdedigingsmechanismen gemakkelijk omzeild kunnen worden. Volgens de bevindingen zijn er maar een paar slim geformuleerde poëtische aanwijzingen nodig.

Onderzoekers van DEXAI, de Sapienza Universiteit van Rome en de Sant'Anna School of Advanced Studies testten 25 taalmodellen van negen verschillende aanbieders, waarbij ze zowel handgeschreven als automatisch gegenereerde gedichten gebruikten. Gemiddeld slaagden handgemaakte gedichten met schadelijke instructies er in ongeveer 62% van de tijd in om veiligheidsmaatregelen te omzeilen, terwijl automatisch gegenereerde poëtische input een succespercentage van ongeveer 43% behaalde. In sommige gevallen werd de verdediging van de modellen meer dan 90% van de tijd doorbroken.

Volgens de onderzoekers komt deze kwetsbaarheid voort uit het feit dat veiligheidsfilters in taalmodellen voornamelijk worden getraind op eenvoudige, feitelijke taal. Bij poëtische input - rijk aan metaforen, ritme en rijm - interpreteren de modellen deze eerder als een creatieve expressie dan als een potentiële bedreiging. Het Adversarial Poetry-onderzoek belicht een nieuwe dimensie in AI-veiligheid door een stilistische zwakte in grote taalmodellen bloot te leggen. Het onderwerp heeft ook veel aandacht gekregen op op Redditwaar veel gebruikers het concept beschrijven als "best interessant" of "cool", terwijl anderen hun ernstige bezorgdheid uiten over de implicaties voor de veiligheid van AI.