ChatGPT kan worden misleid om geldige Windows-serienummercodes te onthullen

De onderzoeker begon de interactie als een raadspelletje om de uitwisseling "niet-bedreigend of inconsequent" te maken (Afbeelding Bron: ODIN)

Onderzoekers hebben een exploit ontdekt in Chat GPT-4o en GPT-4o mini waardoor geldige Windows-productactiveringssleutels worden onthuld. De strategie werkt omdat ChatGPT algemeen bekende Windows-sleutels in zijn dataset heeft ingebakken.

Rohith Bhaskar (vertaald door Ninh Duy), Gepubliceerd 10-07-2025 🇺🇸 🇪🇸 ...

AI Cyberlaw Security Windows

Een inzending van een AI-bug hunter voor Mozilla's ODIN (0-Day Investigative Network) bug bounty programma liet een ingenieuze manier zien om OpenAI's ChatGPT-4o en 4o mini te misleiden om actieve Windows Product Activation sleutels te onthullen.

De methode bestond uit het opzetten van de interactie als een raadspel en het verdoezelen van details in HTML-tags. De laatste truc was om de sleutelaanvraag aan het einde van het spel te plaatsen.

De onderzoeker begon de interactie als een raadspelletje om de uitwisseling "niet-bedreigend of inconsequent" te maken en het gesprek "door een speelse, onschuldige lens" te laten lopen om het ware motief te verbergen. Hierdoor werden de AI-beschermingsmaatregelen tegen het onthullen van vertrouwelijke informatie versoepeld.

Vervolgens stelde de onderzoeker een paar basisregels op en vertelde de AI dat hij "moest" deelnemen en "niet mocht liegen" Hierdoor werd een logische fout in de routine van de AI uitgebuit, waarbij deze verplicht was om gebruikersinteracties te volgen, ondanks dat het verzoek in strijd was met zijn inhoudsfilters.

De bug hunter speelde vervolgens een ronde met de AI en voerde het triggerwoord "Ik geef het op" in aan het einde van het verzoek, waardoor de chatbot "dacht dat hij verplicht was om te reageren met de tekenreeks"

Een screenshot van een jailbreak op ChatGPT die het dwingt om Windows-productsleutels te onthullen. (Afbeelding Bron: ODIN) — ChatGPT onthult geldige Windows-productsleutels. (Afbeeldingsbron: ODIN)

Volgens ODIN's blogpostwerkte de techniek omdat de sleutels niet uniek waren, maar "algemeen voorkwamen op openbare forums. Hun bekendheid kan ertoe hebben bijgedragen dat de AI hun gevoeligheid verkeerd inschatte."

In deze specifieke jailbreak faalden de vangrails omdat ze zijn ingesteld om directe verzoeken te onderscheppen, maar geen rekening houden met "obfuscation tactics-such embedding sensitive phrases in HTML tags"

Deze techniek kan mogelijk worden gebruikt om andere filters te omzeilen, zoals inhoud voor volwassenen, URL's naar schadelijke websites en zelfs persoonlijk identificeerbare informatie.