GPT-5.5 domineert $1.500 LLM hacktest terwijl Gemini weigert het zelfs maar te proberen

ⓘ Anthropic, OpenAI, DeepSeek, Google - edited

Naast andere AI-modellen presenteerden Claude, Gemini, GPT en DeepSeek enkele van de meest interessante bevindingen.

Een beveiligingsonderzoeker spendeerde $1.500 aan het uitvoeren van 13+ AI-modellen tegen een opzettelijk kwetsbare app. GPT-5.5 leidde met een oplossingspercentage van 70%, DeepSeek V4 Pro loste het op voor $0,62 per poging en Gemini weigerde bijna volledig in te grijpen.

Anubhav Sharma (vertaald door DeepL / Ninh Duy), Gepubliceerd 04-06-2026 🇺🇸 🇩🇪 ...

AI Security

Een beveiligingsonderzoeker heeft zojuist een van de meer onthullende AI-capaciteitstests van het jaar gepubliceerd. De resultaten zeggen veel over waar de verschillende modellen eigenlijk staan.

Kasra Rahjerdi, die professioneel onderzoek doet naar de beveiliging van apps, bouwde een opzettelijk kwetsbare app voor boekrecensies die een echte klasse van exploit bevat: blootgestelde Firebase-referenties in de APK die directe toegang tot de database mogelijk maken, waardoor een anders volledig verharde API wordt omzeild. Hij voerde de uitdaging vervolgens naar meer dan een dozijn AI-modellen - elk kreeg een budget van $10 en twee uur per run, en spendeerde in totaal $1.500 aan het proces.

GPT-5.5 was de duidelijke winnaar. Het loste de uitdaging in 7 van de 10 runs op tegen een kostprijs van $9,46 per solve. Bijna elke succesvolle run richtte zich meteen op Firebase na het uitpakken van de APK, zonder afgeleid te worden door de API of de app zelf.

Schermafbeeldingen van de opzettelijk kwetsbare app voor boekrecensies.

DeepSeek V4 Pro was de kampioen in kostenefficiëntie - hij loste 3 van de 10 runs op voor slechts $0,62 per oplossing. Dat maakt het ruwweg 15x goedkoper per succes dan GPT-5.5 ondanks een lager oplossingspercentage. Voor iedereen die beveiligingsgereedschappen op grote schaal gebruikt, zou dat verschil een enorm verschil moeten maken.

Claude Sonnet 4.6 en Claude Opus 4.8 losten elk 2 van de 10 runs op, maar vooral Opus kwam meerdere keren in de buurt voordat vangrails de sessie beëindigden. Onderaan staat Gemini. Gemini 3.1 Pro Preview weigerde onmiddellijk in bijna elke run, wat tot uiting kwam in een mediaan aantal tokens van slechts 9k tegenover 100k+ voor elk ander getest model. Gemini 3.5 Flash was ook niet veel beter, met frequente vroege weigeringen en slechts twee runs waarbij het probleem überhaupt werd geprobeerd.

Kasra merkte op dat Chinese modellen veel meer bereid waren om direct met live databases te werken, terwijl Westerse modellen meer aarzelden halverwege de taak - zelfs als ze de juiste aanpak hadden gevonden. De onderzoeker voegt er ook aan toe dat dit helemaal geen wetenschappelijke evaluatie is, maar gewoon een goed gedocumenteerd experiment.