GPT-5.5 domineert $1.500 LLM hacktest terwijl Gemini weigert het zelfs maar te proberen

Een beveiligingsonderzoeker heeft zojuist een van de meer onthullende AI-capaciteitstests van het jaar gepubliceerd. De resultaten zeggen veel over waar de verschillende modellen eigenlijk staan.
Kasra Rahjerdi, die professioneel onderzoek doet naar de beveiliging van apps, bouwde een opzettelijk kwetsbare app voor boekrecensies die een echte klasse van exploit bevat: blootgestelde Firebase-referenties in de APK die directe toegang tot de database mogelijk maken, waardoor een anders volledig verharde API wordt omzeild. Hij voerde de uitdaging vervolgens naar meer dan een dozijn AI-modellen - elk kreeg een budget van $10 en twee uur per run, en spendeerde in totaal $1.500 aan het proces.
GPT-5.5 was de duidelijke winnaar. Het loste de uitdaging in 7 van de 10 runs op tegen een kostprijs van $9,46 per solve. Bijna elke succesvolle run richtte zich meteen op Firebase na het uitpakken van de APK, zonder afgeleid te worden door de API of de app zelf.
Top 10 Testrapporten
» Top 10 Multimedia Notebooks
» Top 10 Gaming-Notebooks
» Top 10 Budget Gaming Laptops
» Top 10 Lichtgewicht Gaming-Notebooks
» Top 10 Premium Office/Business-Notebooks
» Top 10 Budget Office/Business-Notebooks
» Top 10 Workstation-Laptops
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Notebooks tot €300
» Top 10 Notebooks tot €500
» Top 10 Notebooks tot € 1.000
» De beste notebookbeeldschermen
» Top Windows Alternatieven voor de MacBook Pro 13
» Top Windows Alternatieven voor de MacBook Pro 15
» Top Windows alternatieven voor de MacBook 12 en Air
» Top 10 best verkopende notebooks op Amazon
» Top 10 Convertible Notebooks
» Top 10 Tablets
» Top 10 Tablets tot € 250
» Top 10 Smartphones
» Top 10 Phablets (>90cm²)
» Top 10 Camera Smartphones
» Top 10 Smartphones tot €500
» Top 10 best verkopende smartphones op Amazon
DeepSeek V4 Pro was de kampioen in kostenefficiëntie - hij loste 3 van de 10 runs op voor slechts $0,62 per oplossing. Dat maakt het ruwweg 15x goedkoper per succes dan GPT-5.5 ondanks een lager oplossingspercentage. Voor iedereen die beveiligingsgereedschappen op grote schaal gebruikt, zou dat verschil een enorm verschil moeten maken.
Claude Sonnet 4.6 en Claude Opus 4.8 losten elk 2 van de 10 runs op, maar vooral Opus kwam meerdere keren in de buurt voordat vangrails de sessie beëindigden. Onderaan staat Gemini. Gemini 3.1 Pro Preview weigerde onmiddellijk in bijna elke run, wat tot uiting kwam in een mediaan aantal tokens van slechts 9k tegenover 100k+ voor elk ander getest model. Gemini 3.5 Flash was ook niet veel beter, met frequente vroege weigeringen en slechts twee runs waarbij het probleem überhaupt werd geprobeerd.
Kasra merkte op dat Chinese modellen veel meer bereid waren om direct met live databases te werken, terwijl Westerse modellen meer aarzelden halverwege de taak - zelfs als ze de juiste aanpak hadden gevonden. De onderzoeker voegt er ook aan toe dat dit helemaal geen wetenschappelijke evaluatie is, maar gewoon een goed gedocumenteerd experiment.









