Open-sourcetool meet het domheidsniveau van AI-modellen

AI-modellen zijn niet stabiel voor vibe codering (Afbeeldingsbron: Gegenereerd met OpenAI)

Een nieuwe open-source tool biedt realtime monitoring van meerdere AI-modellen, waaronder OpenAI GPT-5, Claude Opus 4 en Gemini 2.5 Pro. Deze tool is de eerste in zijn soort en kan detecteren "wanneer AI-bedrijven hun modelcapaciteit verminderen om kosten te besparen" De benchmarks kunnen ook worden uitgevoerd tegen de eigen OpenAI, xAI, Anthropic of Google API-sleutels van de gebruiker.

Codrut Nistor (vertaald door Ninh Duy), Gepubliceerd 18-09-2025 🇺🇸 🇪🇸 ...

Degenen die met AI-modellen hebben gewerkt voor verschillende taken, vooral coderen, hebben gemerkt dat de softwaretools zich inconsistent gedragen. In sommige gevallen geven ze gewoon geen antwoord; soms leveren ze foutieve code, en als ze dan komen met wat verwacht werd, doen ze dat langzamer dan normaal. Dit is waar de AI Benchmark Tool, te vinden op AistupidLevel.infodat real-time informatie geeft over de prestaties en nauwkeurigheid van verschillende AI-modellen, inclusief kostengegevens.

De eerder genoemde open-source tool voert meer dan 140 coderings-, debugging- en optimalisatietaken uit op alle grote modellen. Op dit moment volgt het de volgende: OpenAI GPT, Claude en Gemini. Grok zal binnenkort ook worden toegevoegd. De hoogtepunten zijn onder andere

Real-time prijsinformatie, aangezien sommige modellen die goedkoop lijken 10 iteraties nodig hebben om een klus te klaren, terwijl andere modellen die op het eerste gezicht duurder lijken dezelfde taak in 2 iteraties volbrengen, dus voor een lagere effectieve kostprijs.
De mogelijkheid om dezelfde tests uit te voeren met uw eigen API-sleutels.
Realtime controle van AI-prestaties, inclusief live rangschikking van modellen op basis van domheid en slimheid.
Slimme aanbevelingen, gebaseerd op gecombineerde prestaties.
Melding van actieve degradaties - bijvoorbeeld Gemini-2.5-Flash is nu 44% down vergeleken met de basislijnwaarde.

Momenteel zijn de slimme aanbevelingen de volgende: Gemini-2.5-Flash-Lite voor code, Claude-3.5-Sonnet-20241022 voor betrouwbaarheid en Gemini-2.5-Flash-Lite voor snelheid. Alles is open-sourced op GitHub (Repo API, Repo Front End), en iedereen kan bijdragen. Alle details en de tool zelf zijn te vinden op de officiële website, die in de eerste paragraaf werd genoemd.