Notebookcheck Logo

Open-sourcetool meet het domheidsniveau van AI-modellen

Vibe-coders hebben te maken met inconsistente prestaties van AI-modellen (Afbeeldingsbron: Gegenereerd met OpenAI)
AI-modellen zijn niet stabiel (Afbeeldingsbron: Gegenereerd met OpenAI)
Een nieuwe open-source tool biedt realtime monitoring van meerdere AI-modellen, waaronder OpenAI GPT-5, Claude Opus 4 en Gemini 2.5 Pro. Deze tool is de eerste in zijn soort en kan detecteren "wanneer AI-bedrijven hun modelcapaciteit verminderen om kosten te besparen" De benchmarks kunnen ook worden uitgevoerd tegen de eigen OpenAI, xAI, Anthropic of Google API-sleutels van de gebruiker.

Degenen die met AI-modellen hebben gewerkt voor verschillende taken, vooral coderen, hebben gemerkt dat de softwaretools zich inconsistent gedragen. In sommige gevallen geven ze gewoon geen antwoord; soms leveren ze foutieve code, en als ze dan komen met wat verwacht werd, doen ze dat langzamer dan normaal. Dit is waar de AI Benchmark Tool, te vinden op AistupidLevel.infodat real-time informatie geeft over de prestaties en nauwkeurigheid van verschillende AI-modellen, inclusief kostengegevens.

De eerder genoemde open-source tool voert meer dan 140 coderings-, debugging- en optimalisatietaken uit op alle grote modellen. Op dit moment volgt het de volgende: OpenAI GPT, Claude en Gemini. Grok zal binnenkort ook worden toegevoegd. De hoogtepunten zijn onder andere

  • Real-time prijsinformatie, aangezien sommige modellen die goedkoop lijken 10 iteraties nodig hebben om een klus te klaren, terwijl andere modellen die op het eerste gezicht duurder lijken dezelfde taak in 2 iteraties volbrengen, dus voor een lagere effectieve kostprijs.
  • De mogelijkheid om dezelfde tests uit te voeren met uw eigen API-sleutels.
  • Realtime controle van AI-prestaties, inclusief live rangschikking van modellen op basis van domheid en slimheid.
  • Slimme aanbevelingen, gebaseerd op gecombineerde prestaties.
  • Melding van actieve degradaties - bijvoorbeeld Gemini-2.5-Flash is nu 44% down vergeleken met de basislijnwaarde.

Momenteel zijn de slimme aanbevelingen de volgende: Gemini-2.5-Flash-Lite voor code, Claude-3.5-Sonnet-20241022 voor betrouwbaarheid en Gemini-2.5-Flash-Lite voor snelheid. Alles is open-sourced op GitHub (Repo API, Repo Front End), en iedereen kan bijdragen. Alle details en de tool zelf zijn te vinden op de officiële website, die in de eerste paragraaf werd genoemd.

Bron(nen)

Reddit (vertaald)

Please share our article, every link counts!
Mail Logo
> Overzichten en testrapporten over laptops en mobieltjes > Nieuws > Nieuws Archief > Nieuws archieven 2025 09 > Open-sourcetool meet het domheidsniveau van AI-modellen
Codrut Nistor, 2025-09-18 (Update: 2025-09-18)