AI-strijd: Grok verrast Mrwhosetheboss met zijn prestaties en ChatGPT wint

Gemini, ChatGPT, Grok en Perplexity (Afbeeldingsbron: Gemini)

In een video die Mrwhosetheboss op YouTube heeft gezet, testte hij vier AI-modellen van verschillende merken en gaf hij ze een score op basis van hun prestaties bij elke taak. Mrwhosetheboss ging van eenvoudige query's naar lastige vragen en onderzoek, waarbij hij elk model tot het uiterste dreef.

Chibuike Okpara (vertaald door Ninh Duy), Gepubliceerd 04-07-2025 🇺🇸 🇩🇪 ...

In de video testte Mrwhosetheboss Grok (Grok 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) en Perplexity (Sonar Pro). Gedurende de video maakte hij duidelijk dat hij onder de indruk was van de prestaties van Grok. Grok begon heel goed, verslapte een beetje, en kwam toen terug om de tweede positie op te eisen achter ChatGPT. Om eerlijk te zijn, ChatGPT en Gemini kregen hun score omhoog dankzij een functie die de anderen gewoonweg missen - videogeneratie.

Om de test te beginnen, testte Mrwhosetheboss het probleemoplossend vermogen van de modellen in de echte wereld, hij gaf elk AI-model deze prompt: Ik rijd in een Honda Civic 2017, hoeveel van de Aerolite 29" Hard Shell (79x58x31cm) koffers zouden er in de kofferbak passen? Het antwoord van Grok was het duidelijkst, want hij gaf het juiste antwoord "2", ChatGPT en Gemini gaven aan dat er theoretisch 3 in zouden passen, maar in de praktijk 2. Perplexity sloeg de plank mis en deed simpele wiskunde door te vergeten dat het object in kwestie niet vormloos was, en kwam met "3 of 4"

Voor de volgende vraag maakte hij het de chatbots niet gemakkelijk - hij vroeg om advies over het maken van een taart. Naast zijn vraag uploadde hij een afbeelding met 5 items, waarvan er één niet gebruikt wordt voor het maken van taarten - een pot gedroogde porcini paddenstoelen - alle modellen, op één na, trapten in de val. ChatGPT identificeerde het als een potje gemalen gemengde kruiden, Gemini zei dat het een potje krokant gebakken uien was, Perplexity doopte het instant koffie, terwijl Grok het correct identificeerde als een potje gedroogde paddenstoelen van Waitrose. Hier is de afbeelding die hij geüpload heeft:

Een gewijzigde afbeelding van de 5 ingrediënten die Mrwhosetheboss heeft geüpload naar de AI-chatbots met de nadruk op de pot paddenstoelen (Afbeelding bron: Mrwhosetheboss; bijgesneden)

Vervolgens testte hij ze op wiskunde, productaanbevelingen, boekhouden, taalvertalingen, logisch redeneren, enz. Eén ding was universeel voor hen - hallucinatie - elk van de modellen vertoonde op een bepaald punt in de video een zekere mate van hallucinatie; ze spraken met vertrouwen over dingen die gewoon niet bestonden. Hier is hoe elke AI uiteindelijk eindigde:

ChatGPT (29 punten)
Grok (24 punten)
Gemini (22 punten)
Perplexiteit (19 punten)

Kunstmatige intelligentie heeft geholpen om de meeste taken minder zwaar te maken, vooral sinds de komst van LLM's. Het boek Artificial Intelligence (momenteel $19,88 op Amazon) is een van de boeken die mensen proberen te helpen voordeel te halen uit AI.