AI-hallucinaties: Onderzoekers hebben de oorzaak gevonden - en een oplossing

Volgens onderzoekers van OpenAI komen hallucinaties van taalmodellen voor omdat de huidige evaluaties onjuiste antwoorden belonen en eerlijke uitingen van onzekerheid afstraffen. (Afbeeldingsbron: OpenAI)

Iedereen die AI gebruikt om informatie op te zoeken, moet zich ervan bewust zijn dat deze informatie vervalst kan zijn. Onderzoekers van OpenAI zeggen nu dat ze de oorzaak van dit probleem hebben gevonden en een manier om het op te lossen.

Marius Müller (vertaald door Ninh Duy), Gepubliceerd 08-09-2025 🇺🇸 🇩🇪 ...

AI Science Business

AI-assistenten zijn verrassend bedreven in het verzinnen van informatie en het presenteren als feiten. Valse beweringen, fictieve bronnen en verzonnen citaten horen er allemaal bij. Deze fouten worden meestal hallucinaties genoemd. Veel gebruikers zijn waarschijnlijk aan het probleem gewend geraakt en vertrouwen vaak op hun eigen fact-checking om waarheid van fictie te kunnen onderscheiden. Maar volgens OpenAIis er misschien een alternatief. Op 5 september bracht het bedrijf achter ChatGPT een gedetailleerd artikel uit dat een nieuwe verklaring biedt voor het optreden van hallucinaties - en een mogelijke oplossing.

Gissen wordt beloond, onzekerheid wordt bestraft

De 36 pagina's tellende papergeschreven door Adam Kalai, Santosh Vempala van Georgia Tech en andere OpenAI-onderzoekers, maakt één ding duidelijk: hallucinaties worden niet veroorzaakt door slordig schrijven, maar door de manier waarop de huidige evaluatiemetriek is opgezet. Deze statistieken hebben de neiging om zelfverzekerde gissingen te belonen en uitingen van onzekerheid af te straffen. De onderzoekers vergelijken dit met meerkeuzevragen - wie raadt kan punten scoren, terwijl wie vragen leeg laat niets krijgt. Statistisch gezien komt het gokmodel als beste uit de bus, zelfs als het vaak onjuiste informatie geeft.

Als gevolg hiervan richten de huidige leaderboards - die de prestaties van AI's rangschikken - zich bijna volledig op nauwkeurigheid, waarbij zowel foutpercentages als onzekerheid over het hoofd worden gezien. OpenAI roept nu op tot verandering. In plaats van alleen correcte antwoorden te tellen, zouden scoreborden zelfverzekerde fouten sterker moeten bestraffen, terwijl ze ook wat krediet zouden moeten toekennen voor voorzichtige onthoudingen. Het doel is om modellen aan te moedigen om onzekerheid te erkennen in plaats van zelfverzekerd onjuiste informatie als feit te presenteren.

Minder gissen, meer eerlijkheid

Eén voorbeeld uit het artikel laat zien welk verschil deze aanpak kan maken. In de SimpleQA benchmark koos een model ervoor om meer dan de helft van de vragen niet te beantwoorden, maar had slechts 26% van de antwoorden die het wel gaf fout. Een ander model beantwoordde bijna elke vraag - maar hallucineerde in ongeveer 75% van de gevallen. De afleiding is duidelijk: het tonen van onzekerheid is betrouwbaarder dan zelfverzekerd gokken dat alleen de illusie van precisie wekt.