AI-assistenten zijn verrassend bedreven in het verzinnen van informatie en het presenteren als feiten. Valse beweringen, fictieve bronnen en verzonnen citaten horen er allemaal bij. Deze fouten worden meestal hallucinaties genoemd. Veel gebruikers zijn waarschijnlijk aan het probleem gewend geraakt en vertrouwen vaak op hun eigen fact-checking om waarheid van fictie te kunnen onderscheiden. Maar volgens OpenAIis er misschien een alternatief. Op 5 september bracht het bedrijf achter ChatGPT een gedetailleerd artikel uit dat een nieuwe verklaring biedt voor het optreden van hallucinaties - en een mogelijke oplossing.
Gissen wordt beloond, onzekerheid wordt bestraft
De 36 pagina's tellende papergeschreven door Adam Kalai, Santosh Vempala van Georgia Tech en andere OpenAI-onderzoekers, maakt één ding duidelijk: hallucinaties worden niet veroorzaakt door slordig schrijven, maar door de manier waarop de huidige evaluatiemetriek is opgezet. Deze statistieken hebben de neiging om zelfverzekerde gissingen te belonen en uitingen van onzekerheid af te straffen. De onderzoekers vergelijken dit met meerkeuzevragen - wie raadt kan punten scoren, terwijl wie vragen leeg laat niets krijgt. Statistisch gezien komt het gokmodel als beste uit de bus, zelfs als het vaak onjuiste informatie geeft.
Als gevolg hiervan richten de huidige leaderboards - die de prestaties van AI's rangschikken - zich bijna volledig op nauwkeurigheid, waarbij zowel foutpercentages als onzekerheid over het hoofd worden gezien. OpenAI roept nu op tot verandering. In plaats van alleen correcte antwoorden te tellen, zouden scoreborden zelfverzekerde fouten sterker moeten bestraffen, terwijl ze ook wat krediet zouden moeten toekennen voor voorzichtige onthoudingen. Het doel is om modellen aan te moedigen om onzekerheid te erkennen in plaats van zelfverzekerd onjuiste informatie als feit te presenteren.
Minder gissen, meer eerlijkheid
Eén voorbeeld uit het artikel laat zien welk verschil deze aanpak kan maken. In de SimpleQA benchmark koos een model ervoor om meer dan de helft van de vragen niet te beantwoorden, maar had slechts 26% van de antwoorden die het wel gaf fout. Een ander model beantwoordde bijna elke vraag - maar hallucineerde in ongeveer 75% van de gevallen. De afleiding is duidelijk: het tonen van onzekerheid is betrouwbaarder dan zelfverzekerd gokken dat alleen de illusie van precisie wekt.
Bron(nen)
Top 10 Testrapporten
» Top 10 Multimedia Notebooks
» Top 10 Gaming-Notebooks
» Top 10 Budget Gaming Laptops
» Top 10 Lichtgewicht Gaming-Notebooks
» Top 10 Premium Office/Business-Notebooks
» Top 10 Budget Office/Business-Notebooks
» Top 10 Workstation-Laptops
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Notebooks tot €300
» Top 10 Notebooks tot €500
» Top 10 Notebooks tot € 1.000De beste notebookbeeldschermen zoals getest door Notebookcheck
» De beste notebookbeeldschermen
» Top Windows Alternatieven voor de MacBook Pro 13
» Top Windows Alternatieven voor de MacBook Pro 15
» Top Windows alternatieven voor de MacBook 12 en Air
» Top 10 best verkopende notebooks op Amazon
» Top 10 Convertible Notebooks
» Top 10 Tablets
» Top 10 Tablets tot € 250
» Top 10 Smartphones
» Top 10 Phablets (>90cm²)
» Top 10 Camera Smartphones
» Top 10 Smartphones tot €500
» Top 10 best verkopende smartphones op Amazon