ChatGPT, Gemini en soortgelijke tools worden steeds vaker gebruikt als gezondheidsadviseurs. Vragen als "Ik heb hoofdpijn - wat kan de oorzaak zijn?" of "Mijn schouder doet pijn - wanneer moet ik naar de dokter?" zijn nu routine voor deze chatbots. Maar een nieuwe studie van het Massachusetts Institute of Technology (MIT) toont aan dat niet alle gebruikers dezelfde antwoorden krijgen op deze veelgestelde vragen.
Gepubliceerd op 23 juni, de studie getiteld"Het medium is de boodschap: How Non-Clinical Information Shapes Clinical Decisions in LLMs" onderzoekt hoe ogenschijnlijk irrelevante factoren - zoals toon, schrijfstijl of opmaak - het medische advies van AI-systemen kunnen beïnvloeden.
Om te meten hoeveel invloed taal en stijl hebben op AI-chatbotbeslissingen, bouwden de onderzoekers een "perturbatiekader" Met dit hulpmiddel konden ze verschillende versies van dezelfde medische vraag maken - aangepast om elementen als onzekerheid, dramatische bewoordingen, typefouten of inconsistent hoofdlettergebruik toe te voegen. Vervolgens testten ze deze variaties op vier grote taalmodellen: GPT-4, LLaMA-3-70B, LLaMA-3-8B en Palmyra-Med - een model dat speciaal ontworpen is voor medisch gebruik.
Bijzonder getroffen: Vrouwen, niet-binaire mensen, niet-technologische gebruikers en niet-moedertaalsprekers
De bevindingen van het MIT-onderzoek zijn duidelijk: de manier waarop iemand schrijft, kan een aanzienlijke invloed hebben op het medische advies dat ze krijgen van AI-chatbots. Sommige gebruikers hadden, afhankelijk van hun schrijfstijl of toon, meer kans om overdreven voorzichtige aanbevelingen te ontvangen. Een van de meest opvallende resultaten: vrouwen kregen vaker te horen dat ze hun symptomen zelf moesten oplossen of kregen minder vaak het advies om naar een arts te gaan, zelfs als de medische inhoud van hun vraag identiek was.
Mensen die op een aarzelende toon schrijven, eenvoudige taal gebruiken of af en toe typefouten maken, lijken ook in het nadeel te zijn. Dit treft vaak niet-deskundigen, mensen met beperkte gezondheidskennis of mensen met zwakkere taalvaardigheden, vooral mensen die de taal niet als moedertaal hebben.
De onderzoekers benadrukken dat voordat AI-systemen op grote schaal gebruikt kunnen worden in de gezondheidszorg, ze grondig getest moeten worden - niet alleen gemiddeld, maar bij verschillende gebruikersgroepen. Gemiddelde nauwkeurigheid alleen zegt weinig over de eerlijkheid of betrouwbaarheid van een model, vooral wanneer gebruikers zich uitdrukken op een manier die afwijkt van de norm.
YouTube: Tussen lof en kippenvel
In een begeleidende YouTube-video wordt het onderzoek geprezen om het slimme en realistische ontwerp - maar de bevindingen worden beschreven als "verontrustend" en zelfs "ijzingwekkend" Het idee dat oppervlakkige factoren zoals toon of opmaak het medisch advies kunnen beïnvloeden, staat haaks op de algemene overtuiging dat AI objectief en neutraal is.
Bron(nen)
Top 10 Testrapporten
» Top 10 Multimedia Notebooks
» Top 10 Gaming-Notebooks
» Top 10 Budget Gaming Laptops
» Top 10 Lichtgewicht Gaming-Notebooks
» Top 10 Premium Office/Business-Notebooks
» Top 10 Budget Office/Business-Notebooks
» Top 10 Workstation-Laptops
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Notebooks tot €300
» Top 10 Notebooks tot €500
» Top 10 Notebooks tot € 1.000De beste notebookbeeldschermen zoals getest door Notebookcheck
» De beste notebookbeeldschermen
» Top Windows Alternatieven voor de MacBook Pro 13
» Top Windows Alternatieven voor de MacBook Pro 15
» Top Windows alternatieven voor de MacBook 12 en Air
» Top 10 best verkopende notebooks op Amazon
» Top 10 Convertible Notebooks
» Top 10 Tablets
» Top 10 Tablets tot € 250
» Top 10 Smartphones
» Top 10 Phablets (>90cm²)
» Top 10 Camera Smartphones
» Top 10 Smartphones tot €500
» Top 10 best verkopende smartphones op Amazon