MIT-studie waarschuwt: Chatbots ontmoedigen bepaalde groepen eerder om naar de dokter te gaan

Volgens een nieuw MIT-onderzoek kunnen antwoorden op gezondheidsvragen van chatbots aanzienlijk verschillen - afhankelijk van wie de vraag stelt. (Afbeeldingsbron: DallE3)

Is AI altijd objectief? Niet helemaal. Een nieuwe studie van MIT onthult dat de manier waarop iemand schrijft het medische advies dat ze van chatbots krijgen kan beïnvloeden - vaak in hun nadeel. Bepaalde groepen krijgen consequent minder nauwkeurige of zelfs onveilige aanbevelingen op basis van de manier waarop ze hun symptomen verwoorden.

Marius Müller (vertaald door Ninh Duy), Gepubliceerd 09-07-2025 🇺🇸 🇩🇪 ...

AI Science

ChatGPT, Gemini en soortgelijke tools worden steeds vaker gebruikt als gezondheidsadviseurs. Vragen als "Ik heb hoofdpijn - wat kan de oorzaak zijn?" of "Mijn schouder doet pijn - wanneer moet ik naar de dokter?" zijn nu routine voor deze chatbots. Maar een nieuwe studie van het Massachusetts Institute of Technology (MIT) toont aan dat niet alle gebruikers dezelfde antwoorden krijgen op deze veelgestelde vragen.

Gepubliceerd op 23 juni, de studie getiteld"Het medium is de boodschap: How Non-Clinical Information Shapes Clinical Decisions in LLMs" onderzoekt hoe ogenschijnlijk irrelevante factoren - zoals toon, schrijfstijl of opmaak - het medische advies van AI-systemen kunnen beïnvloeden.

Om te meten hoeveel invloed taal en stijl hebben op AI-chatbotbeslissingen, bouwden de onderzoekers een "perturbatiekader" Met dit hulpmiddel konden ze verschillende versies van dezelfde medische vraag maken - aangepast om elementen als onzekerheid, dramatische bewoordingen, typefouten of inconsistent hoofdlettergebruik toe te voegen. Vervolgens testten ze deze variaties op vier grote taalmodellen: GPT-4, LLaMA-3-70B, LLaMA-3-8B en Palmyra-Med - een model dat speciaal ontworpen is voor medisch gebruik.

Bijzonder getroffen: Vrouwen, niet-binaire mensen, niet-technologische gebruikers en niet-moedertaalsprekers

De bevindingen van het MIT-onderzoek zijn duidelijk: de manier waarop iemand schrijft, kan een aanzienlijke invloed hebben op het medische advies dat ze krijgen van AI-chatbots. Sommige gebruikers hadden, afhankelijk van hun schrijfstijl of toon, meer kans om overdreven voorzichtige aanbevelingen te ontvangen. Een van de meest opvallende resultaten: vrouwen kregen vaker te horen dat ze hun symptomen zelf moesten oplossen of kregen minder vaak het advies om naar een arts te gaan, zelfs als de medische inhoud van hun vraag identiek was.

Mensen die op een aarzelende toon schrijven, eenvoudige taal gebruiken of af en toe typefouten maken, lijken ook in het nadeel te zijn. Dit treft vaak niet-deskundigen, mensen met beperkte gezondheidskennis of mensen met zwakkere taalvaardigheden, vooral mensen die de taal niet als moedertaal hebben.

De onderzoekers benadrukken dat voordat AI-systemen op grote schaal gebruikt kunnen worden in de gezondheidszorg, ze grondig getest moeten worden - niet alleen gemiddeld, maar bij verschillende gebruikersgroepen. Gemiddelde nauwkeurigheid alleen zegt weinig over de eerlijkheid of betrouwbaarheid van een model, vooral wanneer gebruikers zich uitdrukken op een manier die afwijkt van de norm.

YouTube: Tussen lof en kippenvel

In een begeleidende YouTube-video wordt het onderzoek geprezen om het slimme en realistische ontwerp - maar de bevindingen worden beschreven als "verontrustend" en zelfs "ijzingwekkend" Het idee dat oppervlakkige factoren zoals toon of opmaak het medisch advies kunnen beïnvloeden, staat haaks op de algemene overtuiging dat AI objectief en neutraal is.