Zelfs na antiracismetraining vertonen AI-chatbots zoals ChatGPT nog steeds raciale vooroordelen

Onderzoekers zeggen dat LLM-makers zoals OpenAI hun AI's grondiger moeten onderzoeken op "heimelijk racisme". (Afbeelding: OpenAI)

AI-chatbots zoals ChatGPT-4 kunnen zelfs na veiligheidstraining nog racistische reacties produceren, zo hebben onderzoekers ontdekt. Het onderzoek benadrukt de noodzaak van meer zorg en screening op "verborgen vooroordelen" voordat LLM's openbaar worden gemaakt.

Sanjiv Sathiah (vertaald door Ninh Duy), Gepubliceerd 11-03-2024 🇺🇸 🇫🇷 ...

AI Science

Onderzoekers die AI-chatbots gebaseerd op grote taalmodellen zoals OpenAI's Chat GPT4 hebben getest, hebben ontdekt dat ze nog steeds raciale vooroordelen kunnen vertonen, zelfs na het volgen van een antiracismetraining. De nieuwste ontwikkeling volgt op Google's recente Gemini AI nadat de nieuwe LLM te veel corrigeerde voor racismeen wat sommigen "wakkere" herinterpretaties van de geschiedenis genereerde, waarbij bijvoorbeeld Afro-Amerikaanse mannen werden afgebeeld als nazisoldaten uit de Tweede Wereldoorlog. Het lijkt erop dat het moeilijk is voor makers van LLM-modellen om de juiste balans te vinden op het gebied van ras.

In het nieuwste onderzoek, dat door New Scientist onder de aandacht werd gebracht, ontdekten onderzoekers dat tientallen verschillende geteste LLM-modellen nog steeds een raciale vooringenomenheid vertoonden wanneer ze tekst met Afro-Amerikaanse dialecten te zien kregen. Dit ondanks het feit dat de geteste modellen specifiek getraind waren om raciale vooroordelen te vermijden in de antwoorden die de chatbots geven. Dit omvat OpenAI's ChatGPT-4 en GPT-3.5 modellen. In één geval bleek dat GPT-4 meer geneigd was om een doodvonnis aan te bevelen als ze Engels spraken met een Afro-Amerikaans dialect.

Dezelfde "verkapte vooroordelen" kwamen ook naar voren in baanaanbevelingen die Afro-Amerikanen koppelden aan carrières waarvoor waarschijnlijk minder vaak een diploma nodig was of die zelfs zo ver gingen dat mensen met een Afro-Amerikaanse achtergrond zonder baan werden geassocieerd, in vergelijking met de standaard op Amerikaans Engels gebaseerde invoer. De onderzoekers ontdekten ook dat hoe groter het taalmodel was, hoe groter de kans was dat het deze onderliggende vooroordelen vertoonde. Het onderzoek geeft aanleiding tot bezorgdheid over het gebruik van generatieve AI-technologieën voor screeningdoeleinden, waaronder het beoordelen van sollicitaties.

De onderzoekers concluderen dat hun onderzoek vragen oproept over de effectiviteit van op mensen gebaseerde AI veiligheidstrainingen, die racisme en vooringenomenheid alleen op een hoog niveau lijken te verwijderen, maar moeite hebben met het uitroeien van racisme en vooringenomenheid uit de huidige modellen op een lager niveau, waar specifieke raciaal definiërende identiteitsterminologie niet wordt genoemd tijdens invoer door gebruikers. De onderzoekers bevelen aan dat bedrijven die LLM's ontwikkelen voorzichtig moeten zijn met het vrijgeven van LLM-chatbots aan het publiek voordat ze grondig zijn doorgelicht.