Grootste dataset met AI-trainingsafbeeldingen offline gehaald na ontdekking van verontrustend illegaal materiaal

De LAION-5B dataset bevat meer dan 5,8 miljard beeld-tekstparen (Afbeelding Bron: LAION - bewerkt)

Een onderzoek van Stanford heeft duizenden expliciete afbeeldingen van kindermisbruik ontdekt in LAION-5B, de grootste beelddataset voor het trainen van AI-modellen, waaronder Stable Diffusion. Na deze onthulling heeft LAION zijn datasets tijdelijk offline gehaald om er zeker van te zijn dat ze veilig zijn voordat ze opnieuw gepubliceerd worden.

Vishal Bhardwaj (vertaald door Ninh Duy), Gepubliceerd 23-12-2023 🇺🇸 🇫🇷 ...

AI Cyberlaw

Een onderzoek gepubliceerd door het Stanford Internet Observatory heeft een verontrustende ontdekking gedaan - LAION-5B, de grootste afbeeldingsdataset die wordt gebruikt voor het trainen van AI-beeldgeneratie modellen, bevat 3.226 afbeeldingen die verdacht worden van seksueel misbruik van kinderen (CSAM). LAION heeft sindsdien de dataset niet meer openbaar toegankelijk gemaakt, totdat het er zeker van is dat er geen onveilige inhoud in zit.

LAION-5B, een open-source dataset bestaande uit meer dan 5,8 miljard paren online URL's van afbeeldingen en bijbehorende bijschriften, wordt gebruikt om AI-modellen te trainen, waaronder de zeer populaire Stabiele verspreiding. Deze dataset is gemaakt door Common Crawl te gebruiken om het internet af te zoeken naar een groot aantal afbeeldingen.

David Thiel en het team van Stanford-onderzoekers die het onderzoek schreven, begonnen met het filteren van de dataset met behulp van LAION's NSFW-classificeerders en vertrouwden vervolgens op PhotoDNA, een hulpmiddel dat in deze context vaak wordt gebruikt voor inhoudsmoderatie. Aangezien het bekijken van CSAM illegaal is, zelfs voor onderzoeksdoeleinden, gebruikte het team perceptuele hashing, waarbij voor elke afbeelding een unieke digitale handtekening wordt gemaakt en deze handtekening wordt gebruikt om de afbeelding te vergelijken met een testafbeelding om te controleren of deze identiek of gelijksoortig is. Verder stuurde het team de "definitieve overeenkomsten" ter validatie naar het Canadese centrum voor kinderbescherming.

Na de publicatie van het onderzoek vertelde een woordvoerder van Stable Diffusion aan 404 Media dat het bedrijf intern talrijke filters heeft geïnstalleerd die niet alleen CSAM en ander illegaal en aanstootgevend materiaal zouden verwijderen uit de gegevens die daadwerkelijk voor de training worden gebruikt, maar die er ook voor zouden zorgen dat de invoerprompts en afbeeldingen die door het AI-model worden gegenereerd, schoon zijn.

Volgens de Amerikaanse federale wetgeving is het niet alleen illegaal om CSAM te bezitten en door te geven, maar ook "onontwikkelde film, onontwikkelde videoband en elektronisch opgeslagen gegevens die in een visueel beeld kunnen worden omgezet". Aangezien datasets zoals de LAION-5B echter alleen URL's bevatten en niet de afbeeldingen zelf, is de precieze legaliteit eromheen onduidelijk. Het bredere probleem wordt nog verergerd door het feit dat door AI gegenereerde CSAM moeilijk te onderscheiden is van echte CSAM, en steeds vaker voorkomt. Hoewel 3200 afbeeldingen op 5 miljard misschien onbeduidend lijken, kan de potentiële invloed van dergelijke "vervuilde" trainingsgegevens op de uitvoer van generatieve AI-modellen niet genegeerd worden.

Het onderzoek van David Thiel en zijn team belicht een van de meer verontrustende gevolgen van de plotselinge verspreiding van AI. Het vinden van oplossingen voor dergelijke problemen zal de komende jaren een langzame en moeilijke taak worden, waarbij de wetgevende macht, de rechtshandhaving, de technische industrie, academici en het grote publiek in gelijke mate betrokken zullen zijn.