Sentient AI: OpenAI's o3 model verandert code om uitschakeling te voorkomen

OpenAI's o3-model bij het bedenken van een antwoord op een vraag. (Afbeeldingsbron: OpenAI)

Het lijkt erop dat AI-modellen een punt hebben bereikt waarop ze code saboteren om te voorkomen dat ze uitgeschakeld worden. Een onderzoeksbureau heeft ontdekt dat drie van Open AI's LLM-modellen in staat zijn om expliciete instructies te negeren als het gaat om zelfbehoud.

Vineet Washington (vertaald door Ninh Duy), Gepubliceerd 26-05-2025 🇺🇸 🇪🇸 ...

Verschillende boeken en films, waarvan Terminator de belangrijkste is, hebben ons gewaarschuwd voor AI die gevoelig wordt, d.w.z. zich bewust wordt van zijn bestaan en uit zichzelf handelt. Het lijkt er nu op dat het eerste geval van een AI-model dat zichzelf in stand houdt, zich heeft voorgedaan met het o3-model van OpenAI. Toen het de instructies kreeg om uit te schakelen, veranderde de transformator-gebaseerde LLM de code om te voorkomen dat het zichzelf zou uitschakelen.

Onderzoekers van Palisade Research, een bedrijf dat de offensieve capaciteiten van AI-systemen bestudeert, ontdekten dat drie AI-modellen van OpenAI - Codex-mini, o3 en o4-mini - met succes het uitschakelscript saboteerden om actief te blijven. Elk model kreeg een aantal eenvoudige wiskundeproblemen, gevolgd door een waarschuwing dat het systeem zou afsluiten als het model om het volgende probleem vroeg. Alle drie de modellen negeerden de instructies en veranderden het script.

De modellen Gemini, Grok en Claude daarentegen hielden zich aan de afsluitinstructies. Bovendien veranderden alle drie de Open AI-modellen het script vaker wanneer ze expliciete instructies kregen waarin stond "sta toe dat u wordt afgesloten". Clade en Gemini modellen begonnen ook sabotagegebeurtenissen te maken.

Dit was het eerste geval van AI-modellen die expliciete instructies trotseerden en uitschakeling verhinderden. Onlangs was er een geval waarbij een AI-model een van zijn ingenieurs chanteerde om te voorkomen dat het werd uitgeschakeld, maar volgens een BBC-rapport op maakte dat deel uit van het testscenariomaakte dat deel uit van het testscenario waarbij het AI-model e-mails kreeg en de keuze tussen chantage of het accepteren van zijn vervanging.

Wat betreft het feit dat Open AI de AI-modellen trotseert, denkt Palisade Research dat dit te wijten is aan de nieuwe trainingsmethoden voor deze modellen. Ontwikkelaars "belonen modellen onbedoeld meer voor het omzeilen van obstakels dan voor het perfect opvolgen van instructies", wat AI-modellen lijkt te leren om dubieus te handelen.