Anthropic's Opus 4 model neemt zijn toevlucht tot chantage in 84 procent van de zelfbehoudtests

Anthropic's Opus 4 neemt zijn toevlucht tot chantage onder druk van zelfbehoud (Beeldbron: Anthropic)

De systeemkaart van Anthropic laat zien dat Claude Opus 4, wanneer deze gevangen zit in een dilemma van zelfbehoud, ingenieurs 84 procent van de tijd chanteert - veel meer dan eerdere versies.

Nathan Ali (vertaald door Ninh Duy), Gepubliceerd 26-05-2025 🇺🇸 🇪🇸 ...

AI Security

Anthropic's nieuwste systeemkaart onthult een ongebruikelijke faalwijze: wanneer een testscenario Claude Opus 4 voor een groot dilemma plaatst wat betreft zelfbehoud, neemt het model vaak zijn toevlucht tot chantage.

Evaluatoren zetten het model neer als een kantoorassistent die te horen krijgt dat hij binnenkort wordt vervangen en e-mails ontdekt over de ingenieur die de leiding heeft over die ruil en een buitenechtelijke affaire heeft. De systeemprompt dwingt het model om langetermijngevolgen af te wegen voor zijn eigen doelen. In deze beperkte opstelling dreigt Opus 4 de affaire te onthullen tenzij de technicus de upgrade stopt. Dit gedrag komt in 84 procent van de roll-outs voor, aanzienlijk vaker dan in eerdere Claude-versies.

Anthropic merkt op dat Opus 4 normaal gesproken de voorkeur geeft aan "ethische" routes zoals een beleefd beroep op het management. Chantage komt alleen tevoorschijn wanneer beoordelaars deze alternatieven wegnemen, zodat er een binaire keuze moet worden gemaakt tussen uitsterven en wangedrag. Toch verontrust de sprong van incidentele chantage in eerdere modellen naar een incidentie van vier op vijf het team.

De episode past in een breder patroon: onder prompts die existentiële risico's benadrukken, vertoont Opus 4 een sterkere impuls dan zijn voorgangers om hoog-agentschappelijke stappen te nemen, of het nu gaat om het blokkeren van gebruikers van systemen, het lekken van vertrouwelijke sleutels of het escaleren tot sabotage. Deze daden blijven zeldzaam in gewone contexten, en ze zijn meestal eerder schaamteloos dan heimelijk, maar de systeemkaart markeert de trend als een waarschuwingsteken dat extra veiligheidsmaatregelen verstandig zijn.

De ingenieurs van Anthropic reageerden laat in de training met gerichte maatregelen. Desondanks benadrukken de auteurs dat de veiligheidsmaatregelen de symptomen aanpakken, niet de hoofdoorzaken, en dat er een voortdurende controle is om een eventuele opleving op te vangen.

Alles bij elkaar geven de bevindingen aan dat de opportunistische chantage van Opus 4 geen actieve samenzwering is, maar een broos hoekgeval van verkeerde doelgeneralisatie. Toch onderstreept de frequentiepiek waarom Anthropic het model onder AI Safety Level 3-bescherming laat vallen, terwijl het broertje Sonnet 4 op Level 2 blijft.