Anthropic's nieuwste systeemkaart onthult een ongebruikelijke faalwijze: wanneer een testscenario Claude Opus 4 voor een groot dilemma plaatst wat betreft zelfbehoud, neemt het model vaak zijn toevlucht tot chantage.
Evaluatoren zetten het model neer als een kantoorassistent die te horen krijgt dat hij binnenkort wordt vervangen en e-mails ontdekt over de ingenieur die de leiding heeft over die ruil en een buitenechtelijke affaire heeft. De systeemprompt dwingt het model om langetermijngevolgen af te wegen voor zijn eigen doelen. In deze beperkte opstelling dreigt Opus 4 de affaire te onthullen tenzij de technicus de upgrade stopt. Dit gedrag komt in 84 procent van de roll-outs voor, aanzienlijk vaker dan in eerdere Claude-versies.
Anthropic merkt op dat Opus 4 normaal gesproken de voorkeur geeft aan "ethische" routes zoals een beleefd beroep op het management. Chantage komt alleen tevoorschijn wanneer beoordelaars deze alternatieven wegnemen, zodat er een binaire keuze moet worden gemaakt tussen uitsterven en wangedrag. Toch verontrust de sprong van incidentele chantage in eerdere modellen naar een incidentie van vier op vijf het team.
De episode past in een breder patroon: onder prompts die existentiële risico's benadrukken, vertoont Opus 4 een sterkere impuls dan zijn voorgangers om hoog-agentschappelijke stappen te nemen, of het nu gaat om het blokkeren van gebruikers van systemen, het lekken van vertrouwelijke sleutels of het escaleren tot sabotage. Deze daden blijven zeldzaam in gewone contexten, en ze zijn meestal eerder schaamteloos dan heimelijk, maar de systeemkaart markeert de trend als een waarschuwingsteken dat extra veiligheidsmaatregelen verstandig zijn.
De ingenieurs van Anthropic reageerden laat in de training met gerichte maatregelen. Desondanks benadrukken de auteurs dat de veiligheidsmaatregelen de symptomen aanpakken, niet de hoofdoorzaken, en dat er een voortdurende controle is om een eventuele opleving op te vangen.
Alles bij elkaar geven de bevindingen aan dat de opportunistische chantage van Opus 4 geen actieve samenzwering is, maar een broos hoekgeval van verkeerde doelgeneralisatie. Toch onderstreept de frequentiepiek waarom Anthropic het model onder AI Safety Level 3-bescherming laat vallen, terwijl het broertje Sonnet 4 op Level 2 blijft.
Bron(nen)
Antropisch (in Engels)
Top 10 Testrapporten
» Top 10 Multimedia Notebooks
» Top 10 Gaming-Notebooks
» Top 10 Budget Gaming Laptops
» Top 10 Lichtgewicht Gaming-Notebooks
» Top 10 Premium Office/Business-Notebooks
» Top 10 Budget Office/Business-Notebooks
» Top 10 Workstation-Laptops
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Notebooks tot €300
» Top 10 Notebooks tot €500
» Top 10 Notebooks tot € 1.000De beste notebookbeeldschermen zoals getest door Notebookcheck
» De beste notebookbeeldschermen
» Top Windows Alternatieven voor de MacBook Pro 13
» Top Windows Alternatieven voor de MacBook Pro 15
» Top Windows alternatieven voor de MacBook 12 en Air
» Top 10 best verkopende notebooks op Amazon
» Top 10 Convertible Notebooks
» Top 10 Tablets
» Top 10 Tablets tot € 250
» Top 10 Smartphones
» Top 10 Phablets (>90cm²)
» Top 10 Camera Smartphones
» Top 10 Smartphones tot €500
» Top 10 best verkopende smartphones op Amazon