SEAL laat zien hoe AI continu kan denken en evolueren

SEAL is een nieuwe leerlaag voor taalmodellen die zichzelf voortdurend verbetert met zijn eigen "self-edits". (Afbeeldingsbron: DallE3)

MIT-onderzoekers hebben een raamwerk ontwikkeld dat bestaande taalmodellen in staat stelt om zich meer als denkende entiteiten te gedragen, in staat tot continue, onafhankelijke ontwikkeling. De aanpak heeft echter nog steeds te maken met verschillende beperkingen.

Marius Müller (vertaald door Ninh Duy), Gepubliceerd 26-06-2025 🇺🇸 🇩🇪 ...

Science AI

Kunstmatige intelligentie wordt steeds veelzijdiger - het genereert beelden, schrijft gedichten en bouwt apps. Toch is er nog steeds één belangrijke beperking: de huidige systemen hebben moeite om echt verder te evolueren dan hun oorspronkelijke programmering. Dat is precies waar een nieuw concept van het Massachusetts Institute of Technology (MIT) om de hoek komt kijken. Dit raamwerk heet SEAL, oftewel Self-Adapting Language Models, en zorgt ervoor dat grote taalmodellen zich meer gaan gedragen als lerende wezens. Met SEAL kunnen ze nieuwe informatie verwerken, hun eigen inzichten genereren en hun kennis in realtime bijwerken - zonder afhankelijk te zijn van externe datasets of uitgebreide tussenkomst van ontwikkelaars. Het onderzoeksartikel werd op 12 juni gepubliceerd op arXiv.

Continu leren zonder tussenkomst van ontwikkelaars

"Vooral in bedrijven is het niet genoeg om alleen maar gegevens op te halen - systemen moeten zich continu kunnen aanpassen," zegt MIT-promovendus Jyothish Pari. SEAL is ontworpen om precies dat te doen, met behulp van een continu proces in twee stappen. Eerst vat de AI nieuwe informatie samen, genereert relevante voorbeelden en past zijn interne instellingen aan. Deze veranderingen worden "zelfbewerkingen" genoemd

Vervolgens stelt het systeem zijn zelfaanpassingen onmiddellijk op de proef: het ondergaat een korte hertraining met de nieuwe aanpassingen en wordt geëvalueerd om te zien of zijn reacties daadwerkelijk verbeteren. SEAL houdt de wijzigingen alleen aan als de resultaten een duidelijke verbetering van de prestaties laten zien. Vergelijkende tests bevestigen de effectiviteit van deze methode: in een vraag-en-antwoord quiz zonder ondersteunende tekst, stijgt de nauwkeurigheid van het Qwen 2.5-7B model van 33,5% naar 47%. In de meer uitdagende ARC puzzels - op logica gebaseerde taken uit het Abstraction & Reasoning Corpus - klimmen de prestaties zelfs naar 72,5%, meer dan het drievoudige van de oorspronkelijke score van het model.

Dankzij deze cyclus gedraagt SEAL zich bijna als een denkende entiteit: telkens wanneer zich nieuwe feiten of vragen voordoen, "denkt" het model na over wat van belang is, genereert het zijn eigen voorbeelden en past het zijn instellingen aan om het geleerde beter toe te passen. Aangezien dit proces continu doorgaat, is de AI altijd aan het leren. Het is niet langer afhankelijk van de fijnafstelling door een afzonderlijke ontwikkelaar, maar gebruikt in plaats daarvan binnenkomende teksten als trainingsmateriaal - en genereert zo zijn eigen gegevens.

SEAL ontsluit verschillende mogelijkheden tegelijk. In de toekomst zouden chatbots zich op natuurlijke wijze kunnen aanpassen aan de persoonlijke voorkeuren van gebruikers, zonder dat ze gevoelige gegevens naar externe servers hoeven te sturen. Ontwikkelings- en onderzoekstools zouden ook onafhankelijker kunnen evolueren - zich aanpassen aan veranderende projectvereisten zonder telkens opnieuw getraind te moeten worden. En zelfs als openbaar beschikbare tekstgegevens schaars worden, kan SEAL zijn eigen trainingsmateriaal genereren door middel van zelfgemaakte voorbeelden, wat een slimme manier is om potentiële gegevenstekorten te omzeilen.

Groot potentieel, maar niet zonder hindernissen

Hoewel SEAL een grote belofte inhoudt voor het bevorderen van AI-ontwikkeling, wijzen de onderzoekers op drie belangrijke uitdagingen:

Ten eerste is er het probleem van catastrofaal vergeten: naarmate het model voortdurend nieuwe zelfbewerkingen integreert, neemt zijn vermogen om eerdere taken uit te voeren geleidelijk af. De studie toont al vroege tekenen van dit effect. Het onderzoek toont al vroege tekenen van dit effect.
Ten tweede zijn de computerkosten aanzienlijk, omdat elke zelf-wijziging een korte fijnafstemmingsstap vereist. Volgens het onderzoek duurt een volledige cyclus tussen de 30 en 45 seconden, waardoor de operationele kosten voor het uitvoeren van grote modellen aanzienlijk toenemen.
Ten derde blijft het een uitdaging om de nauwkeurigheid van zelfbewerkingen te controleren. De prestatietests beoordelen vooral hoe overtuigend een antwoord klinkt, in plaats van of het daadwerkelijk correct is. Gebruikers op Reddit hebben al hun bezorgdheid geuit dat het systeem aannemelijk klinkende maar onjuiste zelfedits zou kunnen accepteren als verbeteringen - en deze fouten vervolgens permanent zou internaliseren.