Samsung introduceert TRUEBench om AI-productiviteit te testen in echte werkscenario's

Galaxy AI (Afbeelding Bron: Antony Muchiri)

Samsung heeft TRUEBench gelanceerd, een nieuwe benchmark die ontworpen is om te meten hoe goed AI-systemen omgaan met echte werkomgevingstaken in plaats van beperkte academische tests. De benchmark omvat 2.485 scenario's in tien categorieën en twaalf talen en evalueert alles van snelle prompts tot het verwerken van lange documenten. De puntentelling is streng en vereist dat modellen aan elke voorwaarde voldoen, waardoor de resultaten veeleisend maar realistischer zijn.

Antony Muchiri (vertaald door Ninh Duy), Gepubliceerd 26-09-2025 🇺🇸 🇩🇪 ...

Samsung AI Launch

AI benchmarks hebben lang moeite gehad om vast te leggen wat mensen daadwerkelijk met deze systemen doen. De meeste tests richten zich nog steeds op alleen Engelse vraag- en antwoordtaken die er op papier netjes uitzien, maar niet de verscheidenheid aan activiteiten weerspiegelen waar u in uw dagelijkse werk op vertrouwt. Samsung heeft net gelanceerd TRUEBench, kort voor Trustworthy Real-world Usage Evaluation Benchmark, om de prestaties van AI te meten op een manier die dichter bij echte kantoortaken staat.

TRUEBench gaat verder dan eenvoudige trivia of éénpromptuitwisselingen om modellen door documentsamenvattingen, vertalingen in twaalf talen, gegevensanalyse en instructies in meerdere stappen te laten lopen waarbij de AI de context moet behouden. Samsung ontwikkelde 2.485 testsets in tien categorieën en 46 subcategorieën, met invoer variërend van een handvol tekens tot meer dan twintigduizend. Het doel is om alles te simuleren, van snelle opdrachten tot lange zakelijke rapporten.

Paul (Kyungwhoon) Cheun, CTO van de DX-divisie bij Samsung Electronics en hoofd van Samsung Research, zei: "Samsung Research brengt diepgaande expertise en een concurrentievoordeel met zich mee dankzij zijn AI-ervaring in de echte wereld. We verwachten dat TRUEBench evaluatiestandaarden voor productiviteit zal vaststellen en het technologisch leiderschap van Samsung zal verstevigen."

Samsungs TRUEBench AI-tool (Afbeelding Bron: Samsung Newsroom)

Wil een model slagen, dan moet het voldoen aan elke vereiste voorwaarde in een test, inclusief impliciete voorwaarden die weergeven wat een redelijk persoon zou verwachten, zelfs als die voorwaarden niet worden beschreven. Deze alles-of-niets-methode maakt de resultaten minder vergevingsgezind, maar brengt ze ook dichter bij de manier waarop u zou beslissen of een uitvoer echt nuttig is. Samsung heeft de regels gemaakt door menselijke input te combineren met AI-controles. Menselijke annotators stelden de initiële voorwaarden op, de AI markeerde tegenstrijdigheden of inconsistenties, en mensen verfijnden het raamwerk opnieuw voordat ze het vastlegden. Zodra de evaluatie was afgerond, kon deze op schaal worden uitgevoerd door middel van geautomatiseerde AI-scoring.

Samsung heeft ook de dataset, klassementen en uitvoerstatistieken openbaar gemaakt via Hugging Face. U kunt maar liefst vijf modellen direct met elkaar vergelijken en zien hoe hun resultaten zich tot elkaar verhouden. Dankzij deze mate van transparantie kunnen ontwikkelaars, onderzoekers en gebruikers de benchmark onderzoeken in plaats van simpelweg op de beweringen van Samsung te vertrouwen.

De benchmark is echter niet perfect, omdat het opstellen van regels altijd een zekere mate van vooringenomenheid zal bevatten, en het vereisen van volledig succes op elke voorwaarde betekent dat gedeeltelijke maar nog steeds nuttige antwoorden als mislukkingen worden gescoord. Taalondersteuning gaat verder dan de meeste bestaande tests, maar de prestaties zullen onvermijdelijk verschillen, vooral in talen waar trainingsgegevens schaars zijn. De testset neigt ook naar algemene zakelijke taken, dus zeer gespecialiseerde domeinen zoals recht, geneeskunde of wetenschappelijk onderzoek zijn mogelijk niet volledig vertegenwoordigd.