AI benchmarks hebben lang moeite gehad om vast te leggen wat mensen daadwerkelijk met deze systemen doen. De meeste tests richten zich nog steeds op alleen Engelse vraag- en antwoordtaken die er op papier netjes uitzien, maar niet de verscheidenheid aan activiteiten weerspiegelen waar u in uw dagelijkse werk op vertrouwt. Samsung heeft net gelanceerd TRUEBench, kort voor Trustworthy Real-world Usage Evaluation Benchmark, om de prestaties van AI te meten op een manier die dichter bij echte kantoortaken staat.
TRUEBench gaat verder dan eenvoudige trivia of éénpromptuitwisselingen om modellen door documentsamenvattingen, vertalingen in twaalf talen, gegevensanalyse en instructies in meerdere stappen te laten lopen waarbij de AI de context moet behouden. Samsung ontwikkelde 2.485 testsets in tien categorieën en 46 subcategorieën, met invoer variërend van een handvol tekens tot meer dan twintigduizend. Het doel is om alles te simuleren, van snelle opdrachten tot lange zakelijke rapporten.
Paul (Kyungwhoon) Cheun, CTO van de DX-divisie bij Samsung Electronics en hoofd van Samsung Research, zei: "Samsung Research brengt diepgaande expertise en een concurrentievoordeel met zich mee dankzij zijn AI-ervaring in de echte wereld. We verwachten dat TRUEBench evaluatiestandaarden voor productiviteit zal vaststellen en het technologisch leiderschap van Samsung zal verstevigen."
Top 10 Testrapporten
» Top 10 Multimedia Notebooks
» Top 10 Gaming-Notebooks
» Top 10 Budget Gaming Laptops
» Top 10 Lichtgewicht Gaming-Notebooks
» Top 10 Premium Office/Business-Notebooks
» Top 10 Budget Office/Business-Notebooks
» Top 10 Workstation-Laptops
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Notebooks tot €300
» Top 10 Notebooks tot €500
» Top 10 Notebooks tot € 1.000De beste notebookbeeldschermen zoals getest door Notebookcheck
» De beste notebookbeeldschermen
» Top Windows Alternatieven voor de MacBook Pro 13
» Top Windows Alternatieven voor de MacBook Pro 15
» Top Windows alternatieven voor de MacBook 12 en Air
» Top 10 best verkopende notebooks op Amazon
» Top 10 Convertible Notebooks
» Top 10 Tablets
» Top 10 Tablets tot € 250
» Top 10 Smartphones
» Top 10 Phablets (>90cm²)
» Top 10 Camera Smartphones
» Top 10 Smartphones tot €500
» Top 10 best verkopende smartphones op Amazon
Wil een model slagen, dan moet het voldoen aan elke vereiste voorwaarde in een test, inclusief impliciete voorwaarden die weergeven wat een redelijk persoon zou verwachten, zelfs als die voorwaarden niet worden beschreven. Deze alles-of-niets-methode maakt de resultaten minder vergevingsgezind, maar brengt ze ook dichter bij de manier waarop u zou beslissen of een uitvoer echt nuttig is. Samsung heeft de regels gemaakt door menselijke input te combineren met AI-controles. Menselijke annotators stelden de initiële voorwaarden op, de AI markeerde tegenstrijdigheden of inconsistenties, en mensen verfijnden het raamwerk opnieuw voordat ze het vastlegden. Zodra de evaluatie was afgerond, kon deze op schaal worden uitgevoerd door middel van geautomatiseerde AI-scoring.
Samsung heeft ook de dataset, klassementen en uitvoerstatistieken openbaar gemaakt via Hugging Face. U kunt maar liefst vijf modellen direct met elkaar vergelijken en zien hoe hun resultaten zich tot elkaar verhouden. Dankzij deze mate van transparantie kunnen ontwikkelaars, onderzoekers en gebruikers de benchmark onderzoeken in plaats van simpelweg op de beweringen van Samsung te vertrouwen.
De benchmark is echter niet perfect, omdat het opstellen van regels altijd een zekere mate van vooringenomenheid zal bevatten, en het vereisen van volledig succes op elke voorwaarde betekent dat gedeeltelijke maar nog steeds nuttige antwoorden als mislukkingen worden gescoord. Taalondersteuning gaat verder dan de meeste bestaande tests, maar de prestaties zullen onvermijdelijk verschillen, vooral in talen waar trainingsgegevens schaars zijn. De testset neigt ook naar algemene zakelijke taken, dus zeer gespecialiseerde domeinen zoals recht, geneeskunde of wetenschappelijk onderzoek zijn mogelijk niet volledig vertegenwoordigd.