Onderzoekers verdubbelen AI-trainingssnelheden door langstaartinefficiënties in processorgebruik te temmen

Voor het ontwikkelen van redeneerbare grote taalmodellen die in staat zijn tot geavanceerde programmering en meerstappenplanning zijn enorme rekenkrachtbronnen nodig. Tijdens het standaardproces van reinforcement learning genereren modellen meerdere potentiële antwoorden om het beste antwoord te leren. Deze generatiefase, die bekend staat als rollout, kan tot 85% van de totale uitvoeringstijd in beslag nemen. Dit creëert een kritisch knelpunt dat wordt gekenmerkt door een lange-staartverdeling, waarbij processors die kortere antwoorden afwerken inactief blijven terwijl ze wachten op anderen om langere zoekopdrachten te voltooien.
Om deze verspilde downtime te elimineren, hebben onderzoekers van het Massachusetts Institute of Technology samen met medewerkers uit de industrie en de academische wereld een systeem ontwikkeld met de naam "Taming the Long Tail" (TLT). De aanpak maakt gebruik van een adaptief draftermodel dat continu op inactieve processors traint. Dit lichtgewicht model raadt snel de toekomstige uitvoer van het grotere doelmodel, dat vervolgens alle gissingen tegelijkertijd verifieert via een techniek die speculatief decoderen wordt genoemd.
Terwijl traditionele speculatieve decodering vertrouwt op een statische drafter die snel verouderd raakt tijdens voortdurende trainingsupdates, richt het TLT-systeem de drafter voortdurend opnieuw in tijdens de training zonder extra computerkosten. Een geïntegreerde adaptieve uitrolengine optimaliseert het proces verder door een geheugenefficiënte pool van vooraf vastgelegde grafieken te onderhouden en dynamisch de beste decoderingsstrategie te selecteren voor elke nieuwe invoerbatch.
Evaluaties van meerdere redeneermodellen tonen aan dat deze verliesvrije oplossing de end-to-end trainingssnelheden met 70-110% versnelt in vergelijking met state-of-the-art systemen. Door de oorspronkelijke nauwkeurigheidsniveaus te behouden en een ontwerpmodel van hoge kwaliteit op te leveren als gratis bijproduct bij de implementatie, biedt deze methode een zeer efficiënte manier om de energie- en financiële lasten van de ontwikkeling van geavanceerde kunstmatige intelligentiearchitecturen te verminderen.
Bron(nen)
arXiv.org via MIT Nieuws
Top 10 Testrapporten
» Top 10 Multimedia Notebooks
» Top 10 Gaming-Notebooks
» Top 10 Budget Gaming Laptops
» Top 10 Lichtgewicht Gaming-Notebooks
» Top 10 Premium Office/Business-Notebooks
» Top 10 Budget Office/Business-Notebooks
» Top 10 Workstation-Laptops
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Notebooks tot €300
» Top 10 Notebooks tot €500
» Top 10 Notebooks tot € 1.000De beste notebookbeeldschermen zoals getest door Notebookcheck
» De beste notebookbeeldschermen
» Top Windows Alternatieven voor de MacBook Pro 13
» Top Windows Alternatieven voor de MacBook Pro 15
» Top Windows alternatieven voor de MacBook 12 en Air
» Top 10 best verkopende notebooks op Amazon
» Top 10 Convertible Notebooks
» Top 10 Tablets
» Top 10 Tablets tot € 250
» Top 10 Smartphones
» Top 10 Phablets (>90cm²)
» Top 10 Camera Smartphones
» Top 10 Smartphones tot €500
» Top 10 best verkopende smartphones op Amazon







