Met de proliferatie van AI-datacenters en de bijbehorende verwerkingskosten ligt de nadruk nu op de efficiëntie van algoritmen, en geen enkel taalmodel lijkt dit beter te doen dan DeepSeek. De modellen zijn open source en het trainen ervan kost veel minder dan die van OpenAI's ChatGPT of Google's Gemini.
Het onlangs aangekondigde DeepSeek-OCR-model is een uitstekend voorbeeld van leerefficiëntie. Door gebruik te maken van optical mapping kan het extreem lange documenten comprimeren door ze om te zetten naar afbeeldingen met een herkenningsprecisie van 97% bij een compressieverhouding van minder dan 10x.
Door gebruik te maken van een geavanceerde encoder en decoder, kunnen meer dan negen tokens met documenttekst omgezet worden in een enkel visueel token, waardoor er veel minder rekenkracht nodig is voor het verwerken van de inhoud. Zelfs bij een compressieverhouding van 20x kan het nieuwe DeepSeek-OCR-systeem een optische herkenningsnauwkeurigheid van 60% bereiken, een ongekende prestatie.
Dankzij de nieuwe AI-compressiealgoritmen kan DeepSeek-OCR leren van wetenschappelijke of historische tekst die verwerkt wordt door een enkele Nvidia A100 datacenter GPU met een snelheid van 200.000 pagina's per dag. Een 20-node A100 cluster kan dus dagelijks 33 miljoen documentpagina's verwerken, een paradigmaverschuiving in tekstzware LLM-learning. Volgens de OmniDocBench-ranglijst verslaat DeepSeek-OCR andere populaire oplossingen zoals GOT-OCR2.0 of MinerU2.0 met afstand als het gaat om minder gebruikte vision-tokens per pagina.
De nieuwe DeepEncoder-algoritmen kunnen een reeks documentgroottes en -resoluties aan zonder aan snelheid of nauwkeurigheid in te boeten, terwijl de DeepSeek3B-MoE-A570M decoder vertrouwt op de zogenaamde mix-van-experts architectuur die de kennis verdeelt over de gespecialiseerde modellen die nodig zijn voor elke OCR-taak. Hierdoor kan DeepSeel-OCR complexe documenten met grafieken, wetenschappelijke formules, diagrammen of afbeeldingen verwerken, zelfs wanneer deze in meerdere talen zijn geschreven.
Om een dergelijke schaal en nauwkeurigheid te bereiken, bewerkte DeepSeek 30 miljoen pagina's in Portable Document Format (PDF), geschreven in bijna 100 talen, waaronder elke categorie die er is, van kranten en wetenschappelijke handschriften tot studieboeken en proefschriften. Hoewel de snelheid en efficiëntie van visuele tokenisatie met het nieuwe DeepSeek-OCR-systeem onmiskenbaar zijn, valt nog te bezien of dit zal leiden tot een verbetering van de taalmodelprestaties wanneer het aankomt op daadwerkelijk redeneren in vergelijking met het huidige tekstgebaseerde tokenparadigma.
Bron(nen)
Top 10 Testrapporten
» Top 10 Multimedia Notebooks
» Top 10 Gaming-Notebooks
» Top 10 Budget Gaming Laptops
» Top 10 Lichtgewicht Gaming-Notebooks
» Top 10 Premium Office/Business-Notebooks
» Top 10 Budget Office/Business-Notebooks
» Top 10 Workstation-Laptops
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Notebooks tot €300
» Top 10 Notebooks tot €500
» Top 10 Notebooks tot € 1.000De beste notebookbeeldschermen zoals getest door Notebookcheck
» De beste notebookbeeldschermen
» Top Windows Alternatieven voor de MacBook Pro 13
» Top Windows Alternatieven voor de MacBook Pro 15
» Top Windows alternatieven voor de MacBook 12 en Air
» Top 10 best verkopende notebooks op Amazon
» Top 10 Convertible Notebooks
» Top 10 Tablets
» Top 10 Tablets tot € 250
» Top 10 Smartphones
» Top 10 Phablets (>90cm²)
» Top 10 Camera Smartphones
» Top 10 Smartphones tot €500
» Top 10 best verkopende smartphones op Amazon




