Notebookcheck Logo

DeepSeek OCR AI-model kan 200.000 documentpagina's per dag verwerken op één enkele Nvidia A100 GPU

Een Nvidia A100 GPU (Afbeeldingsbron: Nvidia)
Een Nvidia A100 GPU (Afbeeldingsbron: Nvidia)
DeepSeek bereidt zich voor op een revolutie in AI-leren met een nieuw open-source OCR-compressiemodel. Dankzij de geavanceerde optische codering kan DeepSeek leren van meer dan 200.000 documentpagina's per dag op een enkele Nvidia A100 GPU.

Met de proliferatie van AI-datacenters en de bijbehorende verwerkingskosten ligt de nadruk nu op de efficiëntie van algoritmen, en geen enkel taalmodel lijkt dit beter te doen dan DeepSeek. De modellen zijn open source en het trainen ervan kost veel minder dan die van OpenAI's ChatGPT of Google's Gemini.

Het onlangs aangekondigde DeepSeek-OCR-model is een uitstekend voorbeeld van leerefficiëntie. Door gebruik te maken van optical mapping kan het extreem lange documenten comprimeren door ze om te zetten naar afbeeldingen met een herkenningsprecisie van 97% bij een compressieverhouding van minder dan 10x.

Door gebruik te maken van een geavanceerde encoder en decoder, kunnen meer dan negen tokens met documenttekst omgezet worden in een enkel visueel token, waardoor er veel minder rekenkracht nodig is voor het verwerken van de inhoud. Zelfs bij een compressieverhouding van 20x kan het nieuwe DeepSeek-OCR-systeem een optische herkenningsnauwkeurigheid van 60% bereiken, een ongekende prestatie.

Dankzij de nieuwe AI-compressiealgoritmen kan DeepSeek-OCR leren van wetenschappelijke of historische tekst die verwerkt wordt door een enkele Nvidia A100 datacenter GPU met een snelheid van 200.000 pagina's per dag. Een 20-node A100 cluster kan dus dagelijks 33 miljoen documentpagina's verwerken, een paradigmaverschuiving in tekstzware LLM-learning. Volgens de OmniDocBench-ranglijst verslaat DeepSeek-OCR andere populaire oplossingen zoals GOT-OCR2.0 of MinerU2.0 met afstand als het gaat om minder gebruikte vision-tokens per pagina.

De nieuwe DeepEncoder-algoritmen kunnen een reeks documentgroottes en -resoluties aan zonder aan snelheid of nauwkeurigheid in te boeten, terwijl de DeepSeek3B-MoE-A570M decoder vertrouwt op de zogenaamde mix-van-experts architectuur die de kennis verdeelt over de gespecialiseerde modellen die nodig zijn voor elke OCR-taak. Hierdoor kan DeepSeel-OCR complexe documenten met grafieken, wetenschappelijke formules, diagrammen of afbeeldingen verwerken, zelfs wanneer deze in meerdere talen zijn geschreven.

Om een dergelijke schaal en nauwkeurigheid te bereiken, bewerkte DeepSeek 30 miljoen pagina's in Portable Document Format (PDF), geschreven in bijna 100 talen, waaronder elke categorie die er is, van kranten en wetenschappelijke handschriften tot studieboeken en proefschriften. Hoewel de snelheid en efficiëntie van visuele tokenisatie met het nieuwe DeepSeek-OCR-systeem onmiskenbaar zijn, valt nog te bezien of dit zal leiden tot een verbetering van de taalmodelprestaties wanneer het aankomt op daadwerkelijk redeneren in vergelijking met het huidige tekstgebaseerde tokenparadigma.

Bron(nen)

Please share our article, every link counts!
Mail Logo
> Overzichten en testrapporten over laptops en mobieltjes > Nieuws > Nieuws Archief > Nieuws archieven 2025 10 > DeepSeek OCR AI-model kan 200.000 documentpagina's per dag verwerken op één enkele Nvidia A100 GPU
Daniel Zlatev, 2025-10-22 (Update: 2025-10-22)