Gemma 4 op Knuffelgezicht: Google's paasverrassing als download

Gemma-4

Google brengt Gemma 4 uit: De nieuwe modelfamilie (E2B tot 31B) brengt redeneermogelijkheden en multimodaliteit rechtstreeks naar laptops en smartphones. Met een enorm contextvenster tot 256K tokens en een Apache 2.0-licentie stelt Google een voorbeeld voor vrije lokale AI.

Marc Herter (vertaald door DeepL / Ninh Duy), Gepubliceerd 03-04-2026 🇺🇸 🇩🇪 ...

Vlak voor Pasen liet Google een grote verrassing vallen op Hugging Face: de langverwachte Gemma 4 is nu beschikbaar om te downloaden. De lancering heeft vier primaire grootteklassen: E2B, E4B, 26B A4B en 31B. Alle modellen hebben een geïntegreerde "Denk"-modus, waardoor ze complexe problemen stap voor stap kunnen verwerken voordat ze een definitief antwoord geven. De opwinding rond de release is duidelijk, aangezien Gemma 4 lokaal bruikbaar werd in tools zoals LM Studio en Unsloth binnen enkele uren na het debuut.

Volgens Googlegeeft deze nieuwe generatie prioriteit aan efficiëntie boven rauwe grootte. Een opvallende verbetering ten opzichte van de vorige Gemma 3 iteratie is dat de kleinste modellen in de huidige serie al in verschillende benchmarks het prestatieniveau van het grootste Gemma 3 model evenaren. Praktisch gezien betekent dit dat taken waarvoor voorheen high-end hardware nodig was, nu lokaal op een smartphone kunnen worden uitgevoerd.

De architectuur varieert afhankelijk van het beoogde gebruik. Terwijl de 31B-variant een relatief klassieke structuur gebruikt, maakt het 26B-A4B model gebruik van een Mixture-of-Experts (MoE) benadering. Tijdens inferentie - het eigenlijke rekenproces - worden er slechts ongeveer vier miljard parameters geactiveerd, ondanks dat het model er in totaal 26 miljard heeft. Dit zorgt voor een hoge snelheid en een matig gebruik van bronnen zonder dat dit ten koste gaat van de diepgang van de kennis. De kleinere E2B- en E4B-modellen maken gebruik van Per-Layer Embeddings (PLE), die gespecialiseerde informatie bieden voor elke token op elke laag van het model, waardoor de prestaties specifiek voor mobiele processors worden geoptimaliseerd.

Er zijn ook aanzienlijke verbeteringen in het contextvenster - de hoeveelheid gegevens die het model tegelijkertijd "in gedachten" kan houden. De E2B en E4B modellen ondersteunen 128.000 tokens, terwijl de grotere varianten (26B A4B en 31B) tot 256.000 tokens aankunnen. Dankzij deze capaciteit kunnen gebruikers enorme documenten of complexe codestructuren in één keer analyseren.

Multimodaliteit is diepgaand geïntegreerd in Gemma 4, zodat gebruikers tekst en afbeeldingen naadloos kunnen combineren binnen een enkele prompt. De modellen zijn geschikt voor objectherkenning, het lezen van PDF-documenten en optische tekenherkenning (OCR). Bovendien bevatten de edge-modellen (E2B en E4B) native verwerking voor video- en audioformaten, waardoor functies zoals automatische spraakherkenning mogelijk zijn.

Een andere krachtige functie is native ondersteuning voor "Function Calling" Hierdoor kan de AI optreden als een virtuele assistent die zelfstandig softwareopdrachten uitvoert of externe tools gebruikt om taken te voltooien. Een duidelijk voorbeeld van deze trend is de "OpenClaw"-tool die momenteel populair is in China en die gebaseerd is op dit principe van AI-agenten. Met Gemma 4 wordt het aanzienlijk eenvoudiger om dergelijke systemen volledig op het eigen apparaat te implementeren.

Het wettelijke kader is ook een welkome verandering: de modellen worden vrijgegeven onder de Apache 2.0 licentie. Dit betekent dat ze niet alleen vrij te gebruiken zijn, maar ook flexibel geïntegreerd kunnen worden in eigen projecten en commercieel gebruikt kunnen worden, waardoor de drempel voor ontwikkelaars aanzienlijk verlaagd wordt. Voorheen werden alle Gemma-modellen uitgebracht onder een aangepaste licentie van Google.

De eerste praktijktests onderstrepen de indrukwekkende linguïstische mogelijkheden en verhoogde efficiëntie van deze modellen. Met behulp van LM Studio op een Bosgame M5haalden we een reactiesnelheid van iets meer dan 10 tokens per seconde (tok/s) met het Gemma 4 31B model - sneller dan de gemiddelde lezer informatie kan verwerken. De kleinere modellen zijn nog wendbaarder: de E4B en 26B A4B varianten overschrijden met gemak 40 tok/s, waarbij het kleinste model de 60 tok/s overtreft. Als u echter de volledige contextgrootte van het grootste Gemma 4-model wilt gebruiken, zult u merken dat zelfs 128 GB RAM (zoals in de Bosgame M5) krap is; de AI kan meer dan 80 GB voor zichzelf opeisen, waardoor er weinig geheugen overblijft voor andere taken.