Groq presenteert gespecialiseerde taalverwerkingseenheid die aanzienlijk sneller is dan Nvidia's AI-versnellers

Groq LPU (Afbeelding Bron: Groq)

De LPU Inference Engine van Groq is ontworpen om aanzienlijk sneller te zijn dan GPGPU's bij het verwerken van LLM-gegevens. Om dit te bereiken maakt de LPU beter gebruik van sequentiële verwerking en wordt deze gekoppeld aan SRAM in plaats van DRAM of HBM.

Bogdan Solca (vertaald door Ninh Duy), Gepubliceerd 29-02-2024 🇺🇸 🇨🇳 ...

Terwijl Nvidia momenteel uitstekende winsten op de AI-golf met de toenemende vraag naar reken-GPU's, zou de markt meer gedecentraliseerd kunnen worden naarmate meer bedrijven stappen zetten om levensvatbare alternatieve AI-processors te leveren. We hebben inspanningen gezien van verschillende bedrijven in dit opzicht, waaronder AMD, d-Matrix, OpenAI en Samsung. Het lijkt erop dat heel wat ingenieurs die hebben geholpen bij het ontwerpen van Google's tensor processing unit (TPU) nu betrokken zijn bij onafhankelijke AI-projecten die de oplossingen van Nvidia dreigen te overtreffen. Samsung heeft bijvoorbeeld onlangs aangekondigd dat zijn nieuwe AGI Computing Lab in Silicon Valley wordt geleid door de voormalige TPU-ontwikkelaar van Google, Dr. Woo Dong-hyuk. Een andere belangrijke ingenieur die hielp bij de ontwikkeling van de Google TPU is Jonathan Ross, die nu CEO is van een nieuw bedrijf genaamd Groq. Door gebruik te maken van de ervaring die hij bij Google heeft opgedaan, brengt Ross innovatie op de markt voor AI-accelerators met 's werelds eerste Language Processing Unit (LPU).

De LPU van Groq is speciaal ontworpen om grote taalmodellen (LLMs) en heeft duidelijke voordelen ten opzichte van GPU's voor algemene doeleinden of NPUs. Groq ontwikkelde aanvankelijk de Tensor Stream Processor (TSP), die later werd omgedoopt tot Language Processing Unit om de grotere vaardigheid in generatieve AI-taken op basis van inferentie weer te geven. Aangezien de LPU zich alleen richt op LLM's, is deze veel gestroomlijnder dan een GPGPU en maakt deze vereenvoudigde scheduling hardware mogelijk met lagere latentie, aanhoudende doorvoer en verhoogde efficiëntie.

Bijgevolg vermindert de LPU de tijd per berekend woord en kunnen tekstreeksen veel sneller worden gegenereerd. Een andere belangrijke verbetering is dat de LPU het dure geheugen (HBM), aangezien het slechts 230 MB SRAM per chip gebruikt met 80 TB/s bandbreedte, waardoor het aanzienlijk sneller is dan traditionele GPGPU-oplossingen. De architectuur van Groq ondersteunt ook schaalbaarheid, omdat meerdere LPU's onderling kunnen worden verbonden om meer verwerkingskracht te bieden voor complexere LLM's.

Om aan te tonen hoeveel sneller de LPU Inference Engine is in vergelijking met GPU's, biedt Groq een videovergelijking van zijn eigen chatbot die kan schakelen tussen de Llama 2 / Mixtral LLM's versus OpenAI's Chat-GPT. Groq beweert dat de LLM de tekst in een fractie van een seconde genereert en dat de overige 3 ⁄ 4 van de tijd wordt besteed aan het zoeken naar relevante informatie.