OpenAI lanceert drie nieuwe realtime audio API-modellen, waaronder GPT-Realtime-2

OpenAI's GPT-Realtime-2 brengt GPT-5-klasse redenering naar live stemagenten en lanceert samen met twee extra real-time audiomodellen via de OpenAI API.

OpenAI heeft GPT-Realtime-2, GPT-Realtime-Translate en GPT-Realtime-Whisper gelanceerd via zijn Realtime API, die nu algemeen beschikbaar is voor productie-spraakagenten.

Darryl Linington (vertaald door DeepL / Ninh Duy), Gepubliceerd 09-05-2026 🇺🇸 🇩🇪 ...

AI Business Software Laptop / Notebook Desktop Android Apple

OpenAI heeft drie nieuwe real-time audiomodellen gelanceerd via zijn API, waarmee spraak-AI verder gaat dan eenvoudige vraag-en-antwoord interacties naar agenten die kunnen luisteren, redeneren, vertalen en handelen binnen een enkele live conversatie. De release markeert ook dat de Realtime API uit bèta komt en nu voor het eerst algemeen beschikbaar is voor productiegebruik.

De kern van de release is GPT-Realtime-2, OpenAI's eerste spraakmodel gebouwd op GPT-5-klasse redeneren. In tegenstelling tot de stapsgewijze architectuur waar de meeste spraaksystemen op vertrouwen, verwerkt GPT-Realtime-2 audio in een continue stroom, waardoor het spraak kan interpreteren terwijl het gebeurt en kan reageren zonder het gat dat wordt veroorzaakt door aparte transcriptie- en synthesestadia. Het model ondersteunt een contextvenster van 128K token, tegenover 32K in de vorige versie, waardoor langere spraaksessies en complexe agentic flows met meerdere stappen praktisch zijn zonder externe geheugenondersteuning.

Wat GPT-Realtime-2 kan doen

Het model is specifiek gebouwd voor wat OpenAI "agentgedrag" noemt tijdens spraakoproepen. Preambules laten het zeggen "Laat me dat even controleren" of "Een momentje" terwijl het tool calls uitvoert, zodat gebruikers niet met dode lucht blijven zitten. Parallelle tool calls zorgen ervoor dat meerdere back-end verzoeken tegelijkertijd worden uitgevoerd en dat wordt verteld welke in behandeling is. Sterker herstelgedrag betekent dat fouten hardop worden afgehandeld in plaats van dat ze midden in een gesprek bevriezen. Door de toon aan te passen kan er tussen stijlen worden geschakeld op basis van de context: meer afgemeten voor ondersteuningsgesprekken en meer opgewekt voor bevestigingen.

GPT-Realtime-2 scoort 15,2% hoger dan GPT-Realtime-1.5 op Big Bench Audio, OpenAI's benchmark voor audio redeneren, en 13,8% hoger op Audio Multichallenger voor het volgen van instructies. In real-world tests rapporteert Zillow een stijging van 26 punten in het succespercentage van gesprekken op de moeilijkste contradictoire benchmark, van 69% naar 95% na snelle optimalisatie op GPT-Realtime-2. De prijs van het model is $32 per miljoen audio-invoer-tokens en $64 per miljoen audio-uitvoer-tokens, met $0,40 per miljoen gecachette invoer-tokens.

GPT-Realtime-Translate en GPT-Realtime-Whisper

Het tweede model, GPT-Realtime-Translateis een speciaal live spraakvertaalsysteem. Het verwerkt gesproken invoer continu en voert vertalingen in realtime uit zonder dat sprekers hoeven te pauzeren of volledige zinnen hoeven af te maken. Het model ondersteunt meer dan 70 invoertalen en 13 uitvoertalen, gericht op klantenondersteuning, onderwijs, live evenementen en grensoverschrijdende verkoopomgevingen. BolnaAI, een voice AI-bedrijf dat bouwt voor Indiase taalmarkten, rapporteert 12,5% lagere woordfoutenpercentages in Hindi, Tamil en Telugu in vergelijking met de vorige vertaalaanpak. GPT-Realtime-Translate kost $0,034 per minuut audioverwerking.

GPT-Realtime-Whisper is het derde model, dat OpenAI's wijdverspreide Whisper spraakherkenningstechnologie uitbreidt naar een streaming systeem. Waar de originele Whisper gebouwd was voor transcriptie na opname, produceert deze versie live bijschriften terwijl er gesproken wordt. De toepassingen omvatten live vergaderingen, documentatie in rechtszalen, transcriptie in redactiekamers en toegankelijkheidshulpmiddelen voor slechthorende gebruikers. Het is de meest betaalbare van de drie met $0,017 per minuut. Alle drie de modellen zijn nu beschikbaar via de OpenAI API en de developer playground.

De lancering voegt ook ondersteuning voor MCP-servers, invoermogelijkheden voor afbeeldingen en integratie van SIP-telefoongesprekken toe aan de Realtime API, waardoor ontwikkelaars meer mogelijkheden krijgen voor bedrijfstelefonie en agentic workflows zonder de API te hoeven verlaten.

De ruimte voor AI-tools heeft ook aanvallers aangetrokken die de interesse in nieuwe producten willen uitbuiten. Notebookcheck berichtte gisteren over een valse Claude AI website die de Beagle Windows backdoor naar buiten bracht via door Google gesponsorde zoekresultaten met behulp van een Claude-Pro Relay installatieprogramma.