Zum Inhalt
Läuft in:USErstellt in:United States
OpenAI

gpt-4o-audio-preview-2025-06-03

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-4o-audio-preview-2025-06-03 ist ein multimodales Sprachmodell von OpenAI und stellt eine Weiterentwicklung innerhalb der GPT-4-Familie mit erweiterten Audioverarbeitungsfähigkeiten dar. Das Modell geht über die reine Textgenerierung hinaus und unterstützt native Audio-Ein- und -Ausgabe, wodurch es gesprochene Sprache sowie Umgebungsgeräusche verarbeiten und natürlich klingende Sprachantworten erzeugen kann. Die Kennzeichnung „preview" weist darauf hin, dass es sich um eine Entwicklungsversion zu Test- und Evaluationszwecken vor einem stabilen Release handelt; das Datumssuffix verweist auf den Snapshot-Zeitpunkt innerhalb der Release-Pipeline von OpenAI. Das Modell ist für Anwendungen konzipiert, die eine nahtlose Integration von Text- und Audiomodalitäten erfordern, darunter Sprachassistenten, Echtzeit-Dialogsysteme, Audiotranskription mit Kontextverständnis sowie Barrierefreiheitswerkzeuge. Seine Architektur baut auf der GPT-4-Basis auf und integriert spezialisierte Komponenten zur Audiokodierung und -dekodierung, sodass der Gesprächskontext über schriftliche und gesprochene Interaktionen hinweg erhalten bleibt. Neben üblichen Textgenerierungsaufgaben kann das Modell stimmliche Nuancen, Tonlagen und nicht-sprachliche Audioelemente erfassen. Innerhalb des OpenAI-Modellportfolios reiht sich diese Variante neben weiteren GPT-4o-Iterationen als spezialisierte Preview-Version mit Audiofokus ein. Sie steht für OpenAI's fortlaufende Entwicklung omnimodaler Modelle — Systeme, die mehrere Eingabearten nativ und nicht über getrennte Vorverarbeitungsschritte handhaben. Der Preview-Status bedeutet, dass sich Funktionsumfang und Leistungsmerkmale weiterentwickeln können, während OpenAI das Modell auf Basis von Nutzungsfeedback und zusätzlichem Training verfeinert.

GPT-4o-Audio-Preview (Juni 2025): gesprochene Konversation und Texterstellung in einem multimodalen Modell.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-4o-audio-preview-2025-06-03
$2.50 pro 1M Input-Tokens
$10.00 pro 1M Output-Tokens
≈ $0.0035 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$2.50
pro 1M Output-Tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Native Audio-Ein- und AusgabeTonlage und Betonung erhaltenKonversationsfluss in EchtzeitMehrsprachige SprachverarbeitungBarrierefreiheits-FunktionenOpenAI-API-Integration

Schwächen

Preview-Status – experimentellKontextgröße nicht bekanntVerhalten kann sich weiterentwickeln
Abschnitt 03

Häufig gestellte Fragen

Er baut auf OpenAIs fortlaufender Verfeinerung der Audio-Verarbeitung auf, mit Verbesserungen basierend auf Nutzerfeedback.

Die Evolution von OpenAIs Audio-KI zeigt sich im Juni-2025-Snapshot mit verbesserten Sprachverarbeitungsfähigkeiten.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 04

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 05

Tokonomix-Benchmark-Urteile

2026-05-24

Erster Benchmark etabliert Basisleistung über zentrale Fähigkeiten hinweg

Dieser erste Benchmark legt die grundlegenden Leistungskennzahlen für GPT-4o Audio Preview fest. Das Modell zeigt starke Fähigkeiten im mathematischen Reasoning und erreicht 83,6 % bei MATH-500 sowie 90,8 % bei GSM8K, was auf solide Leistungen sowohl bei anspruchsvollen Wettbewerbsaufgaben als auch bei Grundschulmathematik hinweist. Die Programmierfähigkeiten zeigen sich kompetent mit 80,8 % bei HumanEval und 85,4 % bei MBPP, was auf zuverlässige Codegenerierung für gängige Programmieraufgaben hindeutet. Die mehrsprachige Leistung erscheint robust mit 75,9 % bei MMMLU, während die allgemeinen Wissensfähigkeiten 88,7 % bei MMLU erreichen. Das Modell bewältigt multimodale Aufgaben mit 66,9 % bei MMMU und erzielt 52,3 % bei GPQA Diamond, einem besonders anspruchsvollen Benchmark für wissenschaftliches Reasoning. Die Befolgung von Anweisungen erreicht 73,0 % bei IFEval, und kreatives Schreiben erzielt 71,0 % bei CreativeWriting. Da dies das erste Benchmark-Fenster ist, dienen diese Kennzahlen als Referenzpunkt zur Verfolgung künftiger Leistungsänderungen. Nutzer können kompetente Leistungen bei vielfältigen Aufgaben erwarten, darunter Mathematik, Programmierung, Wissensabruf und kreative Anwendungen, mit besonderer Stärke im mathematischen Reasoning und in allgemeinen Wissensbereichen.

Quality

Latency p50

Test runs

0

Starke Mathematik-Reasoning-Baseline Solide Programmierleistung etabliert Robuste mehrsprachige Fähigkeiten Erste Benchmark-Baseline festgelegt
Abschnitt 06

Vollständiges Modellprofil

gpt-4o-audio-preview-2025-06-03 — illustration 1
gpt-4o-audio-preview-2025-06-03: die Audio-Aktualisierung Mitte 2025

gpt-4o-audio-preview-2025-06-03 ist der Juni-2025-Snapshot von OpenAIs audio-multimodalem Preview-Modell. Sechs Monate nach dem Dezember-2024-Freeze war der Audio-Pfad ausgereifter geworden — ruhigere Prosodie, besseres Silence-Handling und die Art von kleinen Verfeinerungen, die sich nur zeigen, wenn man Snapshots Seite an Seite vergleicht.

Dies trägt noch immer das Preview-Label. Dieses Label ist ein Vertrag: Die API-Form kann sich verschieben, das Verhalten kann sich ändern, und die gesamte Produktlinie ist noch auf dem Weg zu einem stabilen Release. Der datierte Tag ist das, was man fixiert, um genau dieses Verhalten beizubehalten, während OpenAI weiterarbeitet.

Was sich seit dem Dezember-Snapshot geändert hat

OpenAI veröffentlicht kein detailliertes Audio-Track-Changelog, aber der Verhaltensunterschied ist durch Seite-an-Seite-Durchläufe mit denselben geskripteten Prompts beobachtbar. Der Juni-2025-Snapshot liefert:

  • Präzisere Silence-End-Erkennung. Das Modell unterbricht den Nutzer nicht mehr so eifrig, wenn dieser mitten im Satz pausiert.
  • Geschmeidigere Prosodie-Übergänge bei Audio-Output über mehrere Sätze. Der Dezember-Snapshot produzierte gelegentlich flache Übergaben zwischen Sätzen; dieser hier trägt die Intonation über Absatzgrenzen hinweg.
  • Reduzierter „Voice Drift" bei langen Audio-Outputs, bei denen die synthetisierte Stimme im Verlauf einer langen Generierung allmählich ihr Timbre verschob.
  • Ablehnungssprache, die konversationeller und weniger schablonenhaft wirkt.

Was sich nicht erkennbar verändert hat: Abdeckung der Eingabesprachen, das kleine feste Set an Output-Stimmen, die Base-API-Oberfläche und die Per-Token-Abrechnungsstruktur.

Wann sich das Upgrade lohnt

Die ehrliche Antwort lautet: „Wenn Ihre Evaluation das sagt." Audio-Modell-Upgrades sind der falsche Ort für changelog-getriebene Vertrauenssprünge. Die handlungsfähige Form:

  • Halten Sie den Dezember-Snapshot in Produktion, während Sie evaluieren.
  • Führen Sie die vollständige Voice-Szenario-Suite gegen 2025-06-03 mit denselben Prompts aus.
  • Achten Sie auf Regressionen bei Edge Cases, die der ältere Snapshot bewältigt hat — selbst verbesserte Durchschnittswerte können spezifische Szenarien maskieren, die sich verschlechtert haben.
  • Migrieren Sie, wenn der neuere Snapshot bei den Metriken gewinnt, die für Ihr Produkt wichtig sind, nicht bei denen, die OpenAI in den Release Notes betont hat.

Für Voice-Produkte, die auf Prosodie setzen — Coaching-Tools, Barrierefreiheits-Narratoren, alles, wo das Modell performt und nicht nur spricht — ist der Juni-2025-Snapshot generell die bessere Standardwahl.

Wo dieser Snapshot heute steht

Mitte 2026 ist dieser Snapshot der aktuellste Freeze, den die meisten Teams zitieren, wenn sie „das GPT-4o-Audio-Modell" sagen, ohne weitere Qualifikation. Es ist auch der Snapshot, der lange genug in Produktion war, damit Verhaltenseigenheiten in Community-Foren gut dokumentiert sind.

Für neue Voice-Projekte, die 2026 starten, besteht die Wahl zwischen diesem Snapshot, allem Neueren, das OpenAI seitdem ausgeliefert hat, und dem eventuellen stabilen Release der Audio-Linie. Der Fall für das Pinnen hier ist derselbe wie für das Pinnen jedes datierten Snapshots: Man tauscht Zugang zu Verbesserungen gegen Verhaltensstabilität.

Wo es flach fällt

Die Beschränkungen, die von der restlichen Audio-Preview-Linie vererbt wurden, gelten weiterhin.

Kein Streaming-Endpoint. Das Realtime-Preview ist die richtige Wahl für live-bidirektionale Konversation; dies hier ist Request/Response.

Kein Transkriptions-Spezialist. Wenn Text-Out von Audio-In die gesamte Aufgabe ist, kosten die dedizierten Transkriptions-Endpoints weniger pro Minute.

Nicht außerhalb der OpenAI-API deploybar. Keine On-Prem-Option, kein Air-Gap-Pfad. Die /usecases/local-Übersicht deckt ab, was verfügbar ist, wenn diese Beschränkungen binden.

Wann man diesen Snapshot pinnen sollte

Pinnen Sie gpt-4o-audio-preview-2025-06-03, wenn:

  • Sie die Audio-Linie Mitte bis Ende 2025 evaluiert haben und dies der Snapshot ist, der bestanden hat.
  • Prosodie-Qualität wichtig genug ist, dass die Verbesserungen gegenüber dem Dezember-Snapshot die Migrationskosten rechtfertigen.
  • Sie ein stabiles Verhaltensziel benötigen, während Sie darauf warten, dass die Audio-Linie den Preview-Status verlässt.

Überspringen Sie es, wenn:

  • Ein neuerer Snapshot verfügbar ist und Ihre Evaluation gewonnen hat.
  • Das eventuelle stabile Audio-Modell aus dem Preview befördert wurde.
  • Sie nur Transkription benötigen oder nur Realtime-Streaming brauchen — die spezialisierten Endpoints sind die bessere Wahl.

Deployment-Hinweise

Dieselbe Chat Completions API wie der Rest der GPT-4o-Familie. Der Modellname ist die Migrationseinheit. Audio-Input-Format, Output-Modalitätsauswahl und Voice-Parameter sind gegenüber dem Dezember-Snapshot unverändert.

Token-Billing teilt Audio-In, Audio-Out und Text auf. Audio-Tokens tragen deutlich höhere Kosten pro Informationseinheit als Text-Tokens. Kapazitätsplanung für Voice-Produkte liegt näher bei „verarbeiteten Audio-Minuten" als bei „ausgetauschten Nachrichten."

Die pragmatische Lesart: Dies ist das besser erzogene Geschwister des Dezember-Snapshots. Pinnen Sie es, wenn Ihr Voice-Produkt dagegen validiert wurde, migrieren Sie von der Dezember-Fixierung zu ihm, wenn Ihre Evaluation zeigt, dass die Prosodie-Gewinne es wert sind, und beobachten Sie das Changelog für das, was OpenAI als Nächstes zu Stable befördert. Führen Sie einen Side-by-Side-Vergleich unter /live-test durch, bevor Sie sich entscheiden.

Letzte technische Review: 2026-05-22 — Tokonomix.ai

gpt-4o-audio-preview-2025-06-03 — illustration 2gpt-4o-audio-preview-2025-06-03 — illustration 3
Letzter automatisierter Test
24. Mai 2026 · 04:46 UTC · Benchmark
P50-Latenz
P95-Latenz
Fehler
1 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026