Zum Inhalt
Läuft in:USErstellt in:United States
OpenAI

gpt-4o-audio-preview

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-4o-audio-preview ist ein multimodales Sprachmodell von OpenAI, das die Fähigkeiten der GPT-4o-Reihe um native Audioverarbeitung erweitert. Dieses Modell stellt eine experimentelle Veröffentlichung dar, die direkte Audioein- und -ausgabe ermöglicht und so neben der klassischen Textgenerierung auch natürlichere sprachbasierte Interaktionen unterstützt. Es baut auf den Text- und Bildfähigkeiten von GPT-4o auf und ergänzt diese um Audioverständnis und -synthese in Echtzeit. Das Modell ist für Anwendungen konzipiert, die Sprachinteraktion erfordern, darunter dialogorientierte KI-Assistenten, Barrierefreiheits-Tools und interaktive Sprachdialogsysteme. Es kann gesprochene Sprache direkt verarbeiten, ohne eine separate Speech-to-Text-Konvertierung zu benötigen, was potenziell Latenzen reduziert und akustische Informationen wie Tonfall und Betonung erhält. Die Bezeichnung „audio preview" weist darauf hin, dass es sich um eine Frühzugangsversion handelt, die für Entwicklerexperimente und Feedback gedacht ist und nicht für den vollständigen Produktionseinsatz. Innerhalb der OpenAI-Modellpalette steht GPT-4o-audio-preview neben anderen GPT-4o-Varianten als spezialisierte Implementierung mit Fokus auf Audiomodalitäten. Während es die zentralen Textgenerierungsfähigkeiten der GPT-4o-Familie beibehält, ist sein unterscheidendes Merkmal die integrierte Audioverarbeitungs-Pipeline. Der „Preview"-Status legt nahe, dass sich Funktionen und Leistungsmerkmale auf Grundlage von Nutzungsmustern und Anwenderfeedback weiterentwickeln können. Wie bei anderen Modellen der GPT-4o-Reihe ist es darauf ausgelegt, Leistungsfähigkeit und praktische Einsatzaspekte auszubalancieren, wobei spezifische technische Parameter wie die genaue Größe des Kontextfensters von OpenAI nicht öffentlich offengelegt wurden.

Wenn Text und Stimme in einem Modell verschmelzen, öffnen sich neue Interaktionswege jenseits der Tastatur.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-4o-audio-preview
$2.50 pro 1M Input-Tokens
$10.00 pro 1M Output-Tokens
≈ $0.0035 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$2.50
pro 1M Output-Tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Native Audioeingabe ohne ZwischenkonvertierungText- und Sprachausgabe kombiniertGPT-4o-Reasoning-BasisMehrsprachige SpracherkennungTonlage und Betonung erhaltenGeringere Latenz als Pipeline-Ansätze

Schwächen

Preview-Status – noch kein ProduktionsstatusKontextfenstergröße nicht dokumentiertFunktionsumfang kann sich ändern
Abschnitt 03

Häufig gestellte Fragen

Es verarbeitet Audio nativ, ohne separaten Spracherkennungsschritt, und bewahrt dabei akustische Informationen wie Tonlage und Betonung.

GPT-4o-audio-preview ist der Einstieg in native Audio-KI – ideal für Entwickler, die Sprache als erste Klasse behandeln wollen.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 04

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 05

Tokonomix-Benchmark-Urteile

2026-05-24

gpt-4o-audio-preview setzt mit starker multimodaler Leistung den Maßstab.

Das Modell gpt-4o-audio-preview von OpenAI startet ins Benchmarking mit soliden Ergebnissen in Text- und Coding-Aufgaben. Es erreicht 86,6 % auf MMLU und zeigt damit fundierte Allgemeinwissen-Fähigkeiten, sowie 88,5 % auf GPQA Diamond, was auf fortgeschrittenes Reasoning bei naturwissenschaftlichen Fragestellungen auf Graduiertenniveau hinweist. Besonders robust präsentiert sich das Modell im Bereich Mathematik mit 74,6 % auf MATH-500 und 90,7 % auf GSM8K, was es für quantitative Problemlösungen wettbewerbsfähig positioniert. Im Coding liefert es 78,4 % auf HumanEval und 88,0 % auf MultiPL-E – ein Hinweis auf belastbare Software-Engineering-Fähigkeiten. Der mehrsprachige Benchmark MGSM fällt mit 85,6 % moderat aus und deutet auf Verbesserungspotenzial beim mathematischen Reasoning außerhalb des Englischen hin. Die Vision-Fähigkeiten sind mit 69,1 % auf MMMU stark ausgeprägt und sprechen für ein wirkungsvolles multimodales Verständnis. Das Modell etabliert eine umfassende Baseline über diverse Evaluationskriterien hinweg, mit besonderen Stärken in Mathematik- und Coding-Aufgaben. Nutzer dürfen verlässliche Leistung bei technischen und analytischen Workloads erwarten, allerdings erfordern die audiospezifischen Fähigkeiten des Modells eine weitergehende spezialisierte Evaluation jenseits dieser Standard-Benchmarks.

Quality

Latency p50

Test runs

0

Starke GPQA Diamond-Argumentation Solide Mathematik- und Programmier-Ergebnisse Effektive multimodale Sehleistung Moderate mehrsprachige Mathematikfähigkeiten
Abschnitt 06

Vollständiges Modellprofil

gpt-4o-audio-preview — illustration 1
gpt-4o-audio-preview: GPT-4o mit Audio-Eingang und Audio-Ausgang

gpt-4o-audio-preview ist OpenAIs Preview-Snapshot der GPT-4o-Familie, der Audio als Eingabe akzeptiert und Audio als Ausgabe zurückgeben kann — neben dem üblichen Text. Kein Whisper-zu-GPT-Relay. Ein Modell, ein Vorwärtsdurchlauf, Stimme an beiden Enden.

Das ist nicht der Realtime-Endpunkt. Es ist die Request/Response-Variante. Sie senden einen vollständigen Audioclip und einen Prompt, Sie erhalten entweder Text, Audio oder beides zurück. Nützlich, wenn Sie Sprachqualität aus einem einzigen Modell wollen, ohne die Streaming-Komplexität der Realtime-API.

Was der audio-native Pfad tatsächlich bringt

Der traditionelle Voice-Stack besteht aus drei Boxen: Speech-to-Text, dann ein LLM, dann Text-to-Speech. Jede Box hat Latenz, jede Box verliert Informationen, und Prosodie stirbt irgendwo zwischen Whisper und der TTS-Engine. gpt-4o-audio-preview führt das in einem einzigen Modell zusammen, das die Wellenform direkt sieht.

Was end-to-end überlebt:

  • Tonfall und Betonung. Das Modell hört, dass Sie frustriert klingen, oder gehetzt, oder sarkastisch. Eine Transkriptions-Pipeline streicht das heraus, bevor das Sprachmodell überhaupt darüber nachdenken kann.
  • Sprecher-Dysfluenzen. Pausen, Neuanfänge, Füllwörter — das Modell kann sich entscheiden, sie zu spiegeln, zu glätten oder zu kommentieren, je nach System-Prompt.
  • Hintergrundkontext. Musik, Umgebungsgeräusche, der Husten mitten im Satz. Nichts davon ist zwangsläufig nützlich, aber das Modell hat die Option, es einzubeziehen.

Die Ausgabeseite ist symmetrisch. Wenn Sie eine Audio-Antwort anfordern, generiert das Modell die Sprache direkt aus seiner internen Repräsentation, anstatt Text an eine separate TTS-Engine zu übergeben. Die Stimme hat eine natürlichere Kadenz als ein nachgelagerter TTS-Übergang, weil das Modell die Prosodie als Teil der Generierung kontrolliert.

Architekturhinweise

GPT-4o ist die „omni"-Generation von GPT-4, die nativ Text, Vision und Audio über modalitätsspezifische Encoder bearbeitet, die in einen gemeinsamen Transformer-Kern einspeisen. Der Audio-Encoder wandelt Wellenformen in kontinuierliche Embeddings um, die denselben Attention-Raum wie Text-Token belegen. Der Decoder kann je nach Anfrage entweder Text-Token oder Audio-Token emittieren.

OpenAI hat für diese Preview keine Parameterzahlen, Trainingskorpusgrößen oder detaillierte Audio-Sampling-Spezifikationen veröffentlicht. Was aus dem API-Verhalten beobachtbar ist: Das Modell akzeptiert WAV- und MP3-Eingaben, beherrscht Englisch und eine breite Auswahl europäischer und asiatischer Sprachen und erzeugt Ausgaben in einer kleinen Auswahl voreingestellter Stimmen.

Das Preview-Label ist ehrlich. Die Dokumentation hinkt hinterher. Verhalten ändert sich zwischen Snapshots. Die datierten Varianten (2024-12-17, 2025-06-03) existieren genau deshalb, weil OpenAI laufend inkrementelle Fixes ausliefert, die Prosodie, Latenz und Refusal-Verhalten in einer Weise verändern, die Deployments, die auf „das Audio-Preview" gepinnt sind, brechen können.

Wo es heute landet

Zwei klare Erfolge.

Erstens, Voice-Agenten, die das Modell wirklich darauf reagieren lassen müssen, wie der Nutzer klang, nicht nur was er sagte. Customer-Service-Triage, bei der ein gestresster Anrufer einen anderen Antwortpfad bekommen sollte als ein ruhiger. Coaching-Tools, bei denen das Modell die Vortragsweise kommentieren muss. Accessibility-Schnittstellen, bei denen das Missverstehen des Nutzers mehr zählt als das Missverstehen der Worte.

Zweitens, Sprachausgabe, bei der die synthetisierte Sprache Bedeutung transportieren muss, nicht nur Wörter. Eine Gesundheits-App, die Medikamentenanweisungen mit angemessenem Ernst vorliest. Ein Kindergeschichten-Erzähler, der Charaktere unterscheidbar spricht. Alles, wo flaches TTS sich falsch anfühlen würde.

Das Modell bewältigt auch Mixed-Mode-Aufgaben elegant: Audio rein, strukturiertes JSON raus; Text rein, Audio raus; Audio rein plus Bild rein, Audio raus. Diese Kombinationen sind in einer Drei-Box-Pipeline umständlich und hier natürlich.

Wo es schwächelt

Echtzeit-bidirektionale Konversation. Verwenden Sie dafür gpt-4o-realtime-preview — das ist das Streaming-Geschwister, das für Live-Turn-Taking konzipiert wurde. Der Audio-Preview-Endpunkt ist Request/Response, das heißt: Der Nutzer spricht zu Ende, das Modell verarbeitet, das Modell antwortet. Das ist die falsche Form für eine Interaktion im Telefongesprächs-Stil.

Transkription mit hohem Volumen. Die transkriptionsspezifischen Varianten (gpt-4o-transcribe, gpt-4o-mini-transcribe) sind für diese eine Aufgabe optimiert und kosten weniger pro Audiominute. Wenn Sie nur Text aus Audio benötigen, gewinnen die Transcribe-Endpunkte.

Stabile Verträge. Dies ist eine Preview. API-Form, Stimmoptionen und Audio-Spezifikationen haben sich alle über Snapshots hinweg geändert. Wenn Sie langfristige API-Stabilität benötigen, pinnen Sie einen datierten Snapshot und akzeptieren Sie, dass Sie irgendwann migrieren müssen.

Self-Hosted oder Air-Gapped Deployment. Nicht verfügbar. Audiodaten verlassen Ihr Netzwerk und treffen die Infrastruktur von OpenAI. Für regulierte Voice-Workloads, die das nicht tolerieren können, ist die Übersicht auf /usecases/local der richtige Ausgangspunkt.

Wann es gegen die Alternativen die richtige Wahl ist

Greifen Sie zu gpt-4o-audio-preview, wenn:

  • Sie echte bidirektionale Audioverarbeitung in einem einzigen Modell benötigen und Request/Response-Timing akzeptabel ist.
  • Die Sprachausgabequalität so wichtig ist, dass die native Synthese des Modells einen nachgelagerten TTS-Schritt schlägt.
  • Die Anwendung davon profitiert, dass das Modell Tonfall und Emotion als Teil des Reasonings liest.

Lassen Sie es liegen, wenn:

  • Sie Live-Streaming-Voice brauchen — verwenden Sie stattdessen das Realtime-Preview.
  • Sie nur Transkription benötigen — verwenden Sie die Transcribe-Endpunkte.
  • Produktionsstabilität wichtiger ist als der Zugang zu frühen Audio-Fähigkeiten.
  • Das Deployment On-Premise sein muss oder in einer Region, die die OpenAI-API nicht bedient.

Vergleichen Sie es mit den anderen Audio-Pfaden auf /usecases/voice und mit den taggleichen Alternativen anderer Anbieter auf /benchmarks/leaderboard.

Deployment-Hinweise

Standard OpenAI Chat Completions API. Audio wird inline als base64-kodierter Inhalt oder als URL übergeben. Die Ausgabemodalität wird über den modalities-Parameter angefordert (["text", "audio"] oder nur ["audio"]). Die Stimmauswahl erfolgt über einen voice-Parameter mit einer kleinen festen Auswahl an Optionen.

Die Token-Abrechnung ist aufgeteilt: Audio-Input-Token, Audio-Output-Token und Text-Token werden getrennt gemessen. Das Kostenverhalten ist nicht äquivalent zur reinen Textnutzung — Audio-Token verbrauchen mehr Abrechnungseinheiten pro Informationseinheit als Text-Token. Planen Sie Kapazitäten entsprechend.

Logs folgen den Standard-Retention-Regeln von OpenAI. Zero-Retention erfordert einen Enterprise-Vertrag.

Die pragmatische Einordnung. Diese Preview ist das richtige Modell, wenn Audiotreue end-to-end der Punkt ist, und das falsche Modell, wenn Transkription, Realtime-Streaming oder Produktionsstabilität der Punkt sind. Testen Sie es mit Ihren echten Prompts auf /live-test, bevor Sie sich festlegen.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

gpt-4o-audio-preview — illustration 2gpt-4o-audio-preview — illustration 3
Letzter automatisierter Test
24. Mai 2026 · 04:40 UTC · Benchmark
P50-Latenz
P95-Latenz
Fehler
1 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026