Zum Inhalt
Läuft in:USErstellt in:United States
OpenAI

gpt-audio-2025-08-28

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-Audio-2025-08-28 ist ein multimodales Sprachmodell von OpenAI, das die Fähigkeiten klassischer textbasierter Modelle um native Audioverarbeitung erweitert. Das Modell ist für dialogorientierte Interaktionen mit Text und Sprache ausgelegt: Es verarbeitet gesprochene Eingaben und erzeugt Sprachausgaben, behält dabei aber die Textgenerierungsfähigkeiten der GPT-Reihe von OpenAI bei. Ziel ist es, natürlichere Mensch-Maschine-Interaktionen durch Echtzeit-Sprachdialoge neben standardmäßigen textbasierten Aufgaben zu ermöglichen. Die technische Architektur basiert auf den transformerbasierten Sprachmodellen von OpenAI und integriert Audio-Encoder- und -Decoder-Komponenten, die direkt mit Sprachsignalen arbeiten, statt ausschließlich auf eine zwischengeschaltete Texttranskription zurückzugreifen. Dieser Ansatz soll Nuancen in Tonfall, Sprechtempo und Stimmcharakteristik bewahren, die in reinen Textsystemen typischerweise verloren gehen. Das Modell unterstützt klassische Textgenerierungsaufgaben wie Frage-Antwort-Szenarien, Zusammenfassung, kreatives Schreiben und Codegenerierung und ergänzt diese um sprachbasierte Dialoge. Innerhalb des Modellportfolios von OpenAI markiert GPT-Audio-2025-08-28 einen Schritt hin zu multimodalen KI-Systemen, die verschiedene Medienformate verarbeiten und erzeugen können. Es steht neben textorientierten Modellen wie GPT-4 und spezialisierten Werkzeugen wie DALL-E und erweitert die für Entwickler verfügbaren Interaktionsmodalitäten. Das Modell ist auf Anwendungen ausgerichtet, die Sprachschnittstellen, Barrierefreiheitsfunktionen, Konversationsagenten oder Szenarien erfordern, in denen Audiokommunikation gegenüber reinem Text Vorteile bietet.

GPT-Audio (August 2025): OpenAIs multimodaler Ansatz für natürliche Sprach-KI-Interaktionen vereint Text und Stimme.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-audio-2025-08-28
$2.50 pro 1M Input-Tokens
$10.00 pro 1M Output-Tokens
≈ $0.0035 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$2.50
pro 1M Output-Tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Native Sprachein- und -ausgabeTonlage und Sprechrhythmus erhaltenNatürliche Voice-KonversationStandard-Textgenerierung ergänztBarrierefreiheits-AnwendungenOpenAI-API-Integration

Schwächen

Kontextgröße nicht dokumentiertAudio-Verarbeitung kann Latenz erhöhenSpezialisierter als reine Textmodelle
Abschnitt 03

Fähigkeiten

toolssource: litellmaudio inputaudio outputparallel toolsmax output tokens: 16384
Abschnitt 04

Häufig gestellte Fragen

Es verarbeitet und generiert Audio nativ, ohne separate Sprach-Pipelines, und bewahrt akustische Nuancen wie Tonlage.

Für Voice-First-Anwendungen, die über Transkription hinausgehen, bietet GPT-Audio eine integrierte Architektur.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 05

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 06

Tokonomix-Benchmark-Urteile

2026-06-14

Audio model launches with tool support but no benchmark data available

The gpt-audio-2025-08-28 model represents OpenAI's audio-native offering with newly confirmed capabilities including tool calling, audio input, audio output, and parallel tool execution. These capabilities distinguish it from text-only models by enabling direct audio processing workflows. However, no benchmark performance data is available in either the current or previous evaluation windows, making it impossible to assess the model's actual performance characteristics across standard reasoning, coding, or multimodal tasks. The lack of benchmark results means users cannot compare this model's capabilities against other OpenAI models or competitors in measurable ways. While the technical capabilities suggest potential for audio-based applications, the absence of performance metrics leaves key questions unanswered about accuracy, latency, reasoning depth, and reliability. Organizations evaluating this model for production use should conduct their own testing aligned with their specific audio processing requirements, as public benchmarks do not yet provide guidance on where this model excels or struggles relative to alternatives.

Quality

Latency p50

Test runs

0

Tool calling support added Audio input/output enabled No benchmark data available
Abschnitt 07

Vollständiges Modellprofil

gpt-audio-2025-08-28 — illustration 1
GPT Audio (Snapshot 2025-08-28): die Stimme fixieren, die Ihre Nutzer kennen

Dies ist der datierte Snapshot des ursprünglichen GPT-Audio-Modells, eingefroren auf den Release vom 28. August 2025. Audio zu pinnen ist aus einem bestimmten Grund wichtig, der für Textmodelle nicht gilt: Nutzer merken es, wenn sich die Stimme ändert. Ein subtiles Update am Schreibstil eines Textmodells bleibt in den meisten Ausgaben unbemerkt. Ein subtiles Update an den Stimmcharakteristika eines Audiomodells ist sofort hörbar. Für Voice-Anwendungen mit wiederkehrenden Nutzern ist Stimm­konsistenz kein Nice-to-have — sie ist Teil der Produktidentität.

Das Argument für Audio-Pinning aus Sicht der Stimm­konsistenz

Wenn ein Nutzer wochen- oder monatelang mit einer Voice-KI gesprochen hat, bildet er eine auditive Erwartung aus. Die Stimme hat ein bestimmtes Timbre, eine bestimmte Kadenz, ein bestimmtes Pausen­muster. Wenn das Modell aktualisiert wird und sich diese Charakteristika verschieben, bemerken die Nutzer das. Nicht immer bewusst — manchmal lautet die Rückmeldung „es klingt jetzt komisch", ohne dass sich artikulieren lässt, was sich verändert hat — aber die Veränderung wird registriert.

Bei Consumer-Voice-Apps kann sich das auf die Retention auswirken. Nutzer, die sich an die vorherige Stimme gewöhnt haben, empfinden die neue Stimme als weniger angenehm zum Sprechen. Die Reibung pro Interaktion ist gering und summiert sich über die Zeit.

Bei Accessibility-Tools zählt die Konsistenz noch mehr. Nutzer, die im Alltag auf die Stimme angewiesen sind, haben deren spezifische Qualitäten in ihren Arbeitsablauf integriert. Die Stimme ohne Vorankündigung zu ändern, ist operativ vergleichbar damit, in einer schriftlichen Oberfläche die Schriftart zu wechseln — technisch möglich, für betroffene Nutzer aber sofort verwirrend.

Bei markenbezogenen Voice-Anwendungen ist die Konsistenz fundamental. Wenn die Stimme Ihres Produkts Teil der Markenidentität ist, können Sie es sich nicht leisten, dass sie unbemerkt unter Ihnen wegdriftet.

Den datierten Snapshot zu pinnen ist die operative Antwort. Die Stimme, die Sie zum Launch getestet haben, ist die Stimme, die heute in Produktion läuft. Updates erfolgen nach Ihrem Migrationsplan, mit Nutzerkommunikation, falls angebracht, und nicht nach dem Release-Plan von OpenAI.

Was dieser Snapshot festhält

Den Launch von GPT Audio im August 2025: Launch-Modellgewichte, Launch-Stimm­charakteristika, Launch-Verhalten bei Audio-Eingaben, Launch-Verhalten bei der Sprachabdeckung. Das Modell hat sich seit dem Setzen des Pins nicht verändert.

Die Verbesserungen, die die GPT-Audio-Reihe in späteren Releases angesammelt hat — bessere Stimmqualität in der 1.5-Generation, verbesserte Robustheit gegen Hintergrundgeräusche, erweiterte Sprachabdeckung — keine davon ist hier enthalten.

Unter der Haube

GPT Audio in diesem Snapshot ist ein multimodales Modell, das Audio als Eingabe akzeptiert und Audio sowie Text als Ausgabe produziert. OpenAI hat weder Parameterzahlen noch architektonische Details veröffentlicht.

Der Tokenverbrauch pro Sekunde Audio ist in den OpenAI-Preisübersichten dokumentiert und ist für die Budgetierung von Audio-Workloads relevanter als die Kosten pro Texttoken. Das Kosten- und Latenzprofil ist auf den Werten von August 2025 fixiert.

Das Modell verarbeitet Sprache in mehreren Sprachen, wobei Englisch, Spanisch, Französisch, Deutsch, Mandarin und Japanisch am stärksten sind. Sprachen mit geringerer Ressourcenlage haben reduzierte Qualität.

Wo es heute steht

Im Vergleich zu aktuellen audio-multimodalen Angeboten liegt dieser Snapshot in puncto Stimmqualität, Robustheit gegen Hintergrundgeräusche und Sprachabdeckung unter den neueren GPT-Audio-Generationen. Das Intelligence-Leaderboard verfolgt die vergleichende Position; audio­spezifische Benchmarks sind weniger standardisiert als Textbenchmarks.

Für Customer-Service-Workflows leistet der Snapshot weiterhin nützliche Arbeit für Teams, die ihr Voice-Produkt rund um seine spezifischen Charakteristika kalibriert haben. Für Neuimplementierungen ist der Start mit einer neueren Generation in der Regel die richtige Wahl.

Wann dieser Pin beibehalten werden sollte

Die klaren Fälle betreffen die Stimm­konsistenz:

Sie haben eine wiederkehrende Nutzerbasis, die sich an diese Stimme gewöhnt hat und es bemerken würde, wenn sie sich ändert. Kundensupport-Apps, Accessibility-Tools, Voice-Assistenten für wiederkehrende Nutzer.

Ihre Produktmarke ist im Marketing, in der Dokumentation oder in Schulungsmaterialien für Nutzer an diese Stimme gebunden.

Sie haben nachgelagerte Audio-Verarbeitungstools, die auf die spezifischen akustischen Eigenschaften dieses Snapshots kalibriert sind.

Sie agieren in einem regulierten Kontext, in dem die Modellversion, die Sprachinteraktionen verarbeitet, audit-identifizierbar sein muss.

Sie führen eine lang laufende Nutzerstudie oder ein A/B-Experiment durch, bei dem die Stimme für die Dauer des Tests wirklich unverändert bleiben muss.

Wann migriert werden sollte

Die Auslöser für den Wechsel auf eine neuere Audio-Generation:

OpenAI hat den Deprecation-Zeitplan für diesen Snapshot veröffentlicht. Planen Sie vorausschauend.

Sie sind bereit, die Stimmänderung an Ihre Nutzer zu kommunizieren und vorübergehende Reibung in Kauf zu nehmen, um die Qualitätsverbesserungen der neueren Generation zu erhalten.

Ihre Evaluation zeigt, dass die neueren Generationen unter Ihren spezifischen Einsatzbedingungen — Hintergrundgeräusche, Akzentverteilung, Sprachabdeckung — spürbar besser sind und der Qualitätsgewinn die nutzerseitig sichtbare Stimmänderung rechtfertigt.

Sie starten eine neue Entwicklung und haben noch keine Nutzererwartungen rund um eine bestimmte Stimme kalibriert.

Das Migrationsmuster bei Audio

Planen Sie mehr Evaluationsaufwand ein als bei einer Textmigration. Audioqualität erfordert menschliche Hörer; kalkulieren Sie die Personenstunden ein.

Wenn sich Ihre Nutzerbasis an die aktuelle Stimme gewöhnt hat, planen Sie die Nutzerkommunikation. Eine Migrationsankündigung vor dem Wechsel gibt Nutzern Vorlauf und reduziert die Reibung im Sinne von „die Stimme hat sich geändert und ich weiß nicht warum".

Lassen Sie die Canary-Suite gegen die neue Generation unter den tatsächlichen Einsatzbedingungen laufen, nicht unter Laborbedingungen. Hintergrundgeräusche, Akzentverteilung und Mikrofonqualität beeinflussen alle das Migrationsergebnis.

Pinnen Sie den datierten Snapshot der neuen Generation, auf die Sie migrieren. Das Argument der Stimm­konsistenz gilt wieder.

Wo die Grenzen weiterhin liegen

Es gelten die üblichen Grenzen des ursprünglichen GPT Audio, fixiert in der Form vom August 2025: flacheres Reasoning als bei textfokussierten Frontier-Modellen, schwächere Verarbeitung von Hintergrundgeräuschen als bei neueren Generationen, reduzierte Qualität bei Sprachen mit geringer Ressourcenlage, kein Voice-Cloning.

Keine davon ändert sich durch das Pinnen. Sie pinnen das Launch-Verhalten des ursprünglichen Audiomodells mit all den Grenzen, die es zum Launch hatte.

Alternativen

Für Workloads, die ein gepinntes Audio-Verhalten bei einem anderen Anbieter benötigen, bieten vergleichbare audio-multimodale Snapshots anderer Anbieter dasselbe Pinning-Muster mit anderen Stimmprofilen.

Für Workloads, bei denen das Argument der Stimm­konsistenz nicht greift — interne Tools, einmalige Batch-Verarbeitung, Anwendungen ohne wiederkehrende Nutzer — ist die Migration auf einen neueren Floating-Slug einfacher und liefert die Capability-Gewinne ohne die Konsistenz-Verpflichtung.

Für Workloads, bei denen Sie sehr spezifische Stimm­charakteristika benötigen, die kein aktuelles Modell bietet, können Pipeline-Ansätze mit dedizierten TTS-Engines Ihnen mehr Kontrolle über die Stimmauswahl geben — zum Preis einer geringeren konversationellen Natürlichkeit.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

gpt-audio-2025-08-28 — illustration 2
Letzter automatisierter Test
14. Juni 2026 · 04:17 UTC · Benchmark
P50-Latenz
P95-Latenz
Fehler
1 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026