Zum Inhalt
Läuft in:USErstellt in:United States
OpenAI

gpt-4o-mini-audio-preview-2024-12-17

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-4o-mini-audio-preview-2024-12-17 ist ein multimodales Sprachmodell von OpenAI, das die Fähigkeiten der GPT-4o mini-Reihe um Audioverarbeitung erweitert. Das Modell ist ein experimentelles Preview-Release, das Textgenerierung mit Audioverständnis und potenziell auch Audioausgabe kombiniert. Es ist für Anwendungen konzipiert, die sowohl natürliche Sprachverarbeitung als auch Audio-Interaktion erfordern, und ermöglicht Entwicklern den Aufbau dialogbasierter Schnittstellen, die gesprochene Eingaben neben klassischen textbasierten Interaktionen verarbeiten können. Das Modell behält die zentralen Textgenerierungsfähigkeiten der GPT-4o mini-Familie bei und integriert zusätzlich Audiomodalitäten. Als Preview-Release dient es als Testumgebung für OpenAIs multimodale Technologien und erlaubt Entwicklern, audiogestützte Anwendungen vor einer breiteren kommerziellen Einführung zu erproben. Die konkrete Größe des Kontextfensters wurde nicht öffentlich bekanntgegeben, dürfte sich aber an anderen Modellen der GPT-4o-Reihe orientieren. Das Modell verarbeitet standardmäßige Text-Prompts und kann Audioeingaben handhaben, was es für Sprachassistenten, Transkriptionsdienste, Barrierefreiheitstools und weitere Anwendungen geeignet macht, in denen Audioverständnis das Nutzererlebnis verbessert. Innerhalb des OpenAI-Modellportfolios nimmt diese Variante eine spezialisierte Stellung als experimentelle, audiofähige Version der schlanken GPT-4o mini-Architektur ein. Sie bietet eine ressourcenschonendere Alternative zum vollständigen GPT-4o-Modell und stellt zugleich Audiofunktionen bereit, die rein textbasierten Standardmodellen fehlen. Die Preview-Kennzeichnung weist auf eine fortlaufende Entwicklung hin; Funktionen und Leistungsmerkmale können sich auf Basis von Nutzerfeedback und technischer Weiterentwicklung ändern.

Die kompakte Audio-Variante des GPT-4o mini – Sprachverarbeitung ohne Ressourcenaufwand der Flaggschiffmodelle.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-4o-mini-audio-preview-2024-12-17
$0.1500 pro 1M Input-Tokens
$0.6000 pro 1M Output-Tokens
≈ $0.0002 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1500
pro 1M Output-Tokens$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— no change

$0.6000

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Audioeingabe im Mini-FormatEffizienter als vollständige GPT-4o-VarianteKombinierte Text- und AudioausgabeGPT-4o-mini-Architektur als BasisGeeignet für Sprachassistenz-AppsEinfache API-Integration

Schwächen

Experimenteller Preview-StatusKontextgröße nicht veröffentlichtFunktionen können sich weiterentwickeln
Abschnitt 03

Häufig gestellte Fragen

Dieses Modell basiert auf der effizienteren mini-Architektur und ist für ressourcenschonendere Einsatzszenarien gedacht.

Für Anwendungen, die Spracheingabe integrieren wollen ohne den Overhead großer Modelle, ist diese Vorschau ein interessanter Startpunkt.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 04

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 05

Tokonomix-Benchmark-Urteile

2026-05-24

Baseline für Multimodal-Audio-Preview-Modell etabliert

Dieser Benchmark legt die initiale Leistungsbaseline für gpt-4o-mini-audio-preview-2024-12-17 fest, das multimodale Modell von OpenAI mit Audiofähigkeiten. Das Modell zeigt starke Leistung im mathematischen Reasoning und erreicht 85.4% auf MATH-500 sowie 88.0% auf GSM8K, was solide Fähigkeiten für quantitative Problemlösungen belegt. Die Coding-Leistung weist mit 72.5% auf HumanEval und 79.9% auf MBPP Kompetenz auf und positioniert das Modell im kompetenten Bereich für Programmierunterstützung. Reasoning auf Graduiertenniveau erzielt 58.9% auf GPQA Diamond, während das mehrsprachige Verständnis 74.3% auf MGSM erreicht, was auf angemessene Leistung über diverse sprachliche Kontexte hinweg hindeutet. Das Modell erreicht 86.0% auf MMLU und demonstriert damit eine breite Wissensabdeckung über akademische Fächer hinweg. Das Befolgen von Anweisungen erzielt 66.0% auf IFEval, was Verbesserungspotenzial bei der präzisen Einhaltung komplexer Direktiven anzeigt. Als Audio-Preview-Variante erweitert dieses Modell die Mini-Serie um multimodale Fähigkeiten unter Beibehaltung der Recheneffizienz. Diese Baseline-Metriken dienen als Referenzpunkt zur Verfolgung von Leistungsveränderungen, Regressionen oder Verbesserungen in künftigen Benchmark-Fenstern. Nutzer sollten diese Werte bei der Bewertung des Modells für mathematische, Coding- und Reasoning-Aufgaben mit Audioeingabeverarbeitung berücksichtigen.

Quality

Latency p50

Test runs

0

Starke mathematische Argumentation etabliert Solide Basisleistung beim Programmieren Breite Wissensabdeckung bestätigt Befolgung von Anweisungen muss verbessert werden
Abschnitt 06

Vollständiges Modellprofil

gpt-4o-mini-audio-preview-2024-12-17 — illustration 1
gpt-4o-mini-audio-preview-2024-12-17: der Mini-Audio-Pin vom Dezember

gpt-4o-mini-audio-preview-2024-12-17 ist der datierte Snapshot des kleinen Audio-multimodalen Previews vom Dezember 2024. Identische Architektur wie der rollende Alias gpt-4o-mini-audio-preview zu jenem Zeitpunkt, eingefroren, damit Produktionsdeployments dagegen pinnen können.

Der datierte Pin ist das, was Voice-Produkte vorhersehbar hält, während OpenAI die Preview-Linie weiter iteriert.

Was Ihnen das Pinnen eines Mini-Audio-Snapshots bringt

Voice-Produkte reagieren ungewöhnlich empfindlich auf Modellversions-Drift. Eine kleine Änderung bei der Stille-Erkennung führt dazu, dass der Agent dem Nutzer anders ins Wort fällt. Eine kleine Änderung in der Prosodie führt dazu, dass aufgezeichnete Prompts und Live-Antworten sich nicht mehr wie dieselbe Stimme anfühlen. Eine kleine Änderung in der Ablehnungssprache führt dazu, dass eingespielte Szenarien, die früher funktionierten, jetzt mit einer höflichen Absage enden.

Die Mini-Audio-Preview-Linie hat im Laufe des Jahres 2025 mehrere Snapshots ausgeliefert, jeder mit kleinen Verhaltensänderungen. Ein Pin auf 2024-12-17 bedeutet:

  • Sie verzichten auf die Verbesserungen bei Stille-Verarbeitung und Prosodie, die mit dem Juni-2025-Snapshot der vollständigen Audio-Preview-Linie kamen (und sich weitgehend auf Mini-Audio übertrugen).
  • Sie behalten genau das Verhalten, das Ihre Evaluation vom Dezember 2024 bestanden hat.

Für QA-gebundene Voice-Deployments ist dieser Tausch in der Regel die Mühe wert.

Was dieser Snapshot repräsentiert

Bis Dezember 2024 hatte das Mini-Audio-Preview:

  • Die API-Oberfläche für Audio-Input via Inline-Base64-Content stabilisiert.
  • Das kleine, feste Set vordefinierter Output-Stimmen, das mit der vollständigen Audio-Preview-Linie geteilt wird, festgeschrieben.
  • Die disruptiveren Prosodie-Regressionen aus den ursprünglichen Preview-Drops behoben.

Was er gegenüber späteren Snapshots noch nicht hat:

  • Die Verfeinerungen bei der Erkennung des Stille-Endes, die das Ins-Wort-Fall-Verhalten geglättet haben.
  • Den reduzierten Stimm-Drift bei langen Audio-Outputs, der Mitte 2025 kam.
  • Die konversationellere Ablehnungssprache, mit der neuere Snapshots ausgeliefert werden.

Wenn Ihr Voice-Agent die QA Ende 2024 oder Anfang 2025 bestanden hat, ist dies höchstwahrscheinlich der Snapshot, gegen den er bestanden hat.

Die Migrationsfrage

Der ehrliche Weg von diesem Snapshot weg führt zu einem neueren datierten Freeze in derselben Linie, evaluiert gegen Ihre Szenarien. Das Vorgehen:

  • Halten Sie den Dezember-Pin in der Produktion, während Sie evaluieren.
  • Lassen Sie die vollständige Voice-Szenario-Suite gegen den neueren Kandidaten-Snapshot erneut laufen.
  • Vergleichen Sie auf den Dimensionen, die für Ihr Produkt zählen — Prosodie, Stille-Verarbeitung, Ablehnungsverhalten, Sprachabdeckung auf Ihrem Traffic-Mix.
  • Migrieren Sie, wenn der neuere Snapshot in Ihrer Evaluation gewinnt, nicht aufgrund des Changelogs.

Das ist dieselbe Migrationsdisziplin, die für jeden datierten Snapshot-Pin gilt. Audio-Produkte verstärken die Kosten, wenn man es falsch macht, weshalb sich diese Disziplin hier strenger einzuhalten lohnt als bei Textmodellen.

Wo er an seine Grenzen stößt

Einschränkungen, die vom Rest der Mini-Audio-Preview-Linie geerbt sind.

Kein Streaming. Das Mini-Realtime-Preview ist der passende Geschwister-Snapshot für bidirektionale Live-Sprache; dieser ist Request/Response.

Kein Transkriptionsspezialist. Wenn Text-Output aus Audio-Input die gesamte Aufgabe ist, kostet die dedizierte Linie gpt-4o-mini-transcribe weniger pro Minute.

Nicht außerhalb der OpenAI-API einsetzbar. Die Übersicht unter /usecases/local deckt ab, was verfügbar ist, wenn diese Einschränkung relevant ist.

Nicht das passende Tier für anspruchsvolles Reasoning in Voice. Mini-Audio ist das kleine Modell. Wenn der Voice-Agent Frontier-Reasoning hinter der Sprache benötigt, eskalieren Sie auf das vollständige Audio-Preview.

Wann genau dieser Snapshot zu pinnen ist

Wählen Sie gpt-4o-mini-audio-preview-2024-12-17, wenn:

  • Sie ein Voice-Produkt auf dem Mini-Audio-Verhalten von Ende 2024 ausgeliefert haben und es stabil halten müssen.
  • Eine Compliance- oder Audit-Anforderung verlangt, dass die Modellversion auf Snapshot-Ebene gepinnt wird.
  • Sie einen A/B-Test fahren, bei dem der Kontrollarm über Monate der Evaluation konstant bleiben muss.

Überspringen Sie ihn, wenn:

  • Sie auf der Mini-Audio-Linie neu beginnen — evaluieren Sie stattdessen den aktuellsten Snapshot.
  • Die Verbesserungen bei Stille-Verarbeitung und Prosodie in späteren Snapshots auf Ihrem Traffic nachweislich gewonnen haben.
  • Die Audio-Modellreihe vom Preview-Status in den stabilen Status übergeht — dort sollten neue Projekte landen.

Deployment-Hinweise

Dieselbe Chat-Completions-API wie der Rest der Mini-Audio-Linie. Der Snapshot-Pin ist rein eine Frage der Modellnamenswahl; die API-Oberfläche ist über alle Snapshots hinweg identisch.

Audio-Input-Format, Auswahl der Output-Modalität über den Parameter modalities und die Optionen für voreingestellte Stimmen sind bislang über alle Snapshots hinweg konstant geblieben. Die Verhaltensänderungen zwischen Snapshots betreffen, wie das Modell Audio verarbeitet, nicht, wie Sie es aufrufen.

Das Token-Billing unterteilt sich in Audio-In, Audio-Out und Text. Audio-Tokens tragen merklich höhere Kosten pro Informationseinheit als Text-Tokens. Die Voice-Kapazitätsplanung liegt näher an „verarbeiteten Minuten" als an „bedienten API-Calls".

Die pragmatische Lesart. Dies ist der Dezember-2024-Freeze von Mini-Audio. Pinnen Sie ihn, wenn Ihr Voice-Produkt dagegen validiert wurde. Migrieren Sie vorwärts, wenn Ihre eigene Evaluation sagt, dass der neuere Snapshot der richtige Schritt ist. Führen Sie Seite-an-Seite-Vergleiche unter /live-test durch, bevor Sie sich festlegen.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

gpt-4o-mini-audio-preview-2024-12-17 — illustration 2
Letzter automatisierter Test
24. Mai 2026 · 04:41 UTC · Benchmark
P50-Latenz
P95-Latenz
Fehler
1 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026