Zum Inhalt
Tier C — Spezialist
Läuft in:USErstellt in:United States
OpenAI

gpt-4o-mini-2024-07-18

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

GPT-4o-mini-2024-07-18 ist ein kompaktes Sprachmodell von OpenAI, das im Juli 2024 als Teil der GPT-4o-Modellfamilie veröffentlicht wurde. Es stellt eine kleinere, effizientere Variante der GPT-4o-Architektur dar und wurde entwickelt, um leistungsfähige Textgenerierung bei geringerem Rechenaufwand als die größeren Pendants zu ermöglichen. Das Modell behält die multimodale Architekturbasis der GPT-4o-Reihe bei, konzentriert sich in dieser Variante jedoch vorrangig auf textbasierte Aufgaben. Das Modell ist für Anwendungen konzipiert, die Standardfunktionen zur Textgenerierung bei reduzierter Latenz und geringerem Ressourcenbedarf erfordern. Es bewältigt Aufgaben wie Inhaltserstellung, Fragebeantwortung, Zusammenfassung, Codegenerierung und dialogbasierte Interaktionen. Die Bezeichnung „mini" weist auf seine Positionierung als leichtgewichtige Option hin, die für Anwendungsfälle geeignet ist, in denen die vollständigen Fähigkeiten größerer Modelle nicht zwingend erforderlich sind – also für Anwendungen mit hohem Volumen oder Einsatzszenarien mit Ressourcenbeschränkungen. Innerhalb des Modellportfolios von OpenAI ist GPT-4o-mini hinsichtlich Leistungsfähigkeit und Kapazität unterhalb der Flaggschiffmodelle GPT-4o und GPT-4 Turbo angesiedelt und bietet eine Balance zwischen Leistung und Effizienz. Es löste frühere kompakte Modelle im Portfolio von OpenAI ab und bietet verbesserte Leistungsmerkmale gegenüber GPT-3.5-basierten Alternativen, bleibt dabei jedoch für ein breiteres Anwendungsspektrum zugänglich. Das Modell steht für OpenAIs fortlaufende Bemühungen, vielfältige Optionen über unterschiedliche Leistungs- und Effizienzprofile hinweg bereitzustellen.

GPT-4o-mini positioniert sich als pragmatische Arbeitsmaschine für Anwendungen, bei denen Durchsatz und Antwortlatenz wichtiger sind als die volle Modelltiefe der Flaggschiff-Varianten.

Tokonomix Redaktionsnotiz
Abschnitt 01

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
99
Mehrsprachig
100
Schlussfolgern
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-4o-mini-2024-07-18
$0.1500 pro 1M Input-Tokens
$0.6000 pro 1M Output-Tokens
≈ $0.0002 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1500
pro 1M Output-Tokens$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

▲ +50% since first

$0.6000

output / 1M

▲ +50% since first

2026-05-242026-05-312026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Niedrige Latenz bei TextaufgabenGünstig pro AnfrageSkaliert für hohes AnfragevolumenSolide für Klassifikation und ExtraktionStabile KonversationsqualitätGute Integration ins OpenAI-ÖkosystemBrauchbar für Zusammenfassungen und DraftsFunction Calling und Tool-Use unterstützt

Schwächen

Schwächer bei komplexem ReasoningWissensstand begrenzt auf 2024Multimodale Tiefe eingeschränktWeniger robust in seltenen Sprachen
Abschnitt 04

Fähigkeiten

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 16384
Abschnitt 05

Häufig gestellte Fragen

Immer dann, wenn Latenz, Kosten pro Aufruf oder Skalierung wichtiger sind als die maximale Modellqualität. Für Routineaufgaben wie Klassifikation, Extraktion oder kurze Antworten ist die Mini-Variante meist ausreichend.

Für Standard-Textaufgaben in hoher Frequenz ist das Modell eine solide Wahl, sobald man die Grenzen bei komplexem Reasoning und multimodalen Spezialfällen akzeptiert.

Tokonomix Bewertungsfazit
Abschnitt 06

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-588/100 · 76 runs
59 correct10 partial7 wrong78% accuracy
2026-06-14

Quality surges 5.9 points while latency doubles in third window

GPT-4o-mini demonstrates significant quality improvements in this benchmark window, reaching a near-perfect 99.8 overall score compared to the previous 93.9. The model achieved perfect 100 scores in both coding and reasoning categories, while maintaining strong multilingual performance at 99. This represents substantial progress in reasoning capabilities, which were not separately measured in the prior window. However, these quality gains come with a notable performance tradeoff. Median latency increased from 1936ms to 3852ms, representing a 99% slowdown. This doubling of response time is a significant regression that will impact user experience, particularly in interactive applications. The category coverage shifted between windows, making direct comparisons challenging. The previous window tested creative writing and factual accuracy separately, with factual scoring notably lower at 79. The current window consolidates testing into coding, multilingual, and reasoning categories, all performing at or near perfect levels. Users should expect substantially improved output quality, especially for reasoning-intensive tasks, but must account for considerably slower response times. The model appears to be trading speed for accuracy in this iteration.

Quality

99.8

Latency p50

3,852 ms

Test runs

5

Quality improved 5.9 points Perfect reasoning and coding scores Latency doubled to 3852ms 99% slower response times
Abschnitt 08

Vollständiges Modellprofil

gpt-4o-mini-2024-07-18 — illustration 1
gpt-4o-mini-2024-07-18: der ursprüngliche Mini-Freeze

gpt-4o-mini-2024-07-18 ist der datierte Snapshot vom Juli 2024 des kleinen GPT-4o-Modells von OpenAI. Der erste stabile Freeze der Mini-Linie. Derjenige, der ausgeliefert wurde, als OpenAI gpt-3.5-turbo aus dem Standard-Slot für günstige Modelle zurückgezogen und Mini an dessen Stelle gesetzt hat.

Das ist der Snapshot, den man pinnt, wenn "gpt-4o-mini" weitergerollt ist und dabei etwas bei Ihnen kaputtgemacht hat, oder wenn ein nachgelagerter Vertrag exakt das Verhalten des ursprünglichen Releases verlangt.

Was dieser Snapshot ist

Der Freeze vom Juli 2024 ist der erste Mini-Snapshot überhaupt. Mit diesem Release hatte das Modell:

  • Das 128k-Kontextfenster festgelegt, das über die gesamte Linie hinweg konstant geblieben ist.
  • Vision-Input-Unterstützung als Standardfähigkeit verankert, statt sie als separaten Endpunkt zu führen.
  • Die Tool-Use-Ergonomie etabliert, die spätere Mini-Snapshots geerbt haben.

Was er im Vergleich zum rollenden Alias mit Stand Mitte 2026 nicht hat:

  • Den Feinschliff beim Instruction-Following, den nachfolgende Mini-Snapshots ergänzt haben.
  • Die Verbesserungen bei der Zuverlässigkeit strukturierter Ausgaben, die über die Revisionen im Jahr 2025 hinweg eingeflossen sind.
  • Die Verfeinerungen der Refusal-Haltung, die die gelegentliche Übervorsicht des Ursprungsreleases geglättet haben.

Für ein Produktionsdeployment, das gegen genau diesen Snapshot gebaut und validiert wurde, können diese Lücken die falsche Art von "Verbesserung" sein — Sie haben sich auf spezifisches Verhalten stabilisiert, und ein Vorwärtsrollen bedeutet, alles erneut zu validieren.

Wann sich das datierte Pinning lohnt

Das Argument, beim 2024-07-18 zu bleiben statt beim rollenden gpt-4o-mini-Alias, ist dasselbe wie bei jedem datierten Snapshot: Sie tauschen Zugriff auf Verbesserungen gegen Verhaltensvorhersagbarkeit.

Konkrete Situationen, in denen sich das Pinning auszahlt:

  • Regulierte Workloads mit Modellversionsnachweis im Audit-Trail. Der Compliance-Verantwortliche möchte morgen dasselbe Modellverhalten, das die Dokumentation heute beschreibt. Der datierte Snapshot ist das, was dieses Versprechen ehrlich macht.
  • Produktions-Pipelines mit Prompt-Templates, die auf spezifische Modell-Eigenheiten abgestimmt sind. Neuere Snapshots verarbeiten denselben Prompt möglicherweise leicht anders — im Durchschnitt besser, in den Edge Cases, auf die Ihre Prompts getuned wurden, schlechter.
  • Langlaufende A/B-Tests, bei denen der Kontrollarm über Monate konstant bleiben muss.
  • Kundenseitige Produkte, bei denen die Konsistenz von Tonalität und Refusal-Sprache wichtiger ist als inkrementelle Qualitätsgewinne.

Für die meisten anderen Anwendungsfälle ist das Mitlaufen mit dem Alias die bessere Standardentscheidung.

Wann man weg migrieren sollte

Der ehrliche Migrationspfad ist nach vorn — zu einem aktuelleren Mini-Snapshot oder zu einem ganz anderen Modell.

So sieht die Entscheidung aus:

  • Die vollständige Evaluations-Suite gegen den aktuellen rollenden Alias und gegen den jüngsten datierten Snapshot erneut ausführen.
  • Anhand der Metriken vergleichen, die für Ihr Produkt zählen, nicht anhand der Metriken aus OpenAIs Release Notes.
  • Migrieren, wenn der neuere Snapshot in Ihrer Evaluation gewinnt. Bleiben, wenn nicht.

OpenAIs Deprecation-Policy gibt eine Vorankündigung, bevor datierte Snapshots zurückgezogen werden, aber diese Policy ist die Untergrenze, nicht die Obergrenze. Behandeln Sie das datierte Pinning als Übergangsvertrag, nicht als dauerhafte Heimat.

Wo das Modell auf der Strecke bleibt

Dieselben Beschränkungen wie für den Rest der Mini-Linie.

Hartes Reasoning an der Spitze. Mini muss hier Boden gegen das größere GPT-4o und die GPT-5-Familie abgeben. Der Vergleich auf Kategorieebene findet sich unter /benchmarks/leaderboard.

Audio, Echtzeit-Stimme oder Video. Das ist die Domäne der spezialisierten Geschwistermodelle.

Self-hosted-Deployment. Keine Weights, keine On-Prem-Option. Die Übersicht unter /usecases/local ist die richtige Referenz, wenn diese Anforderungen greifen.

Robustheit gegen Angriffe. Kleine Modelle sind leichtere Ziele für Prompt Injection als große. Mini-Klasse-Modelle jedes Anbieters teilen sich diese Schwäche.

Wann genau diesen Snapshot pinnen

Wählen Sie gpt-4o-mini-2024-07-18, wenn:

  • Sie ein Produkt auf dem Mini-Verhalten vom Juli 2024 ausgeliefert haben und die Kosten einer erneuten Validierung gegen einen neueren Snapshot den Nutzen überwiegen.
  • Ein regulierter Workflow das Version-Pinning auf Modellebene zu Auditzwecken vorschreibt.
  • Ein A/B-Test oder Forschungsprotokoll eine über die Zeit fixierte Modellreferenz benötigt.

Verzichten Sie darauf, wenn:

  • Sie neu starten — pinnen Sie stattdessen den jüngsten Mini-Snapshot.
  • Die Verbesserungen späterer Snapshots in Ihrem Evaluations-Harness nachweislich gewinnen.
  • Das Deployment den rollenden Alias verträgt und von automatischen Upgrades profitiert.

Deployment-Hinweise

Standard-Chat-Completions-API. Das Verhalten von Tool-Use und strukturierter Ausgabe ist unverändert seit dem Tag, an dem der Snapshot eingefroren wurde. Vision-Input funktioniert über alle Mini-Snapshots hinweg identisch.

Hosted Fine-Tuning wird unterstützt, was diesen Snapshot zu einer vernünftigen Basis für eine feinabgestimmte Mini-Variante macht, wenn Sie Qualität in einem engen Fachgebiet brauchen, ohne die Inferenzkosten der Frontier-Modelle zu bezahlen.

Die pragmatische Lesart. Das ist der erste stabile Freeze der Mini-Linie. Nutzen Sie ihn weiter, wenn Verhaltensstabilität Priorität hat. Wechseln Sie zu einem neueren Snapshot, wenn Ihre Evaluation es Ihnen sagt — nicht weil OpenAI eine Release Note veröffentlicht hat. Vergleichen Sie unter /live-test Seite an Seite, bevor Sie migrieren.

Letzte technische Prüfung: 22.05.2026 — Tokonomix.ai

gpt-4o-mini-2024-07-18 — illustration 2
Letzter automatisierter Test
14. Juni 2026 · 05:01 UTC · Benchmark
P50-Latenz
3960 ms
P95-Latenz
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026