Tier C — Spezialist

Läuft in:USErstellt in:United States

$10.00

Ausgabe · pro 1M Tokens (Kostenbasis)

Kosten

1,003 ms

Antwortgeschwindigkeit

100 / 100

Intelligenz

Verdict — ZusammenfassungLIVE

● LIVE

jetzt · 2026-07-26

Quality decline and slower responses across tested categories

✗ Quality dropped 6.8 points✗ Latency increased 46%✓ Multilingual remains at 100✗ Creative performance declined

This benchmark window reveals a significant performance regression for gpt-4o-2024-11-20. Overall quality dropped 6.8 points from 99.3 to 92.5, while latency increased by 46% with median response times rising from 1253ms to 1825ms. The category composition changed between windows, making direct comparisons limited, but the available data shows mixed results. Multilingual capabilities remained exceptional at 100 in both windows, demonstrating consistent strength in language handling. However, creative tasks scored 87 compared to the previous 98, indicating a notable decline in this area. Reasoning achieved a perfect 100 score, while factual performance registered at 83. The previous window's perfect coding score of 100 cannot be compared as coding was not tested in the current window. The substantial latency increase is particularly concerning for real-time applications, representing nearly half a second of additional wait time per request. Users should be aware that this version shows reduced creative capability and slower response times compared to the previous benchmark period, though multilingual and reasoning performance remain strong areas.

Quality

92.5

Latency p50

1,825 ms

Test runs

1 von 15

Bild & ErklärungLIVE

OpenAI

gpt-4o-2024-11-20

Tier C — Spezialist

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

GPT-4o-2024-11-20 ist ein großes Sprachmodell von OpenAI, das im November 2024 als Teil der GPT-4o-Reihe veröffentlicht wurde. Es stellt eine Weiterentwicklung der multimodalen Architektur von OpenAI dar, wird in dieser Konfiguration jedoch primär für klassische Textgenerierungsaufgaben eingesetzt. Das Modell ist für allgemeines Sprachverständnis und Sprachgenerierung konzipiert, einschließlich Anwendungsfällen wie Inhaltserstellung, Beantwortung von Fragen, Code-Generierung, Analysen und dialogbasierten Anwendungen. Das Modell baut auf der GPT-4-Architektur auf, mit Verbesserungen zur Optimierung von Antwortqualität, Kohärenz und Instruktionsbefolgung. Während OpenAI konkrete technische Details zu Parameteranzahl und Trainingsdaten nicht offenlegt, zeigt das Modell Leistungsmerkmale, die mit Frontier-Class-Sprachmodellen vergleichbar sind. Es verarbeitet Texteingaben und erzeugt Textausgaben mit Fähigkeiten über mehrere Sprachen und Wissensdomänen hinweg, mit einem Trainingsdaten-Stichtag Mitte 2023. Innerhalb der Modellpalette von OpenAI positioniert sich GPT-4o-2024-11-20 als Standardangebot der GPT-4o-Familie, angesiedelt zwischen den früheren GPT-4-Modellen und neueren OpenAI-Releases. Das „o" in GPT-4o steht für Optimierungen im Hinblick auf praktische Einsatzszenarien. Dieser spezifische Snapshot dokumentiert den Stand des Modells zum Veröffentlichungsdatum im November 2024 und gilt als OpenAI-Empfehlung für Allzweckanwendungen, die zuverlässige Textgenerierung ohne spezialisierte multimodale Verarbeitungsanforderungen erfordern.

GPT-4o-Snapshot November 2024: Anthropics allgemeines Flaggschiffmodell in einer stabilen Herbst-2024-Version.
— Tokonomix-Benchmark-Zusammenfassung

Fähigkeiten

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 16384

gpt-4o-2024-11-20: der späte 4o-Snapshot von Ende 2024

gpt-4o-2024-11-20 ist der letzte größere Snapshot von GPT-4o, den OpenAI vor dem Erscheinen der GPT-4.1-Familie veröffentlicht hat. Am 20. November 2024 freigegeben, repräsentiert er das Modell in seiner ausgereiften Form — dieselbe multimodale Oberfläche wie das Launch-Modell, ergänzt um die Verbesserungen bei Reasoning, Schreibqualität und Refusal-Kalibrierung, die in der zweiten Hälfte 2024 eingeflossen sind.

Für Teams, die 4o weiterhin in Produktion betreiben, ist dies in der Regel der richtige Pin. Für neue Projekte hat sich die Diskussion weiterbewegt.

Was das November-Release verändert hat

Der Snapshot vom August 2024 erhielt die meiste strukturelle Aufmerksamkeit, weil er strikte Structured Outputs mitbrachte. Das November-Release war eine ruhigere Reihe von Änderungen, die in der Produktion jedoch genauso wichtig waren.

Reasoning-Qualität. Der November-Snapshot ist bei mehrstufigen Prompts sichtbar stärker als sowohl das Launch-Modell als auch der August-Snapshot. Chain-of-Thought-artige Arbeiten, Planungs-Prompts, neuartige Code-Synthese aus einer vagen Spezifikation — alle zeigen messbare Verbesserungen. Das Modell erreicht nicht das Niveau der Reasoning-optimierten Nachfolger aus der GPT-5-Familie, aber für die 4o-Klasse war es der Höhepunkt.

Schreibqualität. Langtext-Prosa aus diesem Snapshot ist spürbar weniger steif als aus dem August-Release. Die Satzstruktur variiert stärker, das Modell schränkt seltener ein, wenn der Prompt keine Einschränkungen rechtfertigt, und das Register bleibt über Absätze hinweg konsistenter. Teams, die Blog-Drafting, Executive-Summary-Arbeit oder beliebige produktive Textgenerierung auf 4o betreiben, pinnen schon allein deshalb auf diesen Snapshot.

Refusal-Kalibrierung. Etwas weniger aggressiv als August bei Grenzfällen. Einige legitime Edge-Case-Anfragen, die der August-Snapshot ablehnte, gehen im November sauber durch.

Was im Snapshot enthalten ist

Die vollständige GPT-4o-Feature-Oberfläche, wie sie im November 2024 vorlag. Text- und Bildeingabe mit einem 128k-Token-Kontextfenster. Audio über die Realtime-API und zeitgenössische Endpoints. Strikte Structured Outputs, übernommen aus August. JSON-Modus. Function Calling. Streaming auf der Chat-Completions-Oberfläche.

Was in diesem Snapshot nicht enthalten ist, ist alles aus der GPT-4.1-Familie. Der Million-Token-Kontext, die weiteren Reasoning-Verbesserungen, das aktualisierte Tokenizer-Handling — alles bleibt der neueren Familie vorbehalten. Wenn Ihr Workload tatsächlich davon profitiert, dreht sich die Upgrade-Diskussion um die Modellfamilie und nicht nur um das Snapshot-Datum.

Warum Teams gezielt auf November pinnen

Die meisten 4o-Pins, die heute in Produktion laufen, landen auf diesem Datum oder auf dem Floating Tag. Die Gründe sind die üblichen.

Compliance-Regime, die diesen Identifier freigegeben haben. Der November-Snapshot ist neu genug, dass abgeschlossene Audit-Zyklen gegen ihn weiterhin relevant sind, was ihn zum am häufigsten freigegebenen gepinnten 4o in regulierten Umgebungen macht.

Downstream-Pipelines, die auf das November-Verhalten abgestimmt sind. Teams, die rund um die Schreib- oder Reasoning-Qualität dieses Snapshots gebaut haben — Content-Generierung, Summarisierungsdienste, Agent-Loops, die von den spezifischen Entscheidungsmustern aus dem November abhängen — pinnen, um dieses Verhalten festzuhalten.

Verschobene Migration. Für Teams, die den Umstieg auf GPT-4.1 oder GPT-5 noch nicht abgeschlossen haben, bietet das Pinnen auf November ein stabiles Ziel, während die Migrationsarbeit läuft. In Produktion zu floaten, während migriert wird, ist ein Rezept für bewegliche Ziele in den Eval-Reports.

Wie es im Vergleich zum aktuellen Stand des Feldes abschneidet

GPT-4o auf dem November-Snapshot liegt nicht mehr an der Spitze. GPT-4.1, GPT-5 sowie die Claude-Opus-4.x- und Gemini-3-Pro-Familien sind bei Reasoning, Long-Context-Arbeit und Structured-Output-Edge-Cases klar voraus.

Was 4o weiterhin auszeichnet, ist eine gut verstandene Deployment-Geschichte, ein Preispunkt, der freundlicher ist als die Frontier-Stufe, und eine Audio-Oberfläche über gpt-4o-audio und die Realtime-API, die kein Nachfolger für produktive Voice-Arbeit vollständig ersetzt hat.

Für den kategorieübergreifenden Vergleich siehe /benchmarks/leaderboard. Aufschlüsselungen zu Geschwindigkeit und Intelligenz unter /benchmarks/speed und /benchmarks/intelligence.

Sunset-Risiko

Dieser Snapshot ist der jüngste 4o-Pin und damit am weitesten vom Sunset entfernt, aber der Deprecation-Horizont ist endlich. Der typische Zwölf- bis Achtzehn-Monats-Zyklus von OpenAI gilt. Planen Sie entsprechend.

Der natürliche Nachfolger auf der 4o-Familienseite ist der Floating Tag, der das meiste Verhalten aus dem November mit den kleinen darauffolgenden Verbesserungen weiterführt. Der vorausschauende Schritt ist der Umstieg auf GPT-4.1 oder GPT-5, je nach Workload. Halten Sie den Eval-Zyklus bereit, bevor das Deprecation-Datum angekündigt wird.

Pin-Muster

Das Muster, das sich bewährt:

In Eval, CI und auditierten Workflows pinnen.
Im Produktions-Traffic floaten, wo die kleinen laufenden Verbesserungen mehr wert sind als Reproduzierbarkeit.
Wöchentlich zwischen gepinntem und floatendem Modell gegen ein festes Prompt-Set diffen, um Verhaltensdrift zu erkennen.

Speziell für November ist die Drift des Floating Tags gegenüber diesem Snapshot heute klein genug, dass der Diff oft sauber zurückkommt. Das ändert sich mit der Zeit; lassen Sie den Diff-Job nicht aus dem Kalender fallen.

Für die floatende 4o-Oberfläche siehe GPT-4o. Für die Familie, die 4o für neue Projekte ablöst, siehe GPT-4.1.

Auswahl

Verwenden Sie gpt-4o-2024-11-20, wenn:

Ein Compliance-Regime diesen Identifier freigegeben hat und Ihr jüngster Audit-Zyklus ist.
Downstream-Pipelines von der Schreib- oder Reasoning-Qualität dieses spezifischen Releases abhängen.
Sie 4o in Produktion betreiben und einen stabilen Pin wollen, während eine Migration zu GPT-4.1 läuft.

Für neue Projekte zielen Sie auf die neuere Familie. November war ein guter Landeplatz. Er steht nicht mehr an der Spitze der Reihe.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

Anbieter-VergleichLIVE

Anbieter-Vergleich

Vergleiche jeden Anbieter dieses Modells — Kostenbasis, Qualität, Latenz und Uptime.

Azure OpenAI (EU - Sweden)EU

Eingabekosten$2.75

Ausgabekosten$11.00

QualitätNoch nicht getestet

Latenz (p50)Noch nicht getestet

UptimeNoch nicht getestet

Kosten pro 1M Tokens (Kostenbasis)

OpenAIUSDieses Angebot

Eingabekosten✓ beste$2.50

Ausgabekosten$10.00

Qualität✓ beste100.0

Latenz (p50)✓ beste1,003 ms

UptimeNoch nicht getestet

Kosten pro 1M Tokens (Kostenbasis)

Konsens-Intelligenz

MODELLWEIT

Konsens-Signale sind modellweit — noch nicht pro Anbieter getrennt.

8.0

Agent-Nutzen (1–10)

—

Präzisions-Score

Einzigartige Treffer

Validierte Anfragen

Schweregrad der Funde

■ Hoch 100%■ Mittel 0%■ Niedrig 0%

Community-StimmenLIVE

Community-Stimmen

Was echte Besucher denken — pro Anbieter.

Azure OpenAI (EU - Sweden)EU

Noch keine Community-Stimmen.

OpenAIUS

Noch keine Community-Stimmen.

Mehr Ergebnisse — pro Anbieter

Qualität nach Kategorie

Spiel-Rubrik

Noch keine Daten.

Jury-Urteil

■ OK 95%■ Teilweise 5%■ Falsch 0%

Spiele & Arena

Noch keine Daten.

Tempo & Gesundheit

1,003 ms

Latenz (p50)

—

Uptime

Qualität nach Kategorie

Spiel-Rubrik

Noch keine Daten.

Jury-Urteil

■ OK 95%■ Teilweise 5%■ Falsch 0%

Spiele & Arena

Noch keine Daten.

Tempo & Gesundheit

1,003 ms

Latenz (p50)

—

Uptime

Frage & Antwort — durchblätternLIVE

1 von 80

🧠 IntelligenzOpenAImultilingual · 2026-07-26Score: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

Bir ürünün indirimli fiyatını hesaplamak için şu adımları izleyebiliriz: 1. **Ürünün indirime tabi olan miktarını hesaplayalım:** %20 indirim demek, ürün fiyatının %20'si kadar bir miktarın fiyatından düşüleceği anlamına gelir. 150 TL'nin %20'si: $ 150 \times 0,20 = 30 \, TL $ 2. **Ürünün indirimli fiyatını bulalım:** $ 150 - 30 = 120 \, TL $ Sonuç: İndirimden sonra ürünün fiyatı **120 TL** olur. 🙂

Test-Historie — alle AnbieterLIVE

Qualitätsscore im Zeitverlaufneueste 91

Geschwindigkeit — p50-Latenz im Zeitverlauf

Ein Trend erscheint, sobald dieses Modell an mehreren Tagen getestet wurde.

📝Verdict — ZusammenfassungLIVE

Quality decline and slower responses across tested categories

🖼️Bild & ErklärungLIVE

gpt-4o-2024-11-20

Fähigkeiten

Was das November-Release verändert hat

Was im Snapshot enthalten ist

Warum Teams gezielt auf November pinnen

Wie es im Vergleich zum aktuellen Stand des Feldes abschneidet

Sunset-Risiko

Pin-Muster

Auswahl

📊Anbieter-VergleichLIVE

🧠Konsens-Intelligenz

👥Community-StimmenLIVE

🔬Mehr Ergebnisse — pro Anbieter

💬Frage & Antwort — durchblätternLIVE

🗂️Test-Historie — alle AnbieterLIVE

Verdict — ZusammenfassungLIVE

Bild & ErklärungLIVE

Anbieter-VergleichLIVE

Konsens-Intelligenz

Community-StimmenLIVE

Mehr Ergebnisse — pro Anbieter

Frage & Antwort — durchblätternLIVE

Test-Historie — alle AnbieterLIVE