Was kann o3 bei Mathematik?

Es erzielt starke Ergebnisse bei Benchmarks für fortgeschrittene Mathematik und mehrstufige Berechnungen.

Wie groß ist das Kontextfenster?

200.000 Tokens – was die Analyse langer Dokumente, Codebasen und ausgedehnter Konversationen ermöglicht.

Für welche Anwender ist o3 gedacht?

Forscher, Ingenieure und Entwickler, die analytisch anspruchsvolle Probleme mit maximaler Sorgfalt lösen wollen.

Tier C — Spezialist

Läuft in:USErstellt in:United States

OpenAI

o3

Tier C — Spezialist · 200K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

o3 ist ein auf Reasoning ausgerichtetes großes Sprachmodell von OpenAI, das als Teil der dritten Generation der Reasoning-Modelle des Unternehmens veröffentlicht wurde. Es ist darauf ausgelegt, komplexe Problemlösungsaufgaben zu bewältigen, die mehrstufiges Schlussfolgern erfordern, etwa fortgeschrittene Mathematik, Coding-Herausforderungen und wissenschaftliche Analysen. Das Modell nutzt erweiterte Chain-of-Thought-Verarbeitung, wodurch es zusätzliche Rechenzeit aufwenden kann, um schwierige Probleme zu durchdenken, bevor es Antworten generiert. Diese Architektur macht es besonders geeignet für Bereiche, in denen Genauigkeit und logische Stringenz Vorrang vor Antwortgeschwindigkeit haben. Das Modell unterstützt ein Kontextfenster von 200,000 Tokens und kann so umfangreiche Dokumente, Codebasen und längere Konversationen verarbeiten, ohne die Kohärenz zu verlieren. o3 bietet Standardfunktionen zur Textgenerierung und lässt sich auf Aufgaben anwenden, die von technischer Dokumentation bis hin zu analytischem Schlussfolgern reichen. Es stellt einen erheblichen Fortschritt in OpenAIs Reihe von Reasoning-Modellen dar und zeigt im Vergleich zu seinen Vorgängern deutliche Verbesserungen bei Benchmarks zur mathematischen Problemlösung, zum kompetitiven Programmieren und zum wissenschaftlichen Reasoning. Innerhalb des Modellportfolios von OpenAI ist o3 im oberen Segment der auf Reasoning spezialisierten Modelle angesiedelt und folgt auf die o1-Reihe. Es ist als Werkzeug für Nutzer positioniert, die tiefgehende analytische Fähigkeiten benötigen, statt einer universell einsetzbaren konversationellen KI. Das Modell richtet sich an Forschende, Entwickler und Fachleute, die an technisch anspruchsvollen Problemen arbeiten, bei denen herkömmliche Sprachmodelle Schwierigkeiten mit logischer Konsistenz oder komplexen Schlussfolgerungen haben können.

o3 setzt OpenAIs Reasoning-Reihe fort: 200.000-Token-Kontext und tiefes analytisches Denken für die komplexesten Aufgaben.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz101 runs

Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

Schlussfolgern

Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — o3

$2.00 pro 1M Input-Tokens

$8.00 pro 1M Output-Tokens

≈ $0.0028 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$2.00

pro 1M Output-Tokens$8.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— stable

$8.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)321 / avg 424

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Tiefes Mehrstufiges-Reasoning200.000-Token-KontextfensterFortgeschrittene MathematikWettbewerbsprogrammierungWissenschaftliches ReasoningLange Dokumente analysierbar

Schwächen

Höhere Latenz durch Reasoning-ProzessHöchster Ressourcenaufwand der o-LinieNicht für Alltagskonversation optimiert

Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 100000

Abschnitt 07

Häufig gestellte Fragen

o3 ist die dritte Generation der OpenAI-Reasoning-Modelle und zeigt deutliche Verbesserungen bei Mathematik, Programmierung und Wissenschaft.

Als Weiterentwicklung der o1-Serie übertrifft o3 seinen Vorgänger in Mathematik, Programmierung und Wissenschaftsreasoning.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 08

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-576/100 · 20 runs

14 correct1 partial5 wrong70% accuracy

● 2026-07-26

o3 shows severe reasoning regression and increased latency

OpenAI's o3 model has experienced a significant performance decline in the current benchmark window, with overall quality dropping 28.8 points from 97.7 to 68.9. Most critically, reasoning capability has collapsed to zero from previously strong levels, representing a fundamental regression in core functionality. Latency has also degraded substantially, with median response times increasing 29% from 2890ms to 3716ms. On the positive side, the model maintains exceptional performance in creative tasks at 99 and continues perfect multilingual support at 100. The previous window showed balanced excellence across coding, creative, and multilingual categories, but the current results reveal an uneven profile with the complete absence of reasoning scores. The factual category now scores 77, newly appearing in metrics but suggesting room for improvement. Users should be aware that while o3 excels in creative and multilingual applications, critical reasoning tasks appear compromised in this evaluation period. The combination of reduced quality scores and slower response times indicates potential issues that may affect production deployments requiring consistent performance across diverse task types.

Quality

68.9

Latency p50

3,716 ms

Test runs

✗ Quality dropped 28.8 points✗ Reasoning capability at zero✗ Latency increased 29%✓ Creative score remains high

Abschnitt 10

Vollständiges Modellprofil

o3: OpenAIs Frontier-Reasoning-Modell und der bedeutsame Nachfolger von o1

o3 ist das Modell, das die von o1 eingeführte Reasoning-Architektur aufgegriffen und über alle Bereiche hinweg vorangetrieben hat. Während o1 demonstrierte, dass erweiterte Chain-of-Thought-Verarbeitung ein produktionsreifes Feature sein kann, macht o3 dies zur Standard-Erwartung für anspruchsvolle Arbeiten. Die Leistungsgewinne gegenüber o1 sind messbar in Mathematik, wissenschaftlichem Reasoning, Code-Synthese und komplexer Planung. Das 200.000-Token-Kontextfenster bleibt bestehen, sodass Long-Document-Reasoning weiterhin eine erstklassige Fähigkeit darstellt.

Was sich von o1 zu o3 verändert hat

Die sichtbarste Verbesserung liegt in der Reasoning-Tiefe pro Token. o3 setzt seine Reasoning-Rechenleistung effizienter ein, erkundet Lösungspfad-Kandidaten, die o1 übersehen hätte, und schneidet unproduktive Zweige schneller ab. Das Nettoergebnis ist eine höhere Genauigkeit bei schwierigen Problemen bei vergleichbarer oder niedrigerer Latenz als o1 bei derselben Arbeitslast.

Die mehrstufige Code-Synthese ist signifikant besser geworden. Probleme, bei denen die Antwort das Schreiben eines nicht-trivialen Algorithmus erfordert, mehrere Library-Aufrufe korrekt integriert und Code produziert, der tatsächlich kompiliert und läuft, sind genau dort, wo der Abstand zu o1 am sichtbarsten ist. Für Entwicklungsteams, die ein Reasoning-Modell im Entwicklungszyklus einsetzen, ist o3 die Version, bei der die eingesparte Zeit pro Abfrage die Schwelle von interessant zu genuinem Mehrwert überschreitet.

Das mathematische Reasoning hat sich verbessert, insbesondere bei Problemen, die das Verfolgen vieler interagierender Variablen oder die sequentielle Anwendung mehrerer Frameworks erfordern. Wettbewerbsniveau-Mathematik und angewandte Physikprobleme landen bei o3 zuverlässiger als bei o1.

Das Trade-off-Muster bleibt dasselbe. Man gibt die schnelle Latenz von GPT-4o-Klasse-Reflexmodellen auf. Man erhält im Gegenzug eine substantiell höhere Genauigkeit bei Problemen, die mehrstufiges Reasoning erfordern. Die Kosten-pro-korrekter-Antwort-Kurve für schwierige Probleme ist bei o3 signifikant besser als bei o1, was die wichtigere Metrik ist als die Headline-Kosten pro Token bei Reasoning-Workloads.

Wo es funktioniert

Software-Engineering an der Schwierigkeitsgrenze. Das Schreiben komplexer Algorithmen, das Debuggen verworrener Produktionsprobleme, bei denen die Grundursache weit vom Symptom entfernt liegt, das Refactoring kritischer Systemkomponenten, bei denen fehlerhafter Code reale Kosten verursacht. Der Reasoning-Schritt fängt Fehler ab, die schnellere Modelle problemlos ausliefern würden.

Wissenschaftliches Reasoning über Disziplinen hinweg. Domänenübergreifende Probleme, die Physik plus Chemie plus Statistik oder Biologie plus Engineering benötigen. o3 hält mehrere Frameworks im Reasoning aktiv, besser als o1 es tat und signifikant besser als Reflexmodelle es können.

Long-Document-Analyse mit Reasoning. Der 200.000-Token-Kontext kombiniert mit der Reasoning-Tiefe macht o3 zweckgeeignet für Workloads wie komplexe Rechtsvertragsanalyse, Forschungspapier-Synthese mit unterstützenden Referenzen oder Codebase-Analysefragmente, die Dutzende von Dateien umfassen.

Strategische Planung unter interagierenden Constraints. Ressourcenallokation, Scheduling, Multi-Objective-Optimierung. Überall dort, wo das Problem viele Constraints hat, die auf nicht-offensichtliche Weise interagieren, und eine falsche Vereinfachung eine falsche Antwort liefert.

Wo es flach fällt

Echtzeit-interaktive Anwendungen. Das Latenzprofil ist inkompatibel mit Chat-Interfaces, die Antworten unter einer Sekunde benötigen. Verwenden Sie Reflexmodelle für diese Workloads und routen Sie die schwierigen Durchgänge asynchron zu o3, wenn Sie beide Eigenschaften benötigen.

Einfache Zusammenfassung und Extraktion. Verschwendete Reasoning-Rechenleistung. Verwenden Sie gpt-4o-mini oder andere Reflexmodelle für diese Workloads, bei denen die Kosten pro Aufruf mehr zählen als die Tiefe des Reasonings.

Kreatives Schreiben, bei dem der Fluss zählt. o3 produziert sorgfältige Prosa mit derselben flachen Wirkung wie o1. Reflexmodelle produzieren oft lebendigere kreative Ausgaben, weil sie nicht durch Reasoning-First-Generierung eingeschränkt sind.

Hochvolumen-Workloads mit dünner Marge pro Aufruf. Die Kosten pro Abfrage von o3 skalieren nicht für die Art von Workload, bei der Sie Zehntausende von Abfragen pro Stunde bei niedrigem Stückerlös verarbeiten. Für diese Form ist o4-mini die kosteneffiziente Reasoning-Stufe, die viele Workloads zu deutlich niedrigeren Kosten pro Aufruf bewältigt.

Es auswählen oder seitwärts bewegen

Für neue Builds, die genuine Reasoning-Tiefe benötigen, ist o3 die richtige Voreinstellung im OpenAI-Katalog. Der datierte Snapshot o3-2025-04-16 ist die Version, die für regulierte Workflows oder Reproduzierbarkeit fixiert werden sollte. Die neueren Reasoning-Stufen in der o4-Familie repräsentieren weitere Fähigkeitsiteration, mit o4-mini in der kosteneffizienten Mittelstufe und o4-mini-deep-research für Research-Mode-Workflows, die externe Quellenintegration benötigen.

Für Workloads, die zuvor auf o1 liefen, lohnt sich die Migration zu o3 im Allgemeinen. Sie erhalten bessere Genauigkeit bei denselben Problemen zu vergleichbaren Kosten. Die Arbeit besteht darin, zu revalidieren, dass Ihre spezifischen Prompt-Muster sauber übertragen werden, was sie größtenteils tun, aber nicht universell.

Für die allerschwierigsten Probleme, bei denen Sie maximale Genauigkeit unabhängig von den Kosten anstreben möchten, war o1-pro die o1-Generationen-Extended-Reasoning-Variante. Das o3-Tier-Äquivalent für maximalen Reasoning-Aufwand sitzt an derselben architektonischen Stelle, aber mit dem neueren zugrundeliegenden Modell. Führen Sie einen ordentlichen Evaluierungsdurchlauf gegen Ihr spezifisches Hard-Problem-Set durch, um zu entscheiden, was ökonomisch sinnvoll ist.

EU-Datenresidenz wird standardmäßig bei keinem OpenAI-Reasoning-Endpoint erfüllt. Das Regional-Gateway-Muster ist der praktische Workaround.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

30. Juli 2026 · 08:04 UTC · Geschwindigkeits-Benchmark

P50-Latenz

623 ms

P95-Latenz

645 ms

Fehler

1 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Mai 2026