Zum Inhalt
Läuft in:USErstellt in:United States
OpenAI

gpt-4o-mini-search-preview-2025-03-11

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

gpt-4o-mini-search-preview-2025-03-11 ist eine Variante von OpenAIs GPT-4o mini-Modell und stellt eine kosteneffiziente Option in der Sprachmodell-Produktpalette des Unternehmens dar. Als Teil der GPT-4o-Familie baut es auf OpenAIs multimodaler Architektur auf und ist für Szenarien optimiert, in denen niedrige Latenz und reduzierter Rechenaufwand Priorität haben. Diese Preview-Version umfasst Suchfunktionalität, was auf eine Integration mit externen Informationsabruf-Fähigkeiten hindeutet, um Antworten mit aktuellen oder faktischen Daten über den Trainingszeitpunkt des Modells hinaus zu erweitern. Das Modell ist für standardmäßige Textgenerierungsaufgaben konzipiert und unterstützt Anwendungen wie Konversationsagenten, Content-Erstellung, Zusammenfassungen und allgemeine Frage-Antwort-Systeme. Die Bezeichnung „Search Preview" deutet darauf hin, dass sich diese Variante in einer Test- oder Early-Access-Phase befindet und Entwicklern ermöglicht, mit suchgestützten Generierungsmustern zu experimentieren. Obwohl die genaue Kontextfenstergröße nicht öffentlich spezifiziert wurde, bieten Modelle der GPT-4o mini-Familie typischerweise ausreichende Kontextkapazität für die meisten gängigen Anwendungsfälle bei gleichzeitig schnelleren Antwortzeiten im Vergleich zu größeren Modellen der GPT-4-Serie. Innerhalb von OpenAIs Modellhierarchie steht gpt-4o-mini-search-preview-2025-03-11 hinsichtlich Leistungsfähigkeit und Umfang unter den vollständigen GPT-4o- und GPT-4-Modellen, bietet jedoch Vorteile in Geschwindigkeit und Effizienz. Es dient Nutzern, die zuverlässiges Sprachverständnis und Generierung benötigen, ohne die fortgeschrittensten Reasoning-Fähigkeiten der Flaggschiff-Modelle zu erfordern – insbesondere in Anwendungen, wo Echtzeit-Informationszugriff durch Suchintegration einen bedeutenden Mehrwert bietet.

GPT-4o-mini-search-preview ergänzt das Sprachmodell mit Websuche für aktuelle, faktenbasierte Antworten.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
90
Mehrsprachig
100
Schlussfolgern
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — gpt-4o-mini-search-preview-2025-03-11
$0.1500 pro 1M Input-Tokens
$0.6000 pro 1M Output-Tokens
≈ $0.0002 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1500
pro 1M Output-Tokens$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— stable

$0.6000

output / 1M

— stable

2026-05-242026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Integrierte Websuche für aktuelle DatenAktuelle Ereignisse und FaktenEffizienz der mini-ArchitekturAllgemeine SprachgenerierungOpenAI-API-IntegrationSuch-erweiterte Antwortqualität

Schwächen

Preview-Status – nicht GAWeniger Tiefe als Full-GPT-4oKontextgröße nicht spezifiziert
Abschnitt 04

Fähigkeiten

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 16384
Abschnitt 05

Häufig gestellte Fragen

Es kann aktuelle Webinformationen abrufen, um Antworten mit Daten jenseits des Trainings-Cutoffs zu bereichern.

Wenn aktuelle Informationen wichtig sind, schließt die Such-Integration die Lücke zwischen Trainingsdaten und Gegenwart.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 06

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-592/100 · 75 runs
61 correct13 partial1 wrong81% accuracy
2026-06-14

Major capability expansion with tools and vision support added

This model version represents a significant evolution with the addition of multiple new capabilities including tools, vision, JSON mode, PDF input, JSON schema, parallel tools, and prompt caching. These additions transform the model from a text-only system into a multimodal platform with enhanced integration options. The expanded capability set enables developers to build more sophisticated applications with structured outputs, visual understanding, and efficient caching mechanisms. The introduction of tool calling and parallel tool execution particularly extends the model's utility for agentic workflows and complex task orchestration. Vision support adds multimodal understanding that was previously unavailable. JSON schema and JSON mode provide better control over structured outputs, while PDF input expands document processing capabilities. Prompt caching offers potential performance and cost optimizations for repeated queries. However, without performance metrics from the current benchmark window, it's unclear how these new features impact baseline text generation quality, latency, or accuracy. Users should evaluate whether the expanded capabilities meet their specific use cases while monitoring for any trade-offs in core text generation performance that may accompany this broader feature set.

Quality

Latency p50

Test runs

0

Tools and parallel execution added Vision capability now supported JSON schema and mode available Prompt caching enabled
Abschnitt 08

Vollständiges Modellprofil

gpt-4o-mini-search-preview-2025-03-11 — illustration 1
gpt-4o-mini-search-preview-2025-03-11: der März-Mini-Search-Pin

gpt-4o-mini-search-preview-2025-03-11 ist der datierte Snapshot des kleinen, suchgestützten Chat-Modells von OpenAI vom März 2025. Identische Retrieval-Tool-Architektur wie der rollende Alias, eingefroren auf diesem Release-Stand, damit Produktionsdeployments gegen bekanntes Verhalten gepinnt werden können.

Suchgestützte Antworten reagieren ungewöhnlich empfindlich auf Modellversions-Drift. Das Pinnen eines Snapshots ist das, was Zitierverhalten, Query-Strategien und Synthese-Stil vorhersehbar hält, während OpenAI an der Preview-Linie weiterarbeitet.

Was dieser Snapshot repräsentiert

Bis März 2025 hatte die Mini-Search-Preview:

  • Das Format der Zitations-Metadaten stabilisiert, das der rollende Alias bis heute verwendet.
  • Die Abrechnungsstruktur pro Suchaufruf festgelegt.
  • Die disruptiveren Query-Konstruktions-Regressionen der ursprünglichen Preview-Drops behoben.

Was er im Vergleich zu späteren Snapshots nicht hat:

  • Das verbesserte Query-Rewriting, das Mitte 2025 eingeführt wurde und die Anzahl der Suchaufrufe pro Antwort reduzierte.
  • Die Verfeinerungen des Citation-Rankings, die autoritative Quellen aggressiver hervorheben.
  • Die Latenzverbesserungen durch Backend-Infrastruktur-Änderungen im Verlauf des zweiten Quartals 2025.

Für im Frühjahr 2025 validierte Deployments ist das höchstwahrscheinlich der Snapshot, gegen den die Validierung bestanden wurde.

Warum der datierte Pin für Suchmodelle wichtiger ist

Suchgestützter Chat hat mehrere Verhaltensdimensionen, die sich zwischen Snapshots verschieben können, und jede davon ist im Produkt sichtbar:

  • Die Anzahl der Suchaufrufe pro Antwort — verändert das Latenzprofil und die Kosten pro Anfrage.
  • Die Wahl der zu zitierenden Quellen — beeinflusst die wahrgenommene Autorität der Antwort.
  • Der Synthese-Stil zur Kombination abgerufener Inhalte mit vortrainiertem Wissen — beeinflusst, wie die Antwort sich liest.
  • Die Schwelle, ab der das Modell überhaupt zu suchen entscheidet, statt aus dem Pre-Training zu antworten — beeinflusst die Aktualitätsabdeckung.

Ein Snapshot-Pin friert all das ein. Mit dem Alias zu rollen bedeutet zu akzeptieren, dass sich jede dieser Dimensionen an dem Tag verschieben kann, an dem OpenAI eine neue Revision ausliefert.

Die Migrationsfrage

Gleiche Form wie bei jedem datierten Snapshot-Pin.

  • Halten Sie den März-Pin in Produktion, während Sie evaluieren.
  • Fahren Sie eine repräsentative Menge an Queries erneut gegen den neueren Kandidaten-Snapshot.
  • Vergleichen Sie hinsichtlich Zitationsqualität, Sucheffizienz, Latenz und Synthese-Stil neben der reinen Antwortgenauigkeit.
  • Migrieren Sie, wenn der neuere Snapshot in den für Ihr Produkt relevanten Dimensionen nachweisbar gewinnt.

Das Argument, von einem stabilen Pin wegzumigrieren, lautet selten „der neue ist im Durchschnitt besser". Das Argument lautet „der neue ist besser bei den spezifischen Dingen, um die mein Produkt aufgebaut ist." Seien Sie ehrlich, in welchem Fall Sie sich tatsächlich befinden.

Wo es nicht passt

Schweres Reasoning über abgerufene Inhalte. Mini ist das kleine Modell. Die vollständige Search-Preview ist die richtige Eskalation, wenn die Synthese zum Engpass wird.

Domänenprivates Wissen. Das Such-Tool indexiert öffentliche Webinhalte. Interne Dokumente benötigen eine separate RAG-Pipeline.

Latenzkritische interaktive Nutzung. Suche fügt Round-Trips hinzu. Mini-Search ist schneller als die vollständige Search-Preview, aber immer noch langsamer als rein generierte Antworten.

Self-Hosted-Deployment. Das Such-Tool benötigt OpenAIs Backend-Infrastruktur. Die Übersicht unter /usecases/local behandelt, was verfügbar ist, wenn On-Prem-Anforderungen greifen.

Wann genau dieser Snapshot zu pinnen ist

Wählen Sie gpt-4o-mini-search-preview-2025-03-11, wenn:

  • Sie ein suchgestütztes Feature auf Basis des Mini-Search-Verhaltens vom März 2025 ausgeliefert haben und es stabil halten müssen.
  • Zitierverhalten und Quellenauswahl Teil dessen waren, was Ihre Evaluation im Frühjahr 2025 bestanden hat.
  • Ein A/B-Test oder Forschungsprotokoll eine feste Such-Modell-Referenz über Monate hinweg benötigt.

Überspringen Sie ihn, wenn:

  • Sie neu anfangen — pinnen Sie stattdessen den aktuellsten Snapshot.
  • Die Query-Rewriting- oder Latenzverbesserungen in späteren Snapshots in Ihrer Evaluation gewonnen haben.
  • Das eventuelle stabile Release der suchgestützten Linie verfügbar ist — das ist das richtige Ziel für neue Projekte.

Deployment-Hinweise

Standard-Chat-Completions-API. Das Such-Tool wird vom Modell automatisch anhand des Prompts aufgerufen; die API-Oberfläche ist gegenüber Nicht-Such-Modellen unverändert, ergänzt um strukturierte Zitations-Metadaten in der Response.

Die Token-Abrechnung teilt sich in Text-Eingabe, Text-Ausgabe und Gebühren pro Suchaufruf. Die Gebühr pro Suchaufruf ist über die bisherigen Mini-Search-Snapshots hinweg unverändert, allerdings kann die Rate, mit der das Modell Suchen auslöst, zwischen Snapshots variieren — und damit auch die effektiven Kosten pro Konversation.

Das Format der Zitations-Metadaten ist über diesen Snapshot und spätere 2025er-Snapshots hinweg stabil, was den UI-Rendering-Code über Migrationen hinweg wiederverwendbar hält.

Die pragmatische Lesart. Dies ist der Einfrierpunkt von Mini-Search vom März 2025. Pinnen Sie ihn, wenn Ihr Produkt dagegen validiert wurde. Migrieren Sie, wenn Ihre eigene Evaluation sagt, dass der neuere Snapshot in den relevanten Dimensionen der richtige Schritt ist. Führen Sie Query-Level-Vergleiche unter /live-test durch, bevor Sie sich festlegen.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

gpt-4o-mini-search-preview-2025-03-11 — illustration 2
Letzter automatisierter Test
14. Juni 2026 · 04:58 UTC · Benchmark
P50-Latenz
4627 ms
P95-Latenz
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·26. Mai 2026