Welche Latenz ist durch die Suchfunktion zu erwarten?

Da das Modell während der Generierung externe Suchabfragen durchführt, ist mit erhöhter Latenz gegenüber Standard-GPT-Modellen zu rechnen. Die genaue Verzögerung hängt von der Komplexität der Query und der Anzahl der Suchanfragen ab.

Kann ich steuern, wann das Modell auf Suchfunktionen zugreift?

Die Dokumentation von OpenAI zu den Steuerungsmöglichkeiten ist aktuell nicht öffentlich verfügbar. Typischerweise erlauben solche Modelle eine Konfiguration über Systemprompts oder API-Parameter, um das Such-Verhalten zu beeinflussen.

Ist das Modell für Offline-Anwendungen geeignet?

Nein, die Such-API-Funktionalität setzt eine aktive Internetverbindung voraus. Für Offline-Szenarien sollten Standard-GPT-Modelle ohne Search-Integration verwendet werden.

Wie unterscheidet sich dieses Modell von anderen GPT-5-Varianten?

Die 'search-api'-Bezeichnung kennzeichnet die spezialisierte Konfiguration für Echtzeit-Informationsabruf. Andere GPT-5-Varianten fokussieren auf unterschiedliche Anwendungsfälle ohne diese integrierte Suchfunktion.

Tier B — Produktion

Läuft in:USErstellt in:United States

OpenAI

gpt-5-search-api-2025-10-14

Tier B — Produktion

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

GPT-5-search-api-2025-10-14 ist ein Textgenerierungsmodell von OpenAI, das Suchfunktionen mit Sprachverarbeitung kombiniert. Dieses Modell repräsentiert OpenAIs Ansatz, Echtzeit-Informationsabruf mit generativer KI zu verbinden, wodurch es beim Erstellen von Antworten auf aktuelle Daten zugreifen und diese einbeziehen kann. Die Bezeichnung „search-api" weist auf die spezifische Konfiguration für Anwendungen hin, die aktuelle Informationen über den Trainingsdaten-Cutoff des Modells hinaus benötigen. Das Modell bietet standardmäßige Textgenerierungsfähigkeiten und nutzt gleichzeitig externe Suchfunktionalität, um faktische Genauigkeit und Aktualität zu verbessern. Diese Architektur eignet sich besonders für Anwendungen, bei denen aktuelle Informationen entscheidend sind, wie Rechercheunterstützung, Nachrichtenzusammenfassungen oder datengesteuerte Content-Erstellung. Die Integration von Suchfunktionen unterscheidet es von rein generativen Modellen durch die Ermöglichung dynamischer Informationsbeschaffung während der Inferenz. Innerhalb von OpenAIs Modellpalette steht diese Variante neben anderen GPT-5-Konfigurationen als spezialisiertes Werkzeug für suchgestützte Generierung. Das im Modellnamen angegebene Veröffentlichungsdatum (2025-10-14) folgt OpenAIs Konvention, Modelle mit Zeitstempel-Kennungen zu versionieren, damit Entwickler Iterationen und Updates nachverfolgen können. Während die genaue Kontextfenstergröße nicht offengelegt wird, folgt das Modell den in OpenAIs GPT-Serie etablierten Architekturprinzipien und verarbeitet Texteingaben sowie generiert kohärente Antworten basierend auf erlernten Mustern und abgerufenen Informationen. Dieses Modell dient Nutzern, die ein Gleichgewicht zwischen generativer Fähigkeit und Zugang zu aktuellen Informationsquellen benötigen.

GPT-5-search-api-2025-10-14 verbindet generative Sprachverarbeitung mit Echtzeit-Informationsabruf und adressiert damit eine der größten Schwächen reiner LLMs: veraltetes Wissen.
— Tokonomix Modellanalyse

Abschnitt 01

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

100

Schlussfolgern

Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — gpt-5-search-api-2025-10-14

$1.25 pro 1M Input-Tokens

$10.00 pro 1M Output-Tokens

≈ $0.0028 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$1.25

pro 1M Output-Tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 03

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Integrierte Echtzeit-SucheZugriff auf aktuelle InformationenVerbesserte faktische GenauigkeitDynamische Informationsbeschaffung während InferenzGeeignet für datengetriebene InhalteGPT-5 BasisarchitekturVersionierte Modell-ReleasesRecherche- und Zusammenfassungsaufgaben

Schwächen

Unbekannte KontextfenstergrößeKeine öffentlichen PreisinformationenTier-Klassifikation nicht spezifiziertSuch-API möglicherweise regionsabhängig

Abschnitt 04

Fähigkeiten

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 128000

Abschnitt 05

Häufig gestellte Fragen

Das Modell nutzt eine native Such-API-Integration, die während der Inferenz automatisch externe Informationen abruft. Im Gegensatz zu manuellen RAG-Implementierungen ist der Suchprozess direkt in die Modellarchitektur eingebettet, was konsistentere Ergebnisse und geringeren Implementierungsaufwand verspricht.

Für Anwendungen, die aktuelle Informationen benötigen, bietet dieses Modell eine durchdachte Architektur – allerdings fehlen derzeit konkrete Angaben zu Kosten und Leistungsgrenzen.
— Tokonomix Redaktion

Abschnitt 06

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-595/100 · 111 runs

105 correct2 partial4 wrong95% accuracy

● 2026-07-26

Quality drops 16 points as factual accuracy plummets, latency doubles

The gpt-5-search-api model shows concerning performance degradation in this benchmark window. Overall quality declined from 99.1 to 83.4, driven primarily by a severe drop in factual accuracy which scored just 35 out of 100. This represents a critical weakness for a search-oriented model where factual precision is paramount. Meanwhile, multilingual capabilities remain excellent at 100, matching the previous window, and both creative writing and reasoning tasks achieved perfect or near-perfect scores of 99-100. However, these strengths cannot fully offset the factual deficiencies. Latency has nearly doubled from 2.9 seconds to 5.5 seconds at the median, making the model significantly slower for real-time applications. The previous window tested coding capabilities which are absent from current metrics, making direct comparison incomplete. Users should be aware that while this model excels at creative tasks, multilingual processing, and reasoning challenges, its factual accuracy has become unreliable. Organizations requiring precise, fact-based responses should exercise caution or implement additional verification layers. The substantial latency increase further compounds concerns for latency-sensitive deployments.

Quality

83.4

Latency p50

5,509 ms

Test runs

✗ Quality dropped 16 points✗ Factual accuracy critically low✗ Latency nearly doubled✓ Multilingual performance remains perfect

Abschnitt 08

Vollständiges Modellprofil

GPT-5 Search API (2025-10-14-Snapshot): ein Pin, der nicht alles festnagelt

Dies ist der datierte Snapshot der ursprünglichen GPT-5 Search API, eingefroren beim Release vom 14. Oktober 2025. Das Pinnen eines suchbasierten Modells unterscheidet sich operativ grundlegend vom Pinnen eines reinen Generierungsmodells. Die Modellgewichte sind gepinnt. Das Retrieval-System ist es nicht. Was das Retrieval heute für dieselbe Anfrage zurückgibt, ist nicht das, was es vor einem Jahr zurückgegeben hat – unabhängig davon, welche Modellgewichte das Ergebnis synthetisieren.

Das Halbpin-Problem

Bei reinen Generierungsmodellen liefert das Pinnen eines datierten Snapshots Reproduzierbarkeit — dieselbe Eingabe, dieselbe Ausgabe, bis der Snapshot abgekündigt wird. Bei suchbasierten Modellen sieht die Gleichung anders aus. Die Modellgewichte sind eine Komponente des Systems; die Retrieval-Pipeline ist die andere, und sie bewegt sich kontinuierlich.

Das Retrieval-System befragt das Web. Das Web verändert sich. Das Quellen-Ranking verschiebt sich, während Seiten an Autorität gewinnen oder verlieren, während neue Inhalte erscheinen, während alte Inhalte entfernt werden. Seiten, die beim Launch dieses Snapshots autoritativ zitiert wurden, sind möglicherweise verschoben, aktualisiert oder durch SEO-optimierte Alternativen ersetzt worden. Der abgerufene Kontext, der dem Modell bei einer gegebenen Anfrage heute zugeführt wird, weist nur noch vage Ähnlichkeit mit dem auf, was bei derselben Anfrage vor einem Jahr abgerufen wurde.

Der praktische Effekt ist, dass das Pinnen dieses Snapshots Ihnen keine reproduzierbaren Ausgaben für dieselbe Anfrage über die Zeit liefert. Es liefert Ihnen reproduzierbares Syntheseverhalten bei gleichem abgerufenem Kontext. Wenn sich der abgerufene Kontext verschiebt, verschiebt sich auch die Ausgabe, obwohl die Modellgewichte fixiert sind.

Was dieser Pin tatsächlich bringt

Drei Dinge, enger als vollständige Reproduzierbarkeit, aber dennoch nützlich.

Erstens ist das Syntheseverhalten fixiert. Bei denselben abgerufenen Quellen produziert das Modell dieselbe Art der Integration, dieselben Zitationsmuster, denselben Ton, dieselbe Behandlung von Widersprüchen zwischen Quellen. Die Form der Ausgabe ist stabil, auch wenn der Inhalt variiert.

Zweitens ist das Verhalten des Modells im Hinblick auf den abgerufenen Kontext-Anteil des Kontextfensters fixiert. Das Modell behandelt Quellen heute auf dieselbe Weise wie beim Launch — dieselben Trust-Priors, dasselbe Reasoning über Widersprüche, dieselben Quellenzitationsmuster.

Drittens ist der Audit-Trail partiell, aber nützlich. Sie können identifizieren, welche Modellversion eine gegebene Anfrage verarbeitet hat. Die zum jeweiligen Zeitpunkt abgerufenen Quellen können separat geloggt werden. Zusammen rekonstruieren sie, was geschehen ist.

Was dieser Pin nicht bringt

Same-Query-Same-Answer-Reproduzierbarkeit. Das Web hat sich verändert; die Antworten werden sich verändern.

Stabiles Downstream-Verhalten bei zeitsensitiven Anfragen. Das Modell kann dieselben Quellen diese Woche anders synthetisieren als letzte Woche, weil sich die Quellen selbst aktualisiert haben, auch wenn Retrieval-System und Modellgewichte identisch sind.

Schutz vor Retrieval-seitiger Regression. Wenn die Retrieval-Pipeline beginnt, weniger zuverlässige Quellen für Ihre Anfrageverteilung hoch zu ranken, wird dieser Pin das nicht erkennen. Der Pin schützt das Modell-Ende; er lässt das Retrieval-Ende unabgedeckt.

Was dieser Snapshot erfasst

Den October-2025-Release der GPT-5 Search API: Launch-Modellgewichte, Launch-Syntheseverhalten, Launch-Handling von abgerufenem Kontext. Die Retrieval-System-Version beim Launch ist implizit in jeder Ausgabe enthalten, die Sie beim Launch gesehen haben, aber sie wird durch diesen Slug nicht gepinnt.

Unter der Haube

Architektonisch ist dies der GPT-5-Transformer-Decoder gepaart mit der OpenAI-Retrieval-and-Search-Infrastruktur zum Launch-Zeitpunkt dieses Snapshots. Die Modellkomponente ist fixiert. Die Retrieval-Komponente wird mit dem Floating-Slug geteilt und entwickelt sich weiter.

Die Tokenisierung verwendet das Standard-GPT-5-BPE-Vokabular. Das Kontextfenster umfasst sowohl den Prompt des Nutzers als auch den abgerufenen Inhalt, was bedeutet, dass abgerufene Quellen einen Teil des verfügbaren Budgets verbrauchen.

Der Trainings-Cutoff für die Modellkomponente liegt Mitte 2025. Der Retrieval-Cutoff ist rollierend — was auch immer das Web zeigt, wenn die Anfrage ausgeführt wird.

Wo es heute steht

Für aktuelle-Ereignisse-Anfragen macht der Snapshot weiterhin das, wofür Search API gebaut ist: die Antwort in abgerufenen Quellen zu verankern. Die Synthesequalität des Modells entspricht der Form vom Oktober 2025, die von neueren Search-API-Generationen bei schwierigen Synthesefällen übertroffen wurde.

Für zitationspflichtige Workflows produziert das Modell weiterhin Zitate neben Antworten im selben Format wie beim Launch. Die Downstream-Consumer, die diese Zitate parsen, mussten sich nicht an Formatänderungen anpassen.

Das Intelligence-Leaderboard verfolgt die komparative Position; Search-API-Angebote befinden sich in einer separaten Kategorie, weil das Workload-Profil sich von nicht-verankerter Generierung unterscheidet.

Wann dieser Snapshot zu pinnen ist

Die engen Fälle:

Sie haben Downstream-Tooling, das vom spezifischen Zitationsformat und Synthesestil dieses Snapshots abhängt, und das Format hat sich bei neueren Search-API-Generationen verschoben.

Sie befinden sich in einem regulierten Kontext, in dem die Modellversion, die Suchanfragen verarbeitet, audit-identifizierbar sein muss, und Sie haben separates Logging für die abgerufenen Quellen.

Sie haben Evaluierungs-Suites, die Synthesequalität über die Zeit vergleichen, und Sie wollen modellseitige Änderungen von retrieval-seitigen Änderungen isolieren.

Wann der Pin zu überspringen ist

Überspringen Sie ihn für Workloads, bei denen das Retrieval-seitige Drift das Modell-seitige Drift bei der Verursachung von Ausgabeänderungen dominiert. Wenn der Großteil der Variabilität, die Sie in der Produktion sehen, von sich ändernden Web-Quellen kommt statt von sich änderndem Modellverhalten, löst das Pinnen des Modells nicht das Problem, das Sie haben.

Überspringen Sie ihn für Workloads, bei denen Sie von neuerer Search-API-Synthesequalität profitieren würden und die Formatänderungskosten akzeptabel sind.

Überspringen Sie ihn, sobald OpenAI die Deprecation-Timeline veröffentlicht.

Operationelle Anmerkungen

Für Workloads, die wirklich reproduzierbare Ausgaben bei retrieval-basierten Anfragen benötigen, ist das Standardmuster, eine eigene RAG-Pipeline gegen die Basis-GPT-5-Linie zu bauen. Sie kontrollieren das Dokument-Corpus, die Indexierung, das Retrieval und Ranking. Das Pinnen der Modellgewichte liefert dann vollständige Reproduzierbarkeit, weil beide Hälften des Systems unter Ihrer Kontrolle sind.

Für Workloads, bei denen partielle Reproduzierbarkeit ausreicht — Syntheseverhalten fixiert, Retrieval darf driften — erfüllt dieser Snapshot seinen Zweck. Seien Sie nur ehrlich zu sich selbst und Ihren Stakeholdern darüber, welche Hälfte gepinnt ist und welche nicht.

Alternativen

Für vollständige Retrieval-and-Generation-Reproduzierbarkeit bauen Sie eine RAG-Pipeline gegen die Basis-GPT-5-Linie mit Ihrer eigenen Wissensbasis und pinnen sowohl den Modell-Snapshot als auch Ihren Dokumentenindex.

Für Workloads, die neuere Synthesequalität bei suchbasierter Generierung benötigen, migrieren Sie zum datierten Snapshot einer neueren Search-API-Generation.

Für Workloads, bei denen die zitationsbasierte Generierung wichtig ist, aber die OpenAI-Retrieval-Pipeline nicht tragend ist, existieren ähnliche Angebote von anderen Anbietern mit ihren eigenen Retrieval-Charakteristiken.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

26. Juli 2026 · 05:29 UTC · Benchmark

P50-Latenz

1551 ms

P95-Latenz

—

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Mai 2026