
Dit is de gedateerde snapshot van de oorspronkelijke GPT-5 Search API, bevroren op de release van 14 oktober 2025. Het vastpinnen van een search-grounded model is operationeel verschillend van het vastpinnen van een generatiemodel. De modelgewichten zijn vastgepind. Het retrievalsysteem niet. Wat de retrieval vandaag teruggeeft voor dezelfde query is niet wat het een jaar geleden teruggaf, ongeacht welke modelgewichten het resultaat synthetiseren.
Het halve-pin-probleem
Voor pure generatiemodellen geeft het vastpinnen van een gedateerde snapshot reproduceerbaarheid — dezelfde input, dezelfde output, tot de snapshot wordt uitgefaseerd. Voor search-grounded modellen is de vergelijking anders. De modelgewichten zijn één component van het systeem; de retrievalpipeline is de andere, en die is continu in beweging.
Het retrievalsysteem bevraagt het web. Het web verandert. Bronrangschikking verschuift naarmate pagina's autoriteit winnen of verliezen, naarmate nieuwe content verschijnt, naarmate oude content wordt verwijderd. Pagina's die bij de lancering van deze snapshot gezaghebbend werden geciteerd, kunnen zijn verplaatst, bijgewerkt of vervangen door SEO-geoptimaliseerde alternatieven. De opgehaalde context die bij een bepaalde query vandaag aan het model wordt gevoerd, vertoont slechts een oppervlakkige gelijkenis met wat een jaar geleden bij dezelfde query werd opgehaald.
Het praktische effect is dat het vastpinnen van deze snapshot je geen reproduceerbare outputs geeft voor dezelfde query over tijd. Het geeft je reproduceerbaar synthesegedrag gegeven dezelfde opgehaalde context. Als de opgehaalde context verschuift, verschuift de output ook, ook al zijn de modelgewichten vast.
Wat deze pin je daadwerkelijk oplevert
Drie zaken, smaller dan volledige reproduceerbaarheid maar nog steeds nuttig.
Ten eerste is het synthesegedrag vast. Gegeven dezelfde opgehaalde bronnen produceert het model hetzelfde soort integratie, dezelfde citatiepatronen, dezelfde toon, dezelfde omgang met tegenstrijdigheden tussen bronnen. De vorm van de output is stabiel, zelfs wanneer de inhoud varieert.
Ten tweede is het gedrag van het model op het opgehaalde-context-gedeelte van het contextvenster vast. Het model behandelt bronnen vandaag op dezelfde manier als bij de lancering — dezelfde vertrouwenspriors, dezelfde redenering over tegenstrijdigheden, dezelfde bron-citatiepatronen.
Ten derde is het auditspoor gedeeltelijk maar nuttig. Je kunt identificeren welke modelversie een bepaalde query heeft verwerkt. De opgehaalde bronnen op dat moment kunnen afzonderlijk worden gelogd. Samen reconstrueren ze wat er is gebeurd.
Wat deze pin je niet oplevert
Reproduceerbaarheid van dezelfde-query-hetzelfde-antwoord. Het web is veranderd; de antwoorden zullen veranderen.
Stabiel downstream-gedrag bij tijdgevoelige queries. Het model kan dezelfde bronnen deze week anders synthetiseren dan vorige week omdat de bronnen zelf zijn bijgewerkt, ook al zijn het retrievalsysteem en de modelgewichten identiek.
Bescherming tegen regressie aan de retrievalkant. Als de retrievalpipeline minder betrouwbare bronnen hoog gaat rangschikken voor jouw querydistributie, zal deze pin dat niet oppikken. De pin beschermt de modelkant; hij laat de retrievalkant onbeschermd.
Wat deze snapshot vastlegt
De oktober 2025-release van GPT-5 Search API: lanceringsmodelgewichten, lanceringssynthsesegedrag, lanceringsomgang met opgehaalde context. De retrievalsysteemversie bij lancering is impliciet aanwezig in elke output die je bij de lancering zag, maar wordt niet vastgepind door deze slug.
Onder de motorkap
Architecturaal is dit de GPT-5 transformer-decoder gekoppeld aan de OpenAI retrieval-and-search-infrastructuur bij de lancering van deze snapshot. De modelcomponent is vast. De retrievalcomponent wordt gedeeld met de zwevende slug en blijft evolueren.
Tokenization gebruikt het standaard GPT-5 BPE-vocabulaire. Het contextvenster omvat zowel de prompt van de gebruiker als de opgehaalde content, wat betekent dat opgehaalde bronnen een deel van het beschikbare budget consumeren.
Training cutoff voor de modelcomponent valt in medio 2025. De retrieval cutoff is rollend — wat het web laat zien wanneer de query wordt uitgevoerd.
Waar het vandaag staat
Voor actuele-gebeurtenissen-queries blijft de snapshot doen waarvoor Search API is gebouwd: het antwoord gronden in opgehaalde bronnen. De synthesekwaliteit van het model is de oktober 2025-vorm, die is overtroffen door nieuwere Search API-generaties bij moeilijke synthesecases.
Voor workflows die citaties vereisen, produceert het model nog steeds citaties naast antwoorden in hetzelfde formaat als bij de lancering. De downstream-consumers die deze citaties parsen, hebben zich niet hoeven aan te passen aan formaatwijzigingen.
Het intelligence leaderboard volgt de vergelijkende positie; Search API-aanbiedingen bevinden zich in een aparte categorie omdat het workloadprofiel verschilt van niet-gegronde generatie.
Wanneer deze snapshot vast te pinnen
De beperkte gevallen:
Je hebt downstream-tooling die afhankelijk is van het specifieke citatieformaat en synthesestijl van deze snapshot, en het formaat is verschoven bij nieuwere Search API-generaties.
Je bevindt je in een gereguleerde context waar de modelversie die zoekquery's verwerkt audit-identificeerbaar moet zijn, en je hebt afzonderlijke logging voor de opgehaalde bronnen.
Je hebt evaluatiesuites die synthesekwaliteit over tijd vergelijken, en je wilt modelkantveranderingen isoleren van retrievalkantveranderingen.
Wanneer de pin over te slaan
Sla hem over voor workloads waar de retrieval-side drift de model-side drift domineert in het veroorzaken van outputveranderingen. Als het grootste deel van de variabiliteit die je in productie ziet komt van veranderende webbronnen in plaats van veranderend modelgedrag, lost het vastpinnen van het model niet het probleem op dat je hebt.
Sla hem over voor workloads waar je zou profiteren van nieuwere Search API-synthesekwaliteit en de kosten van formaatverandering acceptabel zijn.
Sla hem over zodra OpenAI de deprecatietijdlijn publiceert.
Operationele opmerkingen
Voor workloads die echt reproduceerbare outputs nodig hebben bij retrieval-gegronde queries, is het standaardpatroon om je eigen RAG-pipeline te bouwen tegen de basis GPT-5-lijn. Je controleert het documentcorpus, de indexering, de retrieval en ranking. Het vastpinnen van de modelgewichten geeft dan volledige reproduceerbaarheid omdat beide helften van het systeem onder jouw controle staan.
Voor workloads waar gedeeltelijke reproduceerbaarheid voldoende is — synthesegedrag vast, retrieval mag driften — dient deze snapshot zijn doel. Wees alleen eerlijk tegen jezelf en je stakeholders over welke helft is vastgepind en welke niet.
Alternatieven
Voor volledige retrieval-and-generation reproduceerbaarheid bouw je een RAG-pipeline tegen de basis GPT-5-lijn met je eigen kennisbank en pin je zowel de modelsnapshot als je documentindex vast.
Voor workloads die nieuwere synthesekwaliteit nodig hebben bij search-grounded generatie, migreer je naar de gedateerde snapshot van een nieuwere Search API-generatie.
Voor workloads waar de citatie-gegronde generatie ertoe doet maar de OpenAI-retrievalpipeline niet draagkrachtig is, bestaan vergelijkbare aanbiedingen van andere providers met hun eigen retrievalkenmerken.
Laatste technische review: 2026-05-22 — Tokonomix.ai

