Naar inhoud
Tier C — Specialist
Draait in:USGemaakt in:United States
OpenAI

gpt-4o-search-preview

Tier C — Specialist

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··

GPT-4o-search-preview is een taalmodel ontwikkeld door OpenAI dat webzoekmogelijkheden integreert met standaard tekstgeneratie. Dit model vertegenwoordigt een experimentele variant binnen de GPT-4o-familie, ontworpen om feitelijke nauwkeurigheid te verbeteren en actuelere informatie te bieden door tijdens inferentie toegang te krijgen tot real-time webdata. Het is bijzonder geschikt voor taken die actuele kennis vereisen, factchecking, of verwijzingen naar recente gebeurtenissen die buiten de afkapdatum van de trainingsdata van het model vallen. Het model behoudt de kernarchitectuur van GPT-4o terwijl het zoekfunctionaliteit integreert waarmee het informatie van het internet kan ophalen en synthetiseren bij het genereren van antwoorden. Deze mogelijkheid onderscheidt het van standaard GPT-4o, dat uitsluitend steunt op vooraf getrainde kennis. De contextvensterspecificaties zijn niet publiekelijk bekendgemaakt, hoewel wordt verwacht dat het aanzienlijke invoerlengtes ondersteunt vergelijkbaar met andere modellen in de GPT-4o-serie. Net als andere GPT-4o-varianten verwerkt het multimodale begrips- en generatietaken, hoewel de primaire verbetering ligt in zoekgestuurde tekstgeneratie. Binnen OpenAI's modelaanbod neemt gpt-4o-search-preview een gespecialiseerde positie in als preview-release bedoeld voor evaluatie en feedback. Het vult het standaard GPT-4o-aanbod aan door use cases aan te pakken waar informatieversheid cruciaal is, zoals onderzoeksondersteuning, nieuwssamenvatting en vragen over actuele gebeurtenissen. Als preview-model stelt het ontwikkelaars en onderzoekers in staat om het potentieel van zoekgeïntegreerde taalmodellen te verkennen vóór bredere uitrol.

gpt-4o-search-preview combineert taalmodelkracht met realtime webzoekfuncties voor actuele antwoorden.

Tokonomix benchmark-samenvatting
Sectie 01

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

100
Code generatie
97
Meertaligheid
100
Redeneren
Sectie 02

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — gpt-4o-search-preview
$2.50 per 1M input-tokens
$10.00 per 1M output-tokens
≈ $0.0035 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$2.50
per 1M output-tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sectie 03

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Realtime webzoekopdrachtenActuele informatie beschikbaarBronvermeldingen bij antwoordenCombinatie van kennis en zoekdataSnelle zoek- en antwoordcyclusBrede webdekking bij queries

Zwakke punten

Meerkosten voor zoekfunctionaliteitIets hogere latentie door zoekopdrachtBeperkte toegang tot afgesloten bronnen
Sectie 04

Mogelijkheden

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 16384
Sectie 05

Veelgestelde vragen

gpt-4o-search-preview combineert taalmodelcapaciteiten met realtime webzoekopdrachten, waardoor antwoorden actuele informatie bevatten.

Ideaal wanneer actuele informatie en bronvermelding essentieel zijn voor de toepassing.

Tokonomix benchmark-samenvatting
Sectie 06

Beschikbaarheid

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 07

Tokonomix benchmark-oordelen

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-594/100 · 75 runs
68 correct6 partial1 wrong91% accuracy
2026-06-14

Quality rises to 97.3 with major capability expansion and latency reduction

GPT-4o Search Preview demonstrates measurable improvements across core metrics while adding significant new capabilities. Quality increased from 96.7 to 97.3, continuing an upward trend in performance consistency. Latency improved substantially, dropping from 4.93 seconds to 3.76 seconds, representing a 24% reduction that brings median response time well under 4 seconds. This makes the model considerably more responsive for interactive applications. The most notable development is the addition of seven new capabilities: tools, vision, JSON mode, PDF input, JSON schema, parallel tools, and prompt caching. These additions transform the model from a text-only interface into a multimodal system with structured output support and external tool integration. Vision and PDF input enable document and image analysis workflows, while the various JSON capabilities provide developers with reliable structured data extraction. Prompt caching should reduce costs for repeated operations. The capability expansion positions this model as a more versatile option for production applications requiring multimodal understanding, structured outputs, or tool integration. The simultaneous improvements in both quality and speed suggest successful optimization work alongside feature additions.

Quality

Latency p50

Test runs

0

Quality improved to 97.3 Latency reduced 24% to 3.76s Seven new capabilities added Vision and PDF support enabled
Sectie 08

Volledig modelprofiel

gpt-4o-search-preview — illustration 1
gpt-4o-search-preview: full-tier zoekversterkte chat

gpt-4o-search-preview is OpenAI's full-tier zoekversterkte chatmodel. Dezelfde retrieval-tool-architectuur als gpt-4o-mini-search-preview, gebouwd op de grotere GPT-4o-redeneerkern. Webcontent wordt live opgehaald als onderdeel van het antwoord, citaten worden inline geretourneerd en het model beslist op basis van de prompt wanneer er moet worden gezocht.

Dit is de zoekgefundeerde optie wanneer synthesekwaliteit over opgehaalde content meer telt dan de economie per verzoek die teams naar mini-search drijft.

Wat full-tier zoeken je oplevert

Het verschil tussen mini-search en full-search ligt niet in de retrieval. Beide roepen dezelfde zoek-backend aan, beide verwerken dezelfde webcontent, beide retourneren hetzelfde citatieformaat. Het verschil zit in wat het model met de opgehaalde content doet.

Waar full-tier zoeken uitblinkt:

  • Synthesekwaliteit bij lange technische bronnen. Het model kan een meerpagina-artikel lezen en een heldere samenvatting produceren die de redenering van de bron integreert in plaats van passages te citeren.
  • Redeneren over meerdere bronnen. Wanneer het zoeken tegenstrijdige informatie uit verschillende bronnen oplevert, is het full-tier-model betrouwbaarder in het afwegen ervan en het produceren van een samenhangend antwoord dat het conflict erkent.
  • Zoekstrategie. Het model beslist wanneer er moet worden gezocht, hoe de zoekopdracht moet worden geformuleerd en of er vervolgzoekopdrachten moeten worden uitgevoerd op basis van wat de eerste zoekopdracht heeft opgeleverd. Full-tier-oordeel is betrouwbaarder in randgevallen.
  • Herstel van zwakke zoekresultaten. Wanneer de eerste zoekopdracht zwakke bronnen oplevert, is full-tier eerder geneigd de zoekopdracht te herformuleren dan te synthetiseren vanuit ontoereikende input.

Voor workloads waarbij de gezochte content de substantie van het antwoord vormt in plaats van een actualiteitscheck bovenop pre-training-kennis, is de full tier de juiste keuze.

Waar het goed past

Workloads die hiervoor geschikt zijn.

Onderzoeksgerichte Q&A waarbij gebruikers inhoudelijke antwoorden verwachten die zijn gefundeerd in actuele bronnen in plaats van snelle opzoekingen. Interne kennistools die publieke webzoekopdrachten mengen met private RAG en zorgvuldige synthese over beide nodig hebben. Domeinexpert-assistenten in vakgebieden waar actuele publieke informatie van belang is — beleid, regelgeving, marktbewegingen, monitoring van het technologielandschap.

Langere synthesetaken waarbij het model meerdere opgehaalde bronnen moet verwerken en een coherente respons van meerdere paragrafen moet produceren. De full tier houdt kwaliteit vast gedurende de synthese op manieren die de mini-variant niet doen.

Lagere-volume, hogere-waarde queries waarbij de kosten per verzoek niet de dominante beperkende factor zijn en antwoordkwaliteit het onderscheidende element is.

Waar het tekortschiet

Zware onderzoeksworkloads. Voor langvormige synthese over veel bronnen met autonoom vervolgonderzoek zijn de research-line-modellen van OpenAI en concurrerende aanbieders speciaal gebouwd en het vergelijken waard — zie /benchmarks/methodology voor het veldoverzicht.

Domeinspecifieke private kennis. De zoektool indexeert het publieke web. Private documenten vereisen je eigen RAG-pipeline.

Hoogvolume Q&A op consumentenschaal. Mini-search is de juiste kostentier voor die workload, waarbij de afweging in synthesekwaliteit wordt geaccepteerd.

Latentiekritisch interactief gebruik. Zoeken voegt round-trips toe. Zelfs full-tier zoekversterkte antwoorden zijn langzamer dan puur gegenereerde antwoorden. Voor interfaces waar typesnelheid belangrijk is, moet je de latentiekosten afwegen tegen het actualiteitsvoordeel.

Productiegerichte contractstabiliteit. Preview-getagd. Pin de gedateerde snapshot voor gedragsvoorspelbaarheid.

Wanneer het te kiezen

Kies gpt-4o-search-preview wanneer:

  • Je zoekgefundeerde antwoorden nodig hebt en synthesekwaliteit over opgehaalde content het onderscheidende element voor je product is.
  • De querymix is van gemiddeld volume, hogere waarde, waarbij kosten per verzoek niet de dominante beperkende factor zijn.
  • Citatiegedrag en bronselectiekwaliteit belangrijk zijn als zichtbare kenmerken van het product.

Sla het over wanneer:

  • Hoogvolume, lagere-marge Q&A de workload is — mini-search is de juiste kostentier.
  • Langvormig autonoom onderzoek de taak is — escaleer naar een research-line-model.
  • De kennis die je nodig hebt privaat is in plaats van publiek-web — bouw een domeinspecifieke RAG-pipeline.
  • De deployment on-prem-operatie vereist — zie /usecases/local.

Alternatieven die het vergelijken waard zijn

Mini-search wanneer kosten per query meer uitmaken dan synthesekwaliteit. De research-line-modellen wanneer de taak overgaat van "beantwoorden met citaties" naar "produceer een onderzocht rapport." Standaard niet-zoek-chatmodellen wanneer actualiteit niet echt vereist is. Het bredere retrieval-model-overzicht op /usecases/content behandelt content-generatiewerklasten waarbij zoekfundering helpt.

Deployment-opmerkingen

Standaard Chat Completions API. De zoektool wordt automatisch aangeroepen op basis van de prompt — er is geen client-side tooldefinitie die in het verzoek moet worden doorgegeven. Citatiemetadata wordt geretourneerd in een gestructureerd veld naast de tekstoutput van het model.

Token-facturering splitst tekst in, tekst uit en kosten per zoekaanroep. De kosten per zoekaanroep zijn het betekenisvolle nieuwe regelitem versus standaard chatmodellen. Full-tier-zoekmodellen activeren zoekopdrachten gemiddeld doordachter dan mini-search, wat kan vertalen naar minder zoekaanroepen per antwoord op equivalente prompts — maar de per-token teksttarieven zijn hoger, dus de totale economie per antwoord hangt af van de querymix.

De pragmatische lezing. Full-tier zoeken is het juiste model wanneer synthese over opgehaalde content het product drijft, en het verkeerde model wanneer hoogvolume-economie of autonome-onderzoeksdiepte de echte vereiste is. Test het tegen je echte querymix op /live-test.

Laatste technische review: 2026-05-22 — Tokonomix.ai

gpt-4o-search-preview — illustration 2
Laatste automatische test
14 jun 2026 · 05:00 UTC · Benchmark
P50 latency
2930 ms
P95 latency
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·26 mei 2026