Worden alle bronnen vermeld?

Ja, het model citeert doorgaans de webpagina's die zijn gebruikt voor het samenstellen van het antwoord.

Is het model geschikt voor feitenchecking?

Het model kan helpen bij feitenchecking via realtime zoekresultaten, maar kritische verificatie blijft de verantwoordelijkheid van de gebruiker.

Hoe actueel zijn de zoekresultaten?

Zoekresultaten zijn in principe actueel op het moment van de query, afhankelijk van de indexatiesnelheid van de gebruikte zoekmachine.

Tier C — Specialist

Draait in:USGemaakt in:United States

OpenAI

gpt-4o-search-preview

Tier C — Specialist

Tokonomix-redactie·Gecontroleerd door Mes Kalkan·Gepubliceerd 22 mei 2026·Laatst gecontroleerd 26 mei 2026

GPT-4o-search-preview is een taalmodel ontwikkeld door OpenAI dat webzoekmogelijkheden integreert met standaard tekstgeneratie. Dit model vertegenwoordigt een experimentele variant binnen de GPT-4o-familie, ontworpen om feitelijke nauwkeurigheid te verbeteren en actuelere informatie te bieden door tijdens inferentie toegang te krijgen tot real-time webdata. Het is bijzonder geschikt voor taken die actuele kennis vereisen, factchecking, of verwijzingen naar recente gebeurtenissen die buiten de afkapdatum van de trainingsdata van het model vallen. Het model behoudt de kernarchitectuur van GPT-4o terwijl het zoekfunctionaliteit integreert waarmee het informatie van het internet kan ophalen en synthetiseren bij het genereren van antwoorden. Deze mogelijkheid onderscheidt het van standaard GPT-4o, dat uitsluitend steunt op vooraf getrainde kennis. De contextvensterspecificaties zijn niet publiekelijk bekendgemaakt, hoewel wordt verwacht dat het aanzienlijke invoerlengtes ondersteunt vergelijkbaar met andere modellen in de GPT-4o-serie. Net als andere GPT-4o-varianten verwerkt het multimodale begrips- en generatietaken, hoewel de primaire verbetering ligt in zoekgestuurde tekstgeneratie. Binnen OpenAI's modelaanbod neemt gpt-4o-search-preview een gespecialiseerde positie in als preview-release bedoeld voor evaluatie en feedback. Het vult het standaard GPT-4o-aanbod aan door use cases aan te pakken waar informatieversheid cruciaal is, zoals onderzoeksondersteuning, nieuwssamenvatting en vragen over actuele gebeurtenissen. Als preview-model stelt het ontwikkelaars en onderzoekers in staat om het potentieel van zoekgeïntegreerde taalmodellen te verkennen vóór bredere uitrol.

gpt-4o-search-preview combineert taalmodelkracht met realtime webzoekfuncties voor actuele antwoorden.
— Tokonomix benchmark-samenvatting

Sectie 01

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

Creatief

Feitelijk

100

Meertaligheid

100

Redeneren

Sectie 02

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰

API-tarieven — gpt-4o-search-preview

$2.50 per 1M input-tokens

$10.00 per 1M output-tokens

≈ $0.0035 per typisch gesprek (800 tokens)

Input vs output prijs (per 1M tokens)

per 1M input-tokens$2.50

per 1M output-tokens$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sectie 03

Sterke & zwakke punten

Gebaseerd op benchmark-resultaten en geaggregeerde community-feedback over echte use-cases.

Sterke punten

Realtime webzoekopdrachtenActuele informatie beschikbaarBronvermeldingen bij antwoordenCombinatie van kennis en zoekdataSnelle zoek- en antwoordcyclusBrede webdekking bij queries

Zwakke punten

Meerkosten voor zoekfunctionaliteitIets hogere latentie door zoekopdrachtBeperkte toegang tot afgesloten bronnen

Sectie 04

Mogelijkheden

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 16384

Sectie 05

Veelgestelde vragen

gpt-4o-search-preview combineert taalmodelcapaciteiten met realtime webzoekopdrachten, waardoor antwoorden actuele informatie bevatten.

Ideaal wanneer actuele informatie en bronvermelding essentieel zijn voor de toepassing.
— Tokonomix benchmark-samenvatting

Sectie 06

Beschikbaarheid

Nog geen meetdata

Er zijn nog niet genoeg API-aanroepen geregistreerd om beschikbaarheidsstatistieken voor dit model te tonen. Data verschijnt zodra het model live verkeer ontvangt.

Sectie 07

Tokonomix benchmark-oordelen

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-594/100 · 110 runs

97 correct11 partial2 wrong88% accuracy

● 2026-07-26

Quality decline with factual performance drop, latency improvement

GPT-4o-search-preview shows a notable quality regression in this benchmark window, dropping 12.4 points to an overall score of 86.5. The decline is primarily driven by a significant factual performance issue, scoring only 52 in that category compared to strong performance elsewhere. Creative, multilingual, and reasoning capabilities remain excellent at 94, 100, and 100 respectively, indicating the model maintains its strengths in these areas. The previous window's coding evaluation was not repeated in current testing, making direct comparison unavailable for that dimension. Latency improved by 18 percent, with the median response time decreasing from 3409ms to 2805ms. This represents a meaningful speed gain that users should notice in practice. The model continues to excel at multilingual tasks with perfect scores across both windows, suggesting robust language handling remains a core strength. The sharp factual performance drop is concerning and represents the most significant change in this evaluation period. Users relying on factual accuracy should exercise additional caution and verification. The model appears well-suited for creative and reasoning tasks but may require additional scrutiny for fact-based applications until this performance issue is addressed.

Quality

86.5

Latency p50

2,805 ms

Test runs

✗ Quality dropped 12.4 points✗ Factual score only 52✓ Latency improved 18%✓ Reasoning remains perfect

Sectie 08

Volledig modelprofiel

gpt-4o-search-preview: full-tier zoekversterkte chat

gpt-4o-search-preview is OpenAI's full-tier zoekversterkte chatmodel. Dezelfde retrieval-tool-architectuur als gpt-4o-mini-search-preview, gebouwd op de grotere GPT-4o-redeneerkern. Webcontent wordt live opgehaald als onderdeel van het antwoord, citaten worden inline geretourneerd en het model beslist op basis van de prompt wanneer er moet worden gezocht.

Dit is de zoekgefundeerde optie wanneer synthesekwaliteit over opgehaalde content meer telt dan de economie per verzoek die teams naar mini-search drijft.

Wat full-tier zoeken je oplevert

Het verschil tussen mini-search en full-search ligt niet in de retrieval. Beide roepen dezelfde zoek-backend aan, beide verwerken dezelfde webcontent, beide retourneren hetzelfde citatieformaat. Het verschil zit in wat het model met de opgehaalde content doet.

Waar full-tier zoeken uitblinkt:

Synthesekwaliteit bij lange technische bronnen. Het model kan een meerpagina-artikel lezen en een heldere samenvatting produceren die de redenering van de bron integreert in plaats van passages te citeren.
Redeneren over meerdere bronnen. Wanneer het zoeken tegenstrijdige informatie uit verschillende bronnen oplevert, is het full-tier-model betrouwbaarder in het afwegen ervan en het produceren van een samenhangend antwoord dat het conflict erkent.
Zoekstrategie. Het model beslist wanneer er moet worden gezocht, hoe de zoekopdracht moet worden geformuleerd en of er vervolgzoekopdrachten moeten worden uitgevoerd op basis van wat de eerste zoekopdracht heeft opgeleverd. Full-tier-oordeel is betrouwbaarder in randgevallen.
Herstel van zwakke zoekresultaten. Wanneer de eerste zoekopdracht zwakke bronnen oplevert, is full-tier eerder geneigd de zoekopdracht te herformuleren dan te synthetiseren vanuit ontoereikende input.

Voor workloads waarbij de gezochte content de substantie van het antwoord vormt in plaats van een actualiteitscheck bovenop pre-training-kennis, is de full tier de juiste keuze.

Waar het goed past

Workloads die hiervoor geschikt zijn.

Onderzoeksgerichte Q&A waarbij gebruikers inhoudelijke antwoorden verwachten die zijn gefundeerd in actuele bronnen in plaats van snelle opzoekingen. Interne kennistools die publieke webzoekopdrachten mengen met private RAG en zorgvuldige synthese over beide nodig hebben. Domeinexpert-assistenten in vakgebieden waar actuele publieke informatie van belang is — beleid, regelgeving, marktbewegingen, monitoring van het technologielandschap.

Langere synthesetaken waarbij het model meerdere opgehaalde bronnen moet verwerken en een coherente respons van meerdere paragrafen moet produceren. De full tier houdt kwaliteit vast gedurende de synthese op manieren die de mini-variant niet doen.

Lagere-volume, hogere-waarde queries waarbij de kosten per verzoek niet de dominante beperkende factor zijn en antwoordkwaliteit het onderscheidende element is.

Waar het tekortschiet

Zware onderzoeksworkloads. Voor langvormige synthese over veel bronnen met autonoom vervolgonderzoek zijn de research-line-modellen van OpenAI en concurrerende aanbieders speciaal gebouwd en het vergelijken waard — zie /benchmarks/methodology voor het veldoverzicht.

Domeinspecifieke private kennis. De zoektool indexeert het publieke web. Private documenten vereisen je eigen RAG-pipeline.

Hoogvolume Q&A op consumentenschaal. Mini-search is de juiste kostentier voor die workload, waarbij de afweging in synthesekwaliteit wordt geaccepteerd.

Latentiekritisch interactief gebruik. Zoeken voegt round-trips toe. Zelfs full-tier zoekversterkte antwoorden zijn langzamer dan puur gegenereerde antwoorden. Voor interfaces waar typesnelheid belangrijk is, moet je de latentiekosten afwegen tegen het actualiteitsvoordeel.

Productiegerichte contractstabiliteit. Preview-getagd. Pin de gedateerde snapshot voor gedragsvoorspelbaarheid.

Wanneer het te kiezen

Kies gpt-4o-search-preview wanneer:

Je zoekgefundeerde antwoorden nodig hebt en synthesekwaliteit over opgehaalde content het onderscheidende element voor je product is.
De querymix is van gemiddeld volume, hogere waarde, waarbij kosten per verzoek niet de dominante beperkende factor zijn.
Citatiegedrag en bronselectiekwaliteit belangrijk zijn als zichtbare kenmerken van het product.

Sla het over wanneer:

Hoogvolume, lagere-marge Q&A de workload is — mini-search is de juiste kostentier.
Langvormig autonoom onderzoek de taak is — escaleer naar een research-line-model.
De kennis die je nodig hebt privaat is in plaats van publiek-web — bouw een domeinspecifieke RAG-pipeline.
De deployment on-prem-operatie vereist — zie /usecases/local.

Alternatieven die het vergelijken waard zijn

Mini-search wanneer kosten per query meer uitmaken dan synthesekwaliteit. De research-line-modellen wanneer de taak overgaat van "beantwoorden met citaties" naar "produceer een onderzocht rapport." Standaard niet-zoek-chatmodellen wanneer actualiteit niet echt vereist is. Het bredere retrieval-model-overzicht op /usecases/content behandelt content-generatiewerklasten waarbij zoekfundering helpt.

Deployment-opmerkingen

Standaard Chat Completions API. De zoektool wordt automatisch aangeroepen op basis van de prompt — er is geen client-side tooldefinitie die in het verzoek moet worden doorgegeven. Citatiemetadata wordt geretourneerd in een gestructureerd veld naast de tekstoutput van het model.

Token-facturering splitst tekst in, tekst uit en kosten per zoekaanroep. De kosten per zoekaanroep zijn het betekenisvolle nieuwe regelitem versus standaard chatmodellen. Full-tier-zoekmodellen activeren zoekopdrachten gemiddeld doordachter dan mini-search, wat kan vertalen naar minder zoekaanroepen per antwoord op equivalente prompts — maar de per-token teksttarieven zijn hoger, dus de totale economie per antwoord hangt af van de querymix.

De pragmatische lezing. Full-tier zoeken is het juiste model wanneer synthese over opgehaalde content het product drijft, en het verkeerde model wanneer hoogvolume-economie of autonome-onderzoeksdiepte de echte vereiste is. Test het tegen je echte querymix op /live-test.

Laatste technische review: 2026-05-22 — Tokonomix.ai

Laatste automatische test

26 jul 2026 · 05:33 UTC · Benchmark

P50 latency

2032 ms

P95 latency

—

Fouten

0 / 6 runs

Laatst beoordeeld door Tokonomix-team·26 mei 2026