Tier B — Productie

Draait in:USGemaakt in:United States

$10.00

output · per 1M tokens (inkoopbasis)

Kosten

4,774 ms

Antwoordsnelheid

100 / 100

Intelligentie

Verdict — samenvattingLIVE

● LIVE

nu · 2026-07-26

GPT-5 shows significant quality decline with category instability

✗ Quality score dropped 8%✗ Factual accuracy critically low✗ Latency increased 19%✓ Multilingual capability at 100

The latest benchmark window reveals concerning performance degradation for GPT-5. The overall quality score dropped from 37.2 to 34.3, representing an 8% decline. More alarming is the categorical instability: coding capabilities have disappeared entirely from measurements, while reasoning shows a zero score. Factual accuracy has collapsed to just 2 out of 100, down from unmeasured in the previous window. Creative performance also declined from 45 to 35. The only bright spot is multilingual capability, which jumped from 0 to a perfect 100, suggesting either a focused improvement or measurement inconsistency between windows. Latency has also worsened, with p50 response times increasing 19% from 8765ms to 10430ms, making the model notably slower. The shifting category measurements across windows raise questions about result consistency. Users should exercise caution with factual queries and reasoning tasks, where the model currently shows critical weaknesses. The multilingual improvement may benefit international users, but overall trajectory suggests instability in the model's capabilities. These results warrant careful monitoring in subsequent benchmark windows to determine whether this represents temporary variance or a sustained decline in performance.

Quality

34.3

Latency p50

10,430 ms

Test runs

1 van 11

Beeld & uitlegLIVE

OpenAI

gpt-5-2025-08-07

Tier B — Productie

Tokonomix-redactie·Gecontroleerd door Mes Kalkan·Gepubliceerd 22 mei 2026·Laatst gecontroleerd 26 mei 2026

GPT-5-2025-08-07 is OpenAI's nieuwste generatie taalmodel, uitgebracht in augustus 2025. Dit model vertegenwoordigt een significante architecturale vooruitgang ten opzichte van de GPT-4-serie, met verbeterde redeneercapaciteiten, verhoogde feitelijke nauwkeurigheid en robuustere prestaties over diverse natuurlijke taalverwerkingstaken. Het is ontworpen voor algemene tekstgeneratie, inclusief complexe analyse, creatief schrijven, technische documentatie, codegeneratie en meertraps probleemoplossing. Het model beschikt over standaard tekstgeneratiecapaciteiten met een niet-openbaar gemaakte contextvenstergrootte. GPT-5 toont opmerkelijke verbeteringen in logische consistentie, verminderde hallucinatiepercentages en beter instructievolgen vergeleken met zijn voorgangers. Het is getraind op een recentere kennisafsnijdatum dan eerdere versies, hoewel OpenAI geen specifieke trainingsdata-samenstelling of parameteraantallen heeft bekendgemaakt. Het model toont bijzondere sterkte in het behouden van coherentie tijdens uitgebreide gesprekken en het hanteren van genuanceerde instructies die het interpreteren van impliciete gebruikersintenties vereisen. Binnen OpenAI's modellijn staat GPT-5-2025-08-07 in de hoogste categorie als het meest capabele algemeen beschikbare model. Het volgt de GPT-4-familie op, die varianten zoals GPT-4 Turbo en GPT-4o omvatte. Dit model is gepositioneerd als OpenAI's vlaggenschipproduct voor gebruikers die state-of-the-art taalbegrip en generatiecapaciteiten vereisen. De datumgestempelde versie-identificatie duidt dit specifieke snapshot aan van augustus 2025, volgens OpenAI's conventie van versioned releases voor consistentie en reproduceerbaarheid in productietoepassingen.

GPT-5-2025-08-07 markeert een nieuwe generatie in taalmodellen, met aanzienlijke verbeteringen in redeneervermogens en feitelijke nauwkeurigheid ten opzichte van de GPT-4-serie.
— Tokonomix model-analyse augustus 2025

Mogelijkheden

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingmax output tokens: 128000

GPT-5 (2025-08-07 snapshot): het vastgepinde origineel

Dit is de gedateerde snapshot van het oorspronkelijke GPT-5 basismodel, uitgebracht op 7 augustus 2025 en op dat moment bevroren. Terwijl de zwevende gpt-5 slug is blijven bewegen onder teams die ernaar verwezen, legt deze gedateerde versie één specifieke set gewichten vast, één specifiek gedragsprofiel, één reproduceerbaar artefact. Dat maakt het bruikbaar voor een smalle maar belangrijke set taken: vergelijkingsbaselines, gereguleerde workflows, en elk product dat over zes maanden naar hetzelfde model moet kunnen verwijzen en hetzelfde antwoord moet krijgen.

Waarom gedateerde snapshots bestaan

OpenAI levert elke generatie in twee varianten. De zwevende naam (gpt-5) volgt welke snapshot momenteel wordt aanbevolen. De gedateerde naam (gpt-5-2025-08-07) pint één specifieke versie van de gewichten vast. De zwevende slug profiteert van stille verbeteringen; de gedateerde slug profiteert van het feit dat hij je nooit verrast.

Voor evaluatievergelijkingen over tijd is de gedateerde slug de enige eerlijke keuze. Als je benchmarkrapport uit december zegt "GPT-5 scoorde X op onze testsuite," en iemand voert het in mei opnieuw uit tegen de zwevende slug, dan vergelijken ze niet hetzelfde model. De gedateerde snapshot lost dat op. Het gedrag op 7 augustus 2025 is het gedrag dat je krijgt wanneer je dit eindpunt aanroept, tot OpenAI het uiteindelijk opruimt.

Wat deze snapshot is

GPT-5 was het eerste model in de GPT-5 familie, uitgebracht als een multimodaal tekst-en-vision frontier-model. De 2025-08-07 snapshot weerspiegelt het lanceringgedrag: trainingsdata tot welke afkapgrens OpenAI ook gebruikte medio 2025, de oorspronkelijke veiligheidspassage, de oorspronkelijke vision-encoder kalibratie, het oorspronkelijke tool-use gedrag.

Opvolgende floating-slug updates hebben deze karakteristieken verschoven. Gedocumenteerde wijzigingen over de bredere 5.x lijn hebben verfijnde instructieopvolging op randgevallen, aangepast weigergedrag op bepaalde contentcategorieën, en incrementele verbeteringen aan vision OCR omvat. Geen van die wijzigingen raakt deze snapshot. Wat je in augustus 2025 kreeg is wat je vandaag krijgt.

Onder de motorkap

Het model is een transformer decoder die interleaved tekst- en beeldinvoer accepteert en alleen tekstuitvoer produceert. Parameteraantal, expert routing details, en exacte architecturale keuzes zijn niet openbaar. Tokenisatie gebruikt het GPT-5 BPE vocabulaire. Beeldinvoer wordt tile-gecodeerd tegen een vaste tokenprijs per tile, wat snel oploopt bij multi-page document workloads.

Training cutoff voor deze snapshot ligt medio 2025. Het model kent mainstream taalstandaarden en frameworkversies die actueel waren in die periode en zal vrolijk verzinnen over alles wat recenter is. Voor workflows die recente gebeurtenissen of nieuwe library API's betreffen, doet dit ertoe — pin de snapshot, accepteer dat kennis veroudert, en route current-events queries door retrieval of web search in plaats van te vertrouwen op de parametrische kennis van het model.

Waar het vandaag staat

Tegen het bredere frontier model landschap gemeten, zit de augustus 2025 snapshot van GPT-5 in de bovenste tier op algemene taken en de bovengemiddelde tier op vision-zwaar werk. De nieuwere 5.1, 5.2, en latere snapshots zijn erop voorbijgegaan op de meeste metrics. Het intelligence leaderboard volgt de vergelijkende rangschikking.

Voor een snapshot die in augustus 2025 is vastgepind is dit het verwachte patroon. Het punt is niet om in mei 2026 het absoluut beste beschikbare model te zijn; het punt is om in mei 2026 hetzelfde model te zijn als in augustus 2025, zodat vergelijkingen en audits geldig blijven.

Wanneer pinnen naar deze snapshot

Grijp naar gpt-5-2025-08-07 wanneer reproduceerbaarheid waardevoller is dan piekkwaliteit. De duidelijke use cases:

Evaluatievergelijkingen over tijd. Als je benchmarksuite tegen deze snapshot draaide toen hij verscheen, draai hem dan opnieuw tegen deze snapshot in plaats van de zwevende slug. Anders meet je modelevolutie in plaats van je eigen verandering.

Gereguleerde beslissingen waarbij audittrails het exacte model moeten identificeren dat een gegeven output produceerde. "We gebruikten gpt-5" is een ontoereikend antwoord wanneer een auditor vraagt welke versie. "We gebruikten gpt-5-2025-08-07" is toereikend.

Klantgerichte features met kwaliteits-SLA's die waren gekalibreerd tegen een specifiek modelgedrag. Als je prompts en few-shot voorbeelden waren afgestemd op deze snapshot, brengt verhuizen naar een nieuwere zonder opnieuw afstemmen het risico van subtiele regressies met zich mee.

Langlopende A/B experimenten waarbij de controle echt gefixeerd moet blijven voor de duur van de test.

Wanneer niet pinnen naar deze snapshot

Vermijd het voor ontwikkeling van nieuwe features. Gebruik in plaats daarvan de zwevende slug of de nieuwste gedateerde snapshot; je wilt het meest capabele model dat beschikbaar is terwijl je bouwt, niet het oudste dat nog werkt.

Vermijd het voor algemene chat- en content workflows waarbij de winsten in nieuwere snapshots reëel zijn en de kosten van gedragsdrift laag. De 5.1, 5.2, en latere snapshots zijn beter op dezelfde workloads. Pin alleen aan geschiedenis wanneer geschiedenis ertoe doet.

Vermijd het als je een prompt draait die afhankelijk is van kennis van gebeurtenissen na medio 2025. Het model weet het niet. Het zal gissen. De gissingen zullen soms correct klinken en soms volledig verkeerd zijn.

Operationele opmerkingen

OpenAI publiceert deprecation timelines voor gedateerde snapshots. Oudere snapshots worden uiteindelijk opgeruimd. Wanneer dat met deze gebeurt, zal je code die deze slug pint foutmeldingen beginnen te retourneren. Plan vooruit: abonneer je op de deprecation aankondigingen, en onderhoud een forward path naar welke snapshot je vervolgens zult pinnen.

Voor data extraction workflows waarbij vision capability zwaar weegt, is de augustus 2025 snapshot competent maar is hij overtroffen door latere vision-encoder verfijningen. Als het werk het toelaat, draai dezelfde documenten parallel door deze snapshot en een nieuwere voor een paar weken voordat je beslist of je de pin migreert.

Alternatieven

Voor workflows die dezelfde soort vastgepinde reproduceerbaarheid nodig hebben maar om een ander model geven, levert elke frontier provider nu gedateerde snapshots naast hun zwevende slugs. Het patroon is industriestandaard. Kies het model dat past bij je kwaliteits- en modaliteitsvereisten, pin dan zijn gedateerde versie in plaats van zijn zwevende.

Voor pure kostenoptimalisatie op routine workloads dekken de kleinere leden van de 5.x familie (de mini en nano tiers) het grootste deel van wat algemene chat daadwerkelijk nodig heeft tegen een fractie van de kosten. Pin die snapshots ook als reproduceerbaarheid daar voor je van belang is.

Laatste technische review: 2026-05-22 — Tokonomix.ai

Provider-vergelijkingLIVE

Provider-vergelijking

Vergelijk elke aanbieder van dit model — kostenbasis, kwaliteit, latency en uptime.

Azure OpenAI (EU - Sweden)EU

Invoerkosten✓ beste$1.25

Uitvoerkosten$10.00

KwaliteitNog niet getest

Latency (p50)Nog niet getest

UptimeNog niet getest

Kosten per 1M tokens (kostenbasis)

OpenAIVSDit aanbod

Invoerkosten$1.25

Uitvoerkosten$10.00

Kwaliteit✓ beste100.0

Latency (p50)✓ beste4,774 ms

UptimeNog niet getest

Kosten per 1M tokens (kostenbasis)

Consensus-intelligentie

MODEL-BREED

Consensus-signalen zijn model-breed — nog niet per provider gesplitst.

8.0

Agent-bruikbaarheid (1–10)

—

Precisie-score

Unieke bevindingen

Gevalideerde verzoeken

Community-stemmenLIVE

Community-stemmen

Wat echte bezoekers vinden — per provider.

Azure OpenAI (EU - Sweden)EU

Nog geen community-stemmen.

OpenAIVS

Nog geen community-stemmen.

Meer resultaten — per provider

Kwaliteit per categorie

Game-rubriek

Nog geen data.

Jury-oordeel

■ OK 38%■ Deels 0%■ Fout 62%

Games & arena

Nog geen data.

Snelheid & gezondheid

4,774 ms

Latency (p50)

—

Uptime

Kwaliteit per categorie

Game-rubriek

Nog geen data.

Jury-oordeel

■ OK 38%■ Deels 0%■ Fout 62%

Games & arena

Nog geen data.

Snelheid & gezondheid

4,774 ms

Latency (p50)

—

Uptime

Vraag & antwoord — bladerenLIVE

1 van 80

🧠 intelligentieOpenAImultilingual · 2026-07-26score: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

%20 indirim, 150 TL’nin %20’si olan 30 TL’yi düşmek demektir. 150 − 30 = 120 TL Ya da 150 × 0,8 = 120 TL.

Test-historie — alle providersLIVE

Kwaliteitsscore over tijdlaatste 34

Snelheid — p50-latentie over tijd

Een trend verschijnt zodra dit model op een paar verschillende dagen is getest.

📝Verdict — samenvattingLIVE

GPT-5 shows significant quality decline with category instability

🖼️Beeld & uitlegLIVE

gpt-5-2025-08-07

Mogelijkheden

Waarom gedateerde snapshots bestaan

Wat deze snapshot is

Onder de motorkap

Waar het vandaag staat

Wanneer pinnen naar deze snapshot

Wanneer niet pinnen naar deze snapshot

Operationele opmerkingen

Alternatieven

📊Provider-vergelijkingLIVE

🧠Consensus-intelligentie

👥Community-stemmenLIVE

🔬Meer resultaten — per provider

💬Vraag & antwoord — bladerenLIVE

🗂️Test-historie — alle providersLIVE

Verdict — samenvattingLIVE

Beeld & uitlegLIVE

Provider-vergelijkingLIVE

Consensus-intelligentie

Community-stemmenLIVE

Meer resultaten — per provider

Vraag & antwoord — bladerenLIVE

Test-historie — alle providersLIVE