Naar inhoud
Draait in:FranceGemaakt in:France
OVH AI Endpoints (GRA)

Mistral-Small-3.2-24B-Instruct-2506

Tokonomix-redactie·Gecontroleerd door Mes Kalkan··
Sectie 01

Snelheidsanalyse

Latency gemeten over alle benchmark-runs. P50 (mediaan) en P95 (95e percentiel) geven een realistisch beeld van de responssnelheid onder normale en piekbelasting.

P50 latency (mediaan)P95 latency73 runs
642561505775541005005-2806-15ms
Sectie 02

Kwaliteitsscores

Evaluatieresultaten van judge-model beoordelingen over diverse taakcategorieën. Scores weerspiegelen coherentie, accuratesse en instructieopvolging.

100
Code generatie
99
Meertaligheid
100
Redeneren
Sectie 03

Prijsgeschiedenis

Directe provider-tarieven per miljoen tokens, plus een typische gespreks-kostschatting.

💰
API-tarieven — Mistral-Small-3.2-24B-Instruct-2506
$0.0900 per 1M input-tokens
$0.2800 per 1M output-tokens
≈ $0.0001 per typisch gesprek (800 tokens)
Input vs output prijs (per 1M tokens)
per 1M input-tokens$0.0900
per 1M output-tokens$0.2800

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.0900

input / 1M

— stable

$0.2800

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sectie 04

Tokens per seconde

Doorvoersnelheid in tokens per seconde, afgeleid uit gemeten P50-latency. Hogere waarden zijn beter; fluctuaties weerspiegelen serverbelasting bij de provider.

Doorvoer (tokens / s)1667 / avg 1721
3056461

Geschat uit P50-latency × 200 output-tokens — het absolute getal hangt af van deze aanname; de trend is wat telt.

Sectie 05

Mogelijkheden

ownedBy: mistralai
Sectie 06

Beschikbaarheid

Beschikbaarheid

Hoe vaak dit model antwoordt als we het aanroepen — gemeten over echte API-aanvragen en live-tests in de afgelopen 30 dagen. Dit staat los van kwaliteit: deze cijfers laten alleen zien of het model reageert, niet hoe goed het antwoord is.

Afgelopen 7 dagen

100.0%

n=8

Afgelopen 30 dagen

100.0%

n=8

Mediane responstijd

6,342ms

n=8

Gebaseerd op 76 metingen in de afgelopen 30 dagen.

Technische details

Alleen echte API-aanroepen en live-testverzoeken tellen mee — interne probes en benchmarkruns zijn uitgesloten.

Aanroepen met een eigen API-sleutel (BYOK) zijn uitgesloten: die fouten zijn sleutelspecifiek en geen teken van modelneergang.

Mislukte aanroepen worden NIET meegeteld in kwaliteitsscores — kwaliteit wordt gemeten op geslaagde responses. Beschikbaarheid en kwaliteit zijn onafhankelijke signalen.

Mediane responstijd (p50) over geslaagde aanroepen met een vastgelegde duur. Uitschieters trekken de mediaan minder dan het gemiddelde.

Totaal aanroepen (30d)

8

OK-reacties (30d)

8

Totaal aanroepen (7d)

8

OK-reacties (7d)

8

Beeldkwaliteit-pilot (2026-06-10)

Recall

9.4%

n=300

Vals alarm

12.1%

n=300

Sectie 07

Tokonomix benchmark-oordelen

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-588/100 · 8 runs
6 correct2 partial0 wrong75% accuracy
2026-06-14

Stable performance maintained with expanded category testing

Mistral-Small-3.2-24B-Instruct-2506 continues to demonstrate exceptional performance in this benchmark window, maintaining its perfect quality score of 100.0 across expanded testing. The model now shows consistently high performance across multiple categories including coding, creative writing, instruction following, and multilingual tasks, all scoring at the maximum level. This represents a broader evaluation than the previous window which focused solely on multilingual capabilities. Latency characteristics show notable improvement, with the median response time dropping from 5689ms to 926ms, representing an approximately 84% reduction in typical response times. The 95th percentile latency of 1180ms indicates consistent performance with minimal variation. The model demonstrates particularly strong results in mathematical reasoning and structured data handling, areas that were not evaluated in the baseline window. With 20 test runs completed in this window compared to the single baseline run, the results provide substantially more statistical confidence. Users can expect reliable performance across diverse workloads, from technical programming tasks to creative content generation, with significantly faster response times than initially observed.

Quality

Latency p50

Test runs

0

84% latency reduction achieved Expanded category coverage maintained Perfect scores across all categories 20x more test runs completed
Laatste automatische test
15 jun 2026 · 08:00 UTC · Snelheidstest
P50 latency
120 ms
P95 latency
158 ms
Fouten
0 / 6 runs
Laatst beoordeeld door Tokonomix-team·15 juni 2026