Mistral-Small-3.2-24B-Instruct-2506
Geschwindigkeitsanalyse
Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.
Qualitätswerte
Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.
Preisverlauf
Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.
Pricing over time
Input & output per 1M tokens · step-line = price changes
$0.0900
input / 1M
— stable
$0.2800
output / 1M
— stable
Tokens pro Sekunde
Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.
Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.
Fähigkeiten
Verfügbarkeit
Verfügbarkeit
Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.
Letzte 7 Tage
100.0%
n=8
Letzte 30 Tage
100.0%
n=8
Mediane Antwortzeit
6,342ms
n=8
Basierend auf 76 Messungen in den letzten 30 Tagen.
Technische Details
Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.
Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.
Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.
Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.
Gesamte Aufrufe (30d)
8
OK-Antworten (30d)
8
Gesamte Aufrufe (7d)
8
OK-Antworten (7d)
8
Tokonomix-Benchmark-Urteile
Stable performance maintained with expanded category testing
Mistral-Small-3.2-24B-Instruct-2506 continues to demonstrate exceptional performance in this benchmark window, maintaining its perfect quality score of 100.0 across expanded testing. The model now shows consistently high performance across multiple categories including coding, creative writing, instruction following, and multilingual tasks, all scoring at the maximum level. This represents a broader evaluation than the previous window which focused solely on multilingual capabilities. Latency characteristics show notable improvement, with the median response time dropping from 5689ms to 926ms, representing an approximately 84% reduction in typical response times. The 95th percentile latency of 1180ms indicates consistent performance with minimal variation. The model demonstrates particularly strong results in mathematical reasoning and structured data handling, areas that were not evaluated in the baseline window. With 20 test runs completed in this window compared to the single baseline run, the results provide substantially more statistical confidence. Users can expect reliable performance across diverse workloads, from technical programming tasks to creative content generation, with significantly faster response times than initially observed.
Quality
—
Latency p50
—
Test runs
0
Mistral-Small-3.2-24B-Instruct-2506
von OVH AI Endpoints (GRA)
- Kontextfenster
- — tokens
- Eingabepreis
- $0.0900 / 1M
- Ausgabepreis
- $0.2800 / 1M
- Tier
- —
- Modalität
- Text
- API-Typ
- REST · Streaming
- Benchmark-Läufe
- 91
Mehr von OVH AI Endpoints (GRA)