Meta-Llama-3_3-70B-Instruct
Geschwindigkeitsanalyse
Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.
Qualitätswerte
Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.
Preisverlauf
Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.
Pricing over time
Input & output per 1M tokens · step-line = price changes
$0.6700
input / 1M
— stable
$0.6700
output / 1M
— stable
Tokens pro Sekunde
Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.
Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.
Fähigkeiten
Verfügbarkeit
Verfügbarkeit
Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.
Letzte 7 Tage
100.0%
n=8
Letzte 30 Tage
100.0%
n=8
Mediane Antwortzeit
7,284ms
n=8
Basierend auf 76 Messungen in den letzten 30 Tagen.
Technische Details
Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.
Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.
Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.
Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.
Gesamte Aufrufe (30d)
8
OK-Antworten (30d)
8
Gesamte Aufrufe (7d)
8
OK-Antworten (7d)
8
Tokonomix-Benchmark-Urteile
Meta-Llama-3_3-70B-Instruct maintains 97.0 quality with stable performance
Meta-Llama-3_3-70B-Instruct continues to deliver consistent performance in its second benchmark window, maintaining its overall quality score of 97.0 out of 100. The model shows no measurable changes in quality metrics, demonstrating reliability across evaluation cycles. Latency remains at the p50 mark of 10556 milliseconds, indicating stable response times for this 70B parameter model. The multilingual category score holds steady at 97, confirming the model's continued strength in handling multiple languages effectively. With only one test run in the current window matching the previous baseline, the consistency suggests predictable behavior for production deployments. Users can expect the same high-quality outputs and performance characteristics observed in the initial benchmark period. The lack of variation between windows indicates a mature, stable offering suitable for applications requiring dependable language model performance. OVH AI Endpoints in the GRA region continues to provide reliable hosting for this model without performance degradation.
Quality
—
Latency p50
—
Test runs
0
Meta-Llama-3_3-70B-Instruct
von OVH AI Endpoints (GRA)
- Kontextfenster
- — tokens
- Eingabepreis
- $0.6700 / 1M
- Ausgabepreis
- $0.6700 / 1M
- Tier
- —
- Modalität
- Text
- API-Typ
- REST · Streaming
- Benchmark-Läufe
- 91
Mehr von OVH AI Endpoints (GRA)