Zum Inhalt
Läuft in:FranceErstellt in:United States
OVH AI Endpoints (GRA)

Llama-3.1-8B-Instruct

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz88 runs
42790715771236363150005-2806-19ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
97
Mehrsprachig
100
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Llama-3.1-8B-Instruct
$0.1000 pro 1M Input-Tokens
$0.1000 pro 1M Output-Tokens
≈ <$0.0001 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.1000
pro 1M Output-Tokens$0.1000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.1000

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)1626 / avg 1845
46815

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Fähigkeiten

ownedBy: meta-llama
Abschnitt 06

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-589/100 · 8 runs
6 correct2 partial0 wrong75% accuracy
2026-06-14

No performance data available in current benchmark window

The current benchmark window shows no test runs or performance data for Llama-3.1-8B-Instruct by OVH AI Endpoints. This represents a complete absence of measurable results compared to the previous window, which recorded an overall quality score of 95.0 out of 100 with strong multilingual performance at 95 points and a p50 latency of 12823 milliseconds. Without current data, it is impossible to assess whether the model maintains its previous performance levels or has experienced changes in quality, latency, or reliability. The lack of test runs could indicate service availability issues, endpoint configuration changes, or gaps in benchmark coverage during this measurement period. Users should be aware that the previous benchmark established a baseline showing capable performance, particularly in multilingual tasks. However, the absence of current validation data means there is no recent confirmation of model behavior or performance characteristics. Organizations relying on this endpoint should verify availability and conduct their own testing before deploying production workloads until new benchmark data becomes available.

Quality

Latency p50

Test runs

0

No test runs recorded No current performance data Cannot verify model availability
Letzter automatisierter Test
19. Juni 2026 · 02:02 UTC · Geschwindigkeits-Benchmark
P50-Latenz
123 ms
P95-Latenz
126 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·19. Juni 2026