Aller au contenu
Fonctionne en :FranceCréé en :United States
OVH AI Endpoints (GRA)

Llama-3.1-8B-Instruct

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9573 runs
42790715771236363150005-2806-15ms
Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
97
Multilingue
100
Raisonnement
Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Llama-3.1-8B-Instruct
$0.1000 par 1M de tokens d'entrée
$0.1000 par 1M de tokens de sortie
≈ <$0.0001 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.1000
par 1M de tokens de sortie$0.1000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.1000

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)1538 / avg 1872
46815

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Capacités

ownedBy: meta-llama
Section 06

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 07

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-589/100 · 8 runs
6 correct2 partial0 wrong75% accuracy
2026-06-14

No performance data available in current benchmark window

The current benchmark window shows no test runs or performance data for Llama-3.1-8B-Instruct by OVH AI Endpoints. This represents a complete absence of measurable results compared to the previous window, which recorded an overall quality score of 95.0 out of 100 with strong multilingual performance at 95 points and a p50 latency of 12823 milliseconds. Without current data, it is impossible to assess whether the model maintains its previous performance levels or has experienced changes in quality, latency, or reliability. The lack of test runs could indicate service availability issues, endpoint configuration changes, or gaps in benchmark coverage during this measurement period. Users should be aware that the previous benchmark established a baseline showing capable performance, particularly in multilingual tasks. However, the absence of current validation data means there is no recent confirmation of model behavior or performance characteristics. Organizations relying on this endpoint should verify availability and conduct their own testing before deploying production workloads until new benchmark data becomes available.

Quality

Latency p50

Test runs

0

No test runs recorded No current performance data Cannot verify model availability
Dernier test automatisé
15 juin 2026 · 08:00 UTC · Benchmark de vitesse
Latence P50
130 ms
Latence P95
232 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·15 juin 2026