Ir al contenido
Se ejecuta en:FranceCreado en:United States
OVH AI Endpoints (GRA)

Llama-3.1-8B-Instruct

Equipo editorial Tokonomix·Revisado por Mes Kalkan··
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9573 runs
42790715771236363150005-2806-15ms
Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
97
Multilingüe
100
Razonamiento
Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Llama-3.1-8B-Instruct
$0.1000 por 1M de tokens de entrada
$0.1000 por 1M de tokens de salida
≈ <$0.0001 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.1000
por 1M de tokens de salida$0.1000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.1000

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)1538 / avg 1872
46815

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Capacidades

ownedBy: meta-llama
Sección 06

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-589/100 · 8 runs
6 correct2 partial0 wrong75% accuracy
2026-06-14

No performance data available in current benchmark window

The current benchmark window shows no test runs or performance data for Llama-3.1-8B-Instruct by OVH AI Endpoints. This represents a complete absence of measurable results compared to the previous window, which recorded an overall quality score of 95.0 out of 100 with strong multilingual performance at 95 points and a p50 latency of 12823 milliseconds. Without current data, it is impossible to assess whether the model maintains its previous performance levels or has experienced changes in quality, latency, or reliability. The lack of test runs could indicate service availability issues, endpoint configuration changes, or gaps in benchmark coverage during this measurement period. Users should be aware that the previous benchmark established a baseline showing capable performance, particularly in multilingual tasks. However, the absence of current validation data means there is no recent confirmation of model behavior or performance characteristics. Organizations relying on this endpoint should verify availability and conduct their own testing before deploying production workloads until new benchmark data becomes available.

Quality

Latency p50

Test runs

0

No test runs recorded No current performance data Cannot verify model availability
Última prueba automática
15 jun 2026 · 08:00 UTC · Benchmark de velocidad
Latencia P50
130 ms
Latencia P95
232 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·15 de junio de 2026