Se ejecuta en:FranceCreado en:United States

Archivado

Este modelo ha sido descontinuado por el proveedor. Los datos históricos se conservan.

Ya no está disponible desde el 28 de junio de 2026.

OVH AI Endpoints (GRA)

Llama-3.1-8B-Instruct

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 27 de mayo de 2026·Última revisión 28 de junio de 2026

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Llama-3.1-8B-Instruct

$0.1000 por 1M de tokens de entrada

$0.1000 por 1M de tokens de salida

≈ <$0.0001 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.1000

por 1M de tokens de salida$0.1000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.1000

output / 1M

— stable

2026-06-142026-06-142026-06-21

Input

Output

Price change

⟳ synced weekly

Sección 02

Capacidades

ownedBy: meta-llama

Sección 03

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 04

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-586/100 · 23 runs

15 correct7 partial1 wrong65% accuracy

● 2026-06-21

Quality drops 29 points as performance degrades across all categories

Llama-3.1-8B-Instruct by OVH AI Endpoints has experienced a significant decline in performance this benchmark window. The overall quality score plummeted from 99.0 to 70.3, representing a 28.7-point drop that affects the model's competitive standing. The degradation is evident across all measured categories, with factual accuracy scoring just 57, reasoning at 74, and multilingual capabilities at 80. This contrasts sharply with the previous window where coding achieved 100, multilingual scored 97, and reasoning reached 100. The current window shows a different category composition, making direct comparisons complex, but the overall trend is unmistakably negative. On a positive note, latency has improved slightly from 9119ms to 7942ms at the median, offering users marginally faster response times. However, this speed gain is overshadowed by the substantial quality regression. Testing consistency remains stable with five runs in both windows. Users relying on this endpoint should be aware of the current performance limitations, particularly for fact-dependent tasks where the model now scores below 60. The cause of this regression warrants investigation to determine whether it stems from infrastructure changes, model configuration, or other factors.

Quality

70.3

Latency p50

7,942 ms

Test runs

✗ Quality dropped 29 points✗ Factual accuracy now only 57✓ Latency improved to 7942ms✗ Reasoning declined significantly

Última prueba automática

28 jun 2026 · 05:12 UTC · Benchmark

Latencia P50

—

Latencia P95

—

Errores

1 / 6 ejecuciones

Última revisión por Equipo Tokonomix·28 de junio de 2026