Ir al contenido
Se ejecuta en:FranceCreado en:United States
OVH AI Endpoints (GRA)

Meta-Llama-3_3-70B-Instruct

Equipo editorial Tokonomix·Revisado por Mes Kalkan··
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9573 runs
90794315795236483150005-2806-15ms
Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

99
Generación de código
97
Multilingüe
100
Razonamiento
Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Meta-Llama-3_3-70B-Instruct
$0.6700 por 1M de tokens de entrada
$0.6700 por 1M de tokens de salida
≈ $0.0005 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.6700
por 1M de tokens de salida$0.6700

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6700

input / 1M

— stable

$0.6700

output / 1M

— stable

2026-06-142026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)1575 / avg 1569
217930

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Capacidades

ownedBy: meta-llama
Sección 06

Disponibilidad

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

100.0%

n=8

Últimos 30 días

100.0%

n=8

Tiempo de respuesta mediano

7,284ms

n=8

Basado en 76 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

8

Respuestas OK (30d)

8

Total de llamadas (7d)

8

Respuestas OK (7d)

8

Sección 07

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-593/100 · 8 runs
7 correct0 partial1 wrong88% accuracy
2026-06-14

Meta-Llama-3_3-70B-Instruct maintains 97.0 quality with stable performance

Meta-Llama-3_3-70B-Instruct continues to deliver consistent performance in its second benchmark window, maintaining its overall quality score of 97.0 out of 100. The model shows no measurable changes in quality metrics, demonstrating reliability across evaluation cycles. Latency remains at the p50 mark of 10556 milliseconds, indicating stable response times for this 70B parameter model. The multilingual category score holds steady at 97, confirming the model's continued strength in handling multiple languages effectively. With only one test run in the current window matching the previous baseline, the consistency suggests predictable behavior for production deployments. Users can expect the same high-quality outputs and performance characteristics observed in the initial benchmark period. The lack of variation between windows indicates a mature, stable offering suitable for applications requiring dependable language model performance. OVH AI Endpoints in the GRA region continues to provide reliable hosting for this model without performance degradation.

Quality

Latency p50

Test runs

0

Quality score stable at 97.0 Consistent multilingual performance
Última prueba automática
15 jun 2026 · 08:00 UTC · Benchmark de velocidad
Latencia P50
127 ms
Latencia P95
172 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·15 de junio de 2026