Tier B — Producción

Se ejecuta en:FranceCreado en:United States

Meta-Llama-3_3-70B-Instruct

Tier B — Producción

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 27 de mayo de 2026·Última revisión 30 de julio de 2026

Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P95101 runs

Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

100

Multilingüe

100

Razonamiento

Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Meta-Llama-3_3-70B-Instruct

$0.6700 por 1M de tokens de entrada

$0.6700 por 1M de tokens de salida

≈ $0.0005 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.6700

por 1M de tokens de salida$0.6700

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6700

input / 1M

— stable

$0.6700

output / 1M

— stable

2026-06-142026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)1429 / avg 1555

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Capacidades

ownedBy: meta-llama

Sección 06

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

—

Últimos 30 días

100.0%

n=82

Tiempo de respuesta mediano

123,720ms

n=82

Basado en 472 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

Respuestas OK (30d)

Total de llamadas (7d)

Respuestas OK (7d)

Sección 07

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-594/100 · 48 runs

44 correct1 partial3 wrong92% accuracy

● 2026-07-26

Quality drops 9.7 points to 88.0, factual performance weakens significantly

Meta-Llama-3.3-70B-Instruct on OVH AI Endpoints shows a concerning quality decline in this benchmark window, falling from 97.7 to 88.0 overall. The most dramatic shift appears in factual performance, which scored just 57 compared to strong performance in other categories. Creative writing maintains its previous excellence at 95, while multilingual capabilities remain perfect at 100. Reasoning performance is now tracked at 100, representing solid logical processing. The coding category, which scored 98 in the previous window, is no longer represented in current results, making direct comparison difficult. Latency remains essentially stable at 7649ms compared to 7683ms previously, indicating no performance regression in response times. This quality drop of nearly 10 points is substantial and warrants attention, particularly given the weak factual accuracy score that pulls down the overall rating. Users relying on this model for fact-based tasks should be aware of this limitation, while those focused on creative, multilingual, or reasoning applications can expect continued strong performance. The consistency in test runs at 5 samples suggests these results are preliminary but indicative of current capabilities.

Quality

88.0

Latency p50

7,649 ms

Test runs

✗ Quality dropped 9.7 points✗ Factual performance weak at 57✓ Reasoning excellence at 100✓ Latency remains stable

Última prueba automática

30 jul 2026 · 08:04 UTC · Benchmark de velocidad

Latencia P50

140 ms

Latencia P95

1892 ms

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·30 de julio de 2026