Tier B — Producción

Se ejecuta en:USCreado en:United States

Gemini 3.1 Flash Lite

Tier B — Producción · 1.048576M tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 27 de mayo de 2026·Última revisión 26 de julio de 2026

Sección 01

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

100

Multilingüe

100

Razonamiento

Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Gemini 3.1 Flash Lite

$0.2500 por 1M de tokens de entrada

$1.50 por 1M de tokens de salida

≈ $0.0004 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.2500

por 1M de tokens de salida$1.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.2500

input / 1M

▼ −44% since first

$1.50

output / 1M

▼ −44% since first

2026-06-072026-06-282026-07-19

Input

Output

Price change

⟳ synced weekly

Sección 03

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningaudio inputjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65536

Sección 04

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

—

Últimos 30 días

100.0%

n=58

Tiempo de respuesta mediano

1,230ms

n=58

Basado en 78 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

Respuestas OK (30d)

Total de llamadas (7d)

Respuestas OK (7d)

Sección 05

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-597/100 · 47 runs

42 correct5 partial0 wrong89% accuracy

● 2026-07-19

Quality decline across categories with reasoning performance now unmeasured

Gemini 3.1 Flash Lite shows a notable 6-point drop in overall quality score, falling from 99.3 to 93.3 out of 100 in the current benchmark window. The model maintains perfect scores in coding and multilingual tasks at 100 each, but creative performance registered at just 80, suggesting potential regression in generative capabilities. Most concerning is the complete absence of reasoning scores in the current window, despite achieving a perfect 100 in this category previously. This missing data point makes it difficult to assess whether the model has actually lost reasoning capability or if the test coverage has simply changed. Latency remains relatively stable with a marginal increase from 1408ms to 1460ms at the median, representing a 52ms degradation that should be negligible for most use cases. The consistency in test runs at 5 per window provides reasonable confidence in these measurements. Users should be aware that while specialized tasks like coding and multilingual processing remain strong, the overall reliability appears to have decreased. The missing reasoning benchmark is particularly notable given its previous perfect performance, and users relying on logical inference capabilities should exercise caution until this metric is re-established.

Quality

93.3

Latency p50

1,460 ms

Test runs

✗ Quality dropped 6 points✗ Reasoning category no longer tested✗ Creative score fell to 80✓ Coding and multilingual remain perfect

Última prueba automática

26 jul 2026 · 05:38 UTC · Benchmark

Latencia P50

812 ms

Latencia P95

—

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·26 de julio de 2026