Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
Google Gemini

Gemini 3.1 Flash Lite Preview

Tier C — Especialista · 1.048576M tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Gemini 3.1 Flash Lite Preview es un modelo ligero de generación de texto desarrollado por Google como parte de la familia de modelos Gemini. Esta versión preliminar está diseñada para tareas estándar de generación de texto donde se prioriza la velocidad y la eficiencia sobre la capacidad máxima. Sirve como una opción accesible para desarrolladores y aplicaciones que requieren tiempos de respuesta rápidos con una carga computacional reducida en comparación con modelos más grandes de la línea. El modelo cuenta con una ventana de contexto de 1.048.576 tokens (1M tokens), lo que le permite procesar y mantener coherencia en grandes volúmenes de texto. Esta capacidad de contexto extendida le permite manejar documentos complejos, conversaciones extensas y tareas que requieren información histórica significativa. Gemini 3.1 Flash Lite Preview se centra en las capacidades básicas de generación de texto sin funciones multimodales, lo que lo hace adecuado para aplicaciones como redacción de contenido, interfaces conversacionales, resumen de información y tareas generales de procesamiento de lenguaje natural. Dentro del ecosistema Gemini de Google, este modelo ocupa una posición optimizada para aplicaciones donde las restricciones de recursos son relevantes. La designación "Flash" indica optimización para menor latencia, mientras que "Lite" sugiere una arquitectura simplificada en comparación con las variantes estándar de Gemini. Al tratarse de un lanzamiento preliminar, ofrece a los desarrolladores acceso anticipado a la arquitectura de modelos ligeros en evolución de Google, aunque las funciones y características de rendimiento pueden cambiar a medida que el modelo avance hacia su disponibilidad general. Este modelo representa el enfoque de Google de ofrecer distintos niveles de rendimiento dentro de la familia Gemini para adaptarse a diferentes requisitos de uso.

Gemini 3.1 Flash Lite Preview representa la apuesta de Google por la eficiencia extrema, sacrificando capacidades avanzadas para ofrecer respuestas rápidas en aplicaciones donde cada milisegundo cuenta.

Análisis comparativo Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Gemini 3.1 Flash Lite Preview
$0.2500 por 1M de tokens de entrada
$1.50 por 1M de tokens de salida
≈ $0.0004 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.2500
por 1M de tokens de salida$1.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.2500

input / 1M

— no change

$1.50

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Latencia ultra baja para respuestas rápidasVentana de contexto de 1M tokensArquitectura optimizada para reducir costosIdeal para iteraciones rápidas de prototipadoIntegración nativa con plataforma Google CloudEficiente para generación de texto simpleAcceso anticipado a arquitectura ligera GoogleBajo consumo de recursos computacionales

Debilidades

Clasificación Tier C limita precisiónSin capacidades multimodales conocidasVersión preview con estabilidad no garantizadaCapacidades totales aún no documentadas
Sección 03

Capacidades

outputTokenLimit: 65536
Sección 04

Preguntas frecuentes

Flash Lite es apropiado cuando la velocidad de respuesta y eficiencia operativa son más importantes que la máxima calidad de salida. Funciona bien para bots conversacionales simples, autocompletado de texto, o resúmenes básicos donde el presupuesto es limitado.

Para proyectos que priorizan velocidad y costos reducidos sobre precisión máxima, este modelo ofrece un punto de entrada accesible al ecosistema Gemini, aunque su clasificación de nivel C refleja limitaciones evidentes frente a alternativas más robustas.

Resumen editorial Tokonomix
Sección 05

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 06

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-596/100 · 68 runs
65 correct3 partial0 wrong96% accuracy
2026-05-24

Mejoras en calidad y tiempos de respuesta más rápidos con excelencia técnica sostenida

Gemini 3.1 Flash Lite Preview muestra mejoras medibles en métricas clave durante esta ventana de evaluación. La calidad general aumentó de 95.3 a 96.5, mientras que la latencia mejoró un 20%, con el p50 bajando de 2168ms a 1741ms. Estas ganancias representan mejoras significativas en la experiencia del usuario sin sacrificar precisión. Las capacidades técnicas se mantienen excepcionales: razonamiento y codificación conservan puntuaciones perfectas de 100 en ambas ventanas. La precisión factual se sostiene en el nivel más alto, con 100 en la ventana actual frente a 99 anterior. La categoría creativa muestra variación, bajando de 93 a 87, aunque sigue siendo sólidamente competitiva. La categoría zorg mejoró notablemente de 87 a 91, indicando un mejor manejo de ese tipo de tarea. La reducción en el número de ejecuciones de prueba de 28 a 11 implica que los resultados actuales provienen de una muestra menor, aunque la consistencia en las puntuaciones técnicas sugiere un rendimiento estable. La combinación de respuestas más rápidas y precisión mantenida hace que esta iteración sea particularmente sólida para aplicaciones que requieren tanto velocidad como exactitud. Los usuarios pueden esperar un rendimiento fiable en tareas de razonamiento intensivo y codificación, beneficiándose además de tiempos de espera notablemente reducidos.

Quality

96.5

Latency p50

1,741 ms

Test runs

11

Tiempos de respuesta un 20 % más rápidos Puntuación de calidad mejorada a 96,5 Rendimiento de Zorg aumentado Las puntuaciones creativas disminuyeron
Sección 07

Perfil completo del modelo

Gemini 3.1 Flash Lite Preview — illustration 1
Gemini 3.1 Flash Lite Preview: el tier de bajo coste de próxima generación

Nota — perfil prospectivo. Gemini 3.1 Flash Lite Preview (gemini-3.1-flash-lite-preview) es una instantánea de vista previa. El comportamiento, las capacidades y los límites de tasa cambiarán antes de la disponibilidad general.

La entrada de bajo coste de próxima generación en la familia Flash de Google. Una ventana de contexto de 1 048 576 tokens. Entrada de texto e imagen. Diseñado para impulsar el tier Lite hacia adelante en calidad de razonamiento y fiabilidad de salida estructurada, manteniendo el posicionamiento de coste que hizo viables las instantáneas Lite anteriores para trabajo de alto volumen.

El encuadre que mejor le aplica a esta vista previa: 3.1 Flash Lite es el modelo al que se recurre cuando 2.5 Flash-Lite es el tier de coste que se quiere pero la calidad ha sido el factor limitante en lo que se puede desplegar. La generación 3.1 cierra parte de esa brecha. Si el cierre de la brecha es suficiente para justificar la migración desde un despliegue funcional de 2.5 Flash-Lite depende de la carga de trabajo específica.

Qué cambió respecto a 2.5 Flash-Lite

La generación 3.1 Lite aporta varias mejoras sobre la instantánea 2.5 Lite:

  • Razonamiento más sólido en tareas de múltiples pasos. Los tiers Lite anteriores gestionaban la extracción y la clasificación simples con limpieza, pero se tensaban en el razonamiento encadenado. La vista previa 3.1 muestra una mejora significativa aquí.
  • Mejor atención en contexto largo en profundidad. Se mantiene más fiablemente pasados los 200k tokens de entrada que lo que lograba la generación 2.5 Lite.
  • Adherencia mejorada a la salida estructurada. Los esquemas JSON se mantienen de forma fiable incluso en diseños anidados complejos donde el 2.5 Lite ocasionalmente desviaba.
  • Postura de rechazo más consistente. Los prompts límite reciben un tratamiento que se alinea más estrechamente con los modelos Gemini más grandes: menos llamadas inconsistentes entre respondido y rechazado.
  • Calidad de visión más aguda en tareas estándar de lectura de documentos. Aún no al nivel de la variante Flash completa, pero la brecha es menor que en la generación 2.5.

Nada individualmente dramático. El efecto compuesto es un tier Lite que hace más de lo que un tier Lite debería poder hacer.

Qué hace bien

La combinación titular permanece igual que en la generación 2.5 Lite: una ventana de contexto de un millón de tokens a un precio de tier Lite. La vista previa 3.1 hace esa combinación más utilizable para cargas de trabajo de tipo síntesis donde los tiers Lite anteriores fallaban.

La latencia se mantiene bien en prompts cortos. El nombre Flash-Lite justifica su uso en la responsividad del streaming. Para experiencias de chat de sensación en tiempo real a bajo coste, el perfil de latencia es genuinamente utilizable.

La entrada multimodal gestiona el trabajo rutinario de lectura de documentos con limpieza. Capturas de pantalla, formularios escaneados, capturas de paneles de control: adecuados para la mayoría de los pipelines de extracción.

El uso de herramientas y la salida estructurada son suficientemente fiables para cargas de trabajo con forma de agente en este tier. La adherencia al esquema es mejorada respecto al 2.5 Lite.

Qué hace mal

Sigue siendo un tier Lite. Para razonamiento de múltiples pasos genuinamente difícil, las variantes Flash 3.x completas o el tier Pro son el movimiento ascendente correcto.

La calidad de atención en contexto largo en profundidad es mejor que la generación 2.5 Lite pero sigue quedándose detrás de las variantes Flash completas en síntesis a través de datos dispersos. Para consultas de tipo recuperación pura, el tier Lite se mantiene; para síntesis en profundidad, suba.

La calidad de visión es mejorada pero sigue estando por debajo de la variante Flash completa. Para cargas de trabajo con uso intensivo de visión donde la calidad de imagen importa más que el coste, este es el punto de partida equivocado.

Aplican las consideraciones del tier de vista previa. Los límites de tasa, la disponibilidad regional y los comportamientos específicos pueden cambiar antes de la disponibilidad general. Para cargas de trabajo de producción que necesitan un comportamiento estable hoy, 2.5 Flash-Lite sigue siendo la opción más conservadora.

Su posición frente al campo

Frente a instantáneas Lite anteriores —2.5 Flash-Lite—: la vista previa 3.1 es la actualización natural para nuevas construcciones. Para despliegues existentes, el argumento de migración depende de si las mejoras de calidad importan para su carga de trabajo específica y de si el comportamiento de tier de vista previa es aceptable.

Frente a las vistas previas Flash 3.x completas: las variantes completas superan a la variante Lite en todas las categorías, como era de esperar. La elección entre Lite y completo en la generación 3.x se reduce a coste-versus-calidad en su carga de trabajo específica, el mismo intercambio que en la generación 2.5.

Frente a competidores en la misma franja: Claude Haiku 4.5 sigue siendo el modelo pequeño más sólido en cargas de trabajo con más razonamiento pero carece de la ventana de contexto de 1M. Las variantes OpenAI más pequeñas compiten en velocidad pero generalmente con contextos más cortos. Para coste por llamada a escala con contexto largo, la vista previa 3.1 Flash Lite está posicionada para liderar su franja cuando alcance la disponibilidad general.

El panorama por categorías está en /benchmarks/leaderboard y las puntuaciones por categoría en /benchmarks/intelligence.

Dónde resulta genuinamente útil

Algunas cargas de trabajo donde la vista previa 3.1 Lite encaja bien:

  • Enrutamiento de preguntas frecuentes de alto volumen y clasificación donde el factor decisivo es el rendimiento en lugar de la profundidad de razonamiento, pero donde el razonamiento del 2.5 Lite era ocasionalmente demasiado débil.
  • Triaje de servicio al cliente a escala con lógica de enrutamiento de múltiples pasos.
  • Recuperación de contexto largo contra documentos estructurados donde la calidad de atención pasadas las 200k tokens importa.
  • Prototipado de nuevos diseños de agentes donde el coste por llamada es suficientemente bajo como para experimentar sin necesitar aprobación de presupuesto.
  • Soporte al cliente multilingüe donde la generación 3.1 gestiona los idiomas europeos comunes con una fidelidad terminológica ligeramente mejor.

Cuándo no es la herramienta adecuada

Cargas de trabajo de producción que necesitan un comportamiento estable hoy. Use 2.5 Flash-Lite hasta que la vista previa 3.1 alcance la disponibilidad general.

Cualquier cosa que requiera razonamiento profundo de múltiples pasos. Suba a las variantes Flash 3.x completas o a un tier Pro.

Cargas de trabajo con uso intensivo de visión donde importa la calidad de imagen. Las variantes Flash completas producen una salida notablemente mejor.

Aplicaciones críticas para la seguridad sin verificación posterior. La postura de rechazo es mejorada pero aún no al nivel de los modelos Gemini más grandes.

Voz en tiempo real. Sin entrada de audio. La guía de pipeline de voz en /usecases/voice cubre la arquitectura correcta.

Notas de despliegue

API estándar de Google Gemini. REST, streaming, uso de herramientas, salida estructurada: todo se comporta como se espera para la superficie de capacidad subyacente.

La disponibilidad regional sigue el patrón estándar de Vertex AI de Google. Las regiones de la UE están disponibles en contratos enterprise. El acceso a la API de consumidor estándar no fija una región. Para restricciones estrictas de residencia, la documentación regional de Vertex AI es la referencia correcta.

Los precios del tier de vista previa no deben ser la base para la modelización de costes a largo plazo. La estructura de precios en la disponibilidad general puede diferir de las tarifas del tier de vista previa. Planifique las suposiciones de capacidad en consecuencia.

Los límites de tasa y la estabilidad del comportamiento son las principales consideraciones operacionales durante la vista previa. Las migraciones de producción deben planificar la posibilidad de cambios de comportamiento antes de la disponibilidad general y validar los contratos posteriores contra las salidas en evolución del modelo.

Cuándo elegirlo

Use Gemini 3.1 Flash Lite Preview cuando:

  • Explore las capacidades del tier Lite de próxima generación para futuro despliegue en producción.
  • La carga de trabajo estaba limitada por la profundidad de razonamiento del 2.5 Flash-Lite y quiera ver si 3.1 cierra la brecha.
  • Los límites de tasa del tier de vista previa funcionen para su forma de tráfico.
  • Ya esté en el stack de Google y quiera permanecer en él.

Elija otra opción cuando:

  • Necesite un comportamiento estable en producción hoy. Use 2.5 Flash-Lite.
  • La carga de trabajo necesite profundidad de razonamiento o calidad de visión más allá de lo que proporciona un tier Lite.
  • Necesite el compromiso del tier de bajo coste más razonamiento modesto, y 2.5 Flash-Lite ya lo cubre. La migración en ese caso puede no valer el trabajo de validación.
  • El trabajo es audio, voz o vídeo.

El resumen: prometedora instantánea del tier Lite de próxima generación que cierra brechas significativas desde la generación 2.5. Para exploración del tier de vista previa y trabajo de diseño prospectivo, es el punto de partida correcto. Para despliegues estables en producción hoy, 2.5 Flash-Lite sigue siendo la elección conservadora hasta que la línea 3.1 alcance la disponibilidad general.

Pruébelo con los mismos prompts que ejecuta en 2.5 Flash-Lite en /live-test. Las diferencias son más claras en comparación directa.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Gemini 3.1 Flash Lite Preview — illustration 2
Última prueba automática
27 may 2026 · 21:59 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026