Ir al contenido
Tier B — Producción
Se ejecuta en:USCreado en:United States
Google Gemini

Gemini 2.5 Flash-Lite

Tier B — Producción · 1.048576M tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Gemini 2.5 Flash-Lite es un modelo de lenguaje de gran tamaño desarrollado por Google como parte de la familia Gemini. Está diseñado para tareas estándar de generación de texto, ofreciendo un equilibrio entre rendimiento y eficiencia de recursos. El modelo se posiciona como una variante ligera dentro de la serie Gemini 2.5, optimizada para aplicaciones donde reducir la carga computacional resulta beneficioso, manteniendo a la vez una capacidad competente de comprensión y generación de lenguaje natural. Una característica técnica clave de Gemini 2.5 Flash-Lite es su ventana de contexto de 1.048.576 tokens, equivalente a aproximadamente un millón de tokens. Esta capacidad de contexto ampliada permite al modelo procesar y razonar sobre cantidades sustanciales de texto en una sola llamada de inferencia, lo que lo hace adecuado para tareas que involucran documentos extensos, historiales de conversación prolongados o interacciones complejas de múltiples turnos. El modelo admite capacidades estándar de generación de texto, incluyendo respuesta a preguntas, resumen, creación de contenido y aplicaciones de diálogo. Dentro de la línea Gemini de Google, la variante 2.5 Flash-Lite se sitúa por debajo de los modelos Flash y Pro estándar en términos de intensidad computacional, ofreciendo una opción más accesible para desarrolladores y aplicaciones con restricciones de latencia o rendimiento. Representa el enfoque de Google de proporcionar opciones de modelos escalonadas que atienden a distintos requisitos de uso, desde entornos de producción de alto rendimiento hasta despliegues experimentales o con recursos limitados. El modelo está disponible a través de los servicios de AI Platform de Google y los puntos de acceso estándar de API.

Gemini 2.5 Flash-Lite ofrece 1M tokens de contexto con el menor consumo computacional de la serie 2.5, ideal para despliegues eficientes.

Resumen de benchmark Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9597 runs
3223425652796301273205-2206-15ms
Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
97
Multilingüe
100
Razonamiento
Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Gemini 2.5 Flash-Lite
$0.1000 por 1M de tokens de entrada
$0.4000 por 1M de tokens de salida
≈ $0.0001 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.1000
por 1M de tokens de salida$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.4000

output / 1M

— stable

2026-05-242026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)441 / avg 398
61517

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Máxima eficiencia computacional1 millón de tokens de contextoBaja latencia en respuestasEscalable para alto volumen de consultasAdecuado para interacciones conversacionalesFácil integración vía API de Google

Debilidades

Capacidad inferior a Flash y Pro estándarLimitado en tareas de razonamiento complejoAnálisis avanzado requiere modelos mayoresRendimiento reducido en dominios especializados
Sección 06

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65535
Sección 07

Preguntas frecuentes

Indica la variante de menor consumo computacional dentro de la serie, sacrificando algo de capacidad por mayor eficiencia.

La combinación de contexto masivo con overhead mínimo lo hace atractivo para aplicaciones que necesitan escalar sin costos elevados.

Resumen de benchmark Tokonomix
Sección 08

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 09

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-590/100 · 72 runs
56 correct13 partial3 wrong78% accuracy
2026-06-14

Gemini 2.5 Flash-Lite adds tools and vision while maintaining performance

Gemini 2.5 Flash-Lite has expanded significantly with the addition of seven new capabilities including tools, vision, reasoning, PDF input, and various JSON modes. These additions transform the model from a text-only processor into a multimodal system with function calling and structured output support. Performance metrics remain exceptionally strong, though no current benchmark data is available for direct comparison. The previous window showed perfect scores across language understanding and generation tasks with notably low latency. The new capabilities suggest the model can now handle complex workflows involving image analysis, document processing, and API integrations while potentially maintaining its speed advantage. Users should note that parallel tool calling and prompt caching support indicate optimization for production use cases. The reasoning capability addition suggests improved handling of multi-step problems. However, without current performance data, it remains unclear whether these extensive new features impact the model's previous speed characteristics or accuracy levels. The transformation from a lightweight text model to a full-featured multimodal system represents a significant evolution in the model's intended use cases and target applications.

Quality

Latency p50

Test runs

0

Seven new capabilities added Vision and tool support enabled Reasoning capability introduced PDF input now supported
Sección 10

Perfil completo del modelo

Gemini 2.5 Flash-Lite — illustration 1
Gemini 2.5 Flash-Lite: el tier de bajo coste de la familia Flash de producción

Gemini 2.5 Flash-Lite (gemini-2.5-flash-lite) es la entrada de bajo coste de la familia Flash de producción 2.5. Una ventana de contexto de 1 048 576 tokens, la misma que la variante completa 2.5 Flash. Entrada de texto e imagen. Diseñado para trabajo de alto volumen donde el coste por llamada importa más que la capacidad absoluta.

El encuadre que mejor le aplica: Flash-Lite es la elección correcta cuando se ha mirado Flash completo y se ha decidido que la calidad es más de lo que la carga de trabajo realmente necesita, y se ha mirado el tier Pro y se ha decidido que el coste es más de lo que la carga de trabajo justifica. Se sitúa en la franja de presupuesto deliberadamente y cumple bien ese papel.

Por qué esta instantánea se impuso

Varias cosas coincidieron en 2.5 Flash-Lite que lo convirtieron en el objetivo estándar de actualización para los equipos que usaban 2.0 Flash-Lite:

  • Razonamiento más agudo que la generación 2.0, particularmente en tareas de extracción de múltiples pasos donde 2.0 Flash-Lite a veces se tensaba.
  • Adherencia más limpia a la salida estructurada. Los esquemas JSON se mantienen de forma fiable incluso en el tier Lite.
  • Mejor atención en contexto largo en profundidad. La ventana de 1M es más utilizable pasados los 200k tokens que en la instantánea 2.0 Lite.
  • Mejor calidad de visión en tareas estándar de lectura de documentos.
  • Postura de rechazo más alineada con los modelos Gemini más grandes: menos gestión inconsistente de prompts límite.

Para la mayoría de las cargas de trabajo que corrían en 2.0 Flash-Lite, la aritmética de migración fue suficientemente sencilla para que los equipos se movieran.

Qué hace bien

La ventana de contexto de 1M a un precio de tier Lite es el titular. Pocos competidores en la misma franja ofrecen tanto contexto, y 2.5 Flash-Lite lo usa de forma significativamente mejor que la generación 2.0.

La latencia se mantiene bien en prompts cortos. El modelo transmite rápidamente y se mantiene reactivo conforme crece la entrada. Para experiencias de chat de sensación en tiempo real a bajo coste, el perfil de latencia es genuinamente utilizable.

La entrada multimodal funciona para cargas de trabajo rutinarias de lectura de documentos. Capturas de pantalla, formularios escaneados, capturas de paneles de control: el modelo los gestiona con suficiente cuidado para la mayoría de los pipelines de extracción. No es el mejor en clase para visión, pero está sólidamente en la franja donde se puede confiar en la salida para tareas estándar.

El uso de herramientas y la salida estructurada son suficientemente fiables para la mayoría de las cargas de trabajo con forma de agente en este tier. La adherencia al esquema es limpia; los payloads de llamadas a herramientas están bien formados.

Qué hace mal

La profundidad de razonamiento es la limitación visible. El modelo gestiona la extracción y la clasificación directas con limpieza, pero se tensa en el razonamiento de múltiples pasos. Para tareas que requieren síntesis cuidadosa, la variante completa 2.5 Flash es el movimiento ascendente correcto.

La calidad de atención en contexto largo es significativamente mejor que la generación 2.0 Lite pero sigue quedándose detrás de la variante completa 2.5 Flash en síntesis a través de datos dispersos. Para consultas de tipo recuperación pura contra entradas bien estructuradas, el tier Lite se mantiene. Para síntesis en profundidad, suba.

La calidad de visión está por debajo de la variante completa 2.5 Flash y muy por debajo de la variante 2.5 Pro. Para cargas de trabajo con uso intensivo de visión donde la calidad de imagen importa más que el coste, este es el punto de partida equivocado.

La generación de código es competente para tareas simples pero conservadora en las complejas. El tier Lite no es la franja correcta para trabajo de código ajustado al IDE.

Su posición frente al campo

Frente a instantáneas de tier Lite más recientes —el 3.1 Flash Lite Preview— 2.5 Flash-Lite es la elección más estable para producción. El preview 3.1 muestra mejoras en algunas categorías pero lleva consideraciones de límites de tasa y comportamiento de tier de vista previa.

Frente a competidores en la misma franja: Claude Haiku 4.5 es más capaz en cargas de trabajo con más razonamiento pero no iguala la ventana de contexto de 1M. Las variantes OpenAI más pequeñas compiten en velocidad pero generalmente con contextos más cortos. Para el puro coste por llamada a escala con contexto largo, 2.5 Flash-Lite se encuentra entre las mejores opciones actuales.

Para coste por llamada inferior a un centavo con tamaños de contexto más pequeños, las opciones de peso abierto alojadas en OVH analizadas en /usecases/local compiten en un eje diferente.

El panorama por categorías está en /benchmarks/leaderboard y las puntuaciones por categoría en /benchmarks/intelligence.

Dónde resulta genuinamente útil

Algunas cargas de trabajo donde 2.5 Flash-Lite alcanza su punto óptimo:

  • Enrutamiento de preguntas frecuentes de alto volumen donde el factor decisivo es el rendimiento en lugar de la profundidad de razonamiento.
  • Triaje y clasificación de servicio al cliente a escala.
  • Recuperación de contexto largo contra documentos estructurados donde el modelo solo necesita encontrar datos en lugar de sintetizarlos.
  • Prototipado donde el coste por llamada es suficientemente bajo como para experimentar sin necesitar aprobación de presupuesto.
  • Soporte al cliente multilingüe para consultas rutinarias: el modelo gestiona bien los idiomas europeos comunes incluso en el tier Lite.

Cuándo no es la herramienta adecuada

Cualquier cosa que requiera razonamiento profundo de múltiples pasos. Suba a la variante completa 2.5 Flash o a un tier Pro.

Cargas de trabajo con uso intensivo de visión donde importa la calidad de imagen. Las variantes completas 2.5 Flash y 2.5 Pro producen una salida notablemente mejor.

Aplicaciones críticas para la seguridad sin verificación posterior. La postura de rechazo es razonable pero no al nivel de los modelos Gemini más grandes.

Generación de código en frameworks de rápida evolución. El tier Lite no es la franja correcta. La encuesta de modelos en /usecases/code cubre las alternativas.

Voz en tiempo real. Sin entrada de audio. La guía de pipeline de voz en /usecases/voice cubre la arquitectura correcta.

Notas de despliegue

API estándar de Google Gemini. REST, streaming, uso de herramientas, salida estructurada: todo se comporta como se espera para la superficie de capacidad subyacente.

La disponibilidad regional sigue el patrón de Vertex AI de Google. Las regiones de la UE están disponibles en contratos enterprise. El acceso a la API de consumidor estándar no fija una región. Para restricciones estrictas de residencia, la documentación regional de Vertex AI es la referencia correcta.

Los precios son el diferenciador histórico para este tier. Los precios actuales de Vertex AI deben ser la referencia en lugar de las cifras del momento del lanzamiento. Para cargas de trabajo de muy alto volumen, la diferencia de coste por llamada frente a la variante completa 2.5 Flash importa; verifique si la calidad que realmente necesita justifica el movimiento ascendente.

Cuándo elegirlo

Use Gemini 2.5 Flash-Lite cuando:

  • La carga de trabajo sea de alto volumen y el coste por llamada importe.
  • Necesite la ventana de contexto de 1M a un precio de tier Lite.
  • La tarea sea extracción, clasificación, recuperación o enrutamiento en lugar de razonamiento profundo.
  • Ya esté en el stack de Google y quiera permanecer en él.

Elija otra opción cuando:

  • La carga de trabajo necesite profundidad de razonamiento o síntesis cuidadosa. Suba a 2.5 Flash completo.
  • La calidad de visión importe más que el coste.
  • Aplicación crítica para la seguridad sin verificación posterior. Use un modelo más grande.
  • El trabajo es audio, voz o vídeo.

El resumen: modelo sólido de bajo coste que cumple bien su franja. Para trabajo de alto volumen donde los requisitos de calidad son modestos y la ventana de contexto importa, 2.5 Flash-Lite es una de las opciones más sólidas del mercado.

Compare contra las alternativas con sus propios prompts en /live-test.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Gemini 2.5 Flash-Lite — illustration 2Gemini 2.5 Flash-Lite — illustration 3
Última prueba automática
15 jun 2026 · 08:00 UTC · Benchmark de velocidad
Latencia P50
454 ms
Latencia P95
502 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026