Ir al contenido
Tier A — Frontera
Se ejecuta en:USCreado en:United States
Google Gemini

Gemini 2.5 Flash

Tier A — Frontera · 1.048576M tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Gemini 2.5 Flash es un modelo de lenguaje de gran tamaño desarrollado por Google como parte de la familia de sistemas de IA Gemini. Está diseñado para tareas estándar de generación de texto y ofrece un equilibrio entre rendimiento y eficiencia adecuado para una amplia gama de aplicaciones de procesamiento de lenguaje natural. El modelo aborda tareas como respuesta a preguntas, resumen, escritura creativa, generación de código e interacciones conversacionales generales. Una característica técnica clave de Gemini 2.5 Flash es su ventana de contexto excepcionalmente amplia de 1,048,576 tokens (aproximadamente 1 millón de tokens). Esta capacidad de contexto extendida permite al modelo procesar y mantener la coherencia a lo largo de documentos muy extensos, conversaciones prolongadas o grandes bases de código dentro de una sola instrucción. Esto lo hace particularmente útil para aplicaciones que requieren el análisis de materiales largos o el mantenimiento del contexto durante interacciones prolongadas. Dentro de la línea Gemini de Google, la variante 2.5 Flash se posiciona como una opción más rápida y eficiente en recursos en comparación con modelos más grandes como Gemini Pro o Ultra, manteniendo a la vez un rendimiento sólido en tareas lingüísticas de uso general. La denominación "Flash" indica una optimización orientada a la velocidad y a una menor latencia, lo que la hace adecuada para aplicaciones donde el tiempo de respuesta es importante. Representa una iteración sobre la arquitectura Gemini 2.0 con mejoras tanto en capacidad como en eficiencia, dirigida a desarrolladores y organizaciones que buscan un rendimiento competente de modelos de lenguaje sin requerir la carga computacional de los modelos más grandes disponibles.

Gemini 2.5 Flash combina 1M tokens de contexto con optimización de velocidad, siendo una de las opciones más completas del catálogo de Google.

Resumen de benchmark Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9597 runs
352161728814146541005-2206-15ms
Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

35
Generación de código
19
Multilingüe
28
Razonamiento
Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Gemini 2.5 Flash
$0.3000 por 1M de tokens de entrada
$2.50 por 1M de tokens de salida
≈ $0.0007 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.3000
por 1M de tokens de salida$2.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.3000

input / 1M

▲ +275% since first

$2.50

output / 1M

▲ +733% since first

2026-05-242026-05-312026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)159 / avg 335
56251

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Velocidad optimizada tipo Flash1 millón de tokens de contextoGeneración de código eficienteResumen de documentos extensosSoporte multilingüe robustoVersatilidad para múltiples dominiosAnálisis de grandes volúmenes de datos

Debilidades

Menor profundidad que variantes Pro/UltraRazonamiento avanzado más limitadoAnálisis altamente especializados requieren modelos mayores
Sección 06

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65535
Sección 07

Preguntas frecuentes

Indica optimización para velocidad y menor latencia en comparación con modelos Pro o Ultra del mismo período.

El equilibrio entre contexto masivo y velocidad de respuesta hace de Gemini 2.5 Flash una opción muy competitiva para desarrollo en producción.

Resumen de benchmark Tokonomix
Sección 08

Disponibilidad

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

100.0%

n=36

Últimos 30 días

100.0%

n=36

Tiempo de respuesta mediano

3,597ms

n=36

Basado en 104 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

36

Respuestas OK (30d)

36

Total de llamadas (7d)

36

Respuestas OK (7d)

36

Piloto de calidad de imagen (2026-06-10)

Recall

36.9%

n=300

Falsa alarma

7.9%

n=300

Sección 09

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-538/100 · 76 runs
16 correct9 partial51 wrong21% accuracy
2026-06-14

Major quality decline with 26-point drop across most categories

Gemini 2.5 Flash experienced a significant performance degradation in the current benchmark window, with overall quality falling from 53.6 to 27.2 points. This 26.4-point decline represents nearly a 50% reduction in measured capability. The coding category shows mixed signals, rising from 15 to 35 points, suggesting some improvement in technical task handling. However, this gain is overshadowed by severe regressions elsewhere. Multilingual performance dropped dramatically from 40 to 19 points, indicating substantial difficulties with non-English language tasks. Reasoning capabilities declined from unmeasured in the previous window to a measured score of 28 points. Most notably, creative tasks which previously scored a perfect 100 are no longer being measured, along with factual tasks that previously scored 60 points. The absence of these category measurements in the current window makes direct comparison challenging but suggests potential shifts in model focus or capability boundaries. Latency remained relatively stable at 3888ms compared to the previous 3957ms, showing consistent response times despite the quality changes. Users should expect notably reduced performance across language understanding and general task quality compared to the previous version.

Quality

27.2

Latency p50

3,888 ms

Test runs

5

Quality dropped 26 points Multilingual score halved Coding improved from 15 to 35 Latency remained stable
Sección 10

Perfil completo del modelo

Gemini 2.5 Flash — illustration 1
Gemini 2.5 Flash: el caballo de batalla en producción de la línea Gemini

Gemini 2.5 Flash (gemini-2.5-flash) es el modelo que la mayoría de los despliegues Gemini en producción terminaron ejecutando durante la segunda mitad de 2025 y en 2026. Una ventana de contexto de 1 048 576 tokens. Entrada de texto e imagen. Gestión multimodal nativa que compite de tú a tú con el tier medio de Anthropic y las variantes GPT-5 más pequeñas de OpenAI.

Si pasó algún tiempo hablando con un equipo de soluciones de Google en 2025 sobre "el Gemini correcto para poner en producción a escala", este es el modelo al que señalaron. Es el caballo de batalla de la familia y ha ganado ese posicionamiento.

Por qué esta instantánea se impuso

Varias cosas coincidieron en 2.5 Flash que lo convirtieron en el objetivo predeterminado de actualización para los equipos que usaban 2.0 Flash:

  • Razonamiento más agudo que la generación 2.0, particularmente en extracción de múltiples pasos y cargas de trabajo de salida estructurada donde 2.0 Flash a veces se tensaba.
  • Adherencia más limpia al esquema JSON. Los esquemas anidados complejos se gestionan de forma fiable sin la desviación ocasional en nombres de campos que mostraban las instantáneas Flash anteriores.
  • Mejor atención en contexto largo en profundidad. La ventana de 1M es más utilizable para tareas de síntesis pasados los 200k tokens que en la generación 2.0.
  • Tiempo hasta el primer token más rápido en prompts cortos. El nombre "Flash" ganó su merecido en el lanzamiento y 2.5 mantiene el perfil de latencia.
  • Mejor calidad de visión en documentos, gráficos y diagramas.

Ninguno de esos es individualmente dramático. Juntos, facilitaron suficientemente la aritmética de migración desde 2.0 Flash para que la mayoría de los equipos se movieran.

Qué aporta realmente el contexto de 1M

Un millón de tokens es suficiente para una base de código sustancial, un largo informe trimestral o una carga de trabajo de múltiples documentos. La línea de marketing es real. La pregunta práctica es la que aplica a todo modelo de contexto largo: ¿la atención se mantiene a lo largo del buffer, o el modelo pierde el inicio una vez que el final está lleno?

Gemini 2.5 Flash mantiene la atención razonablemente a lo largo de la ventana completa. La calidad de recuperación de información se mantiene aceptable bien pasadas las 200k tokens, donde la generación 2.0 comenzaba a desvanecerse. Pasadas aproximadamente las 600k tokens, la latencia se estira notablemente. La imagen de velocidad actualizada está en /benchmarks/speed.

Dos implicaciones prácticas. Primera: la ventana larga es utilizable para tareas como análisis de documentos completos, diligencia debida entre documentos y estado conversacional de hilos largos, no solo un número en la hoja de especificaciones. Segunda: el caché de prompts es el patrón correcto para consultas repetidas contra el mismo corpus grande. Recargar 800k tokens de contexto en cada llamada es costoso en tiempo de reloj aunque la llamada a la API tenga éxito.

Visión que compite en serio

La generación 2.5 cerró la brecha en calidad de visión que Gemini Flash mantuvo en instantáneas anteriores. Capturas de pantalla de documentos, PDFs escaneados renderizados como imágenes de página, capturas de paneles de control, diagramas. La extracción de tablas es limpia. Los gráficos con tamaños de etiqueta razonables se describen con precisión, incluidas las unidades de los ejes y las magnitudes aproximadas de las diferencias.

El texto manuscrito sigue siendo el punto débil. Lo mismo ocurre con las figuras científicas muy densas. Todo aquello en que un humano necesitaría hacer zoom se beneficia de un paso de verificación. Para la mayoría de las cargas de trabajo de lectura de documentos en producción, 2.5 Flash está en la franja donde se puede confiar en la salida sin necesidad de escalar a un modelo de tier Pro.

Su posición frente al campo

El panorama competitivo honesto de Gemini 2.5 Flash a mediados de 2026:

Frente al tier medio de Anthropic: Claude Sonnet 4.5 gana en prosa administrativa en lenguas europeas y consistencia de rechazo en salida estructurada. Gemini 2.5 Flash gana en velocidad bruta para prompts cortos y en que la ventana de 1M es utilizable pasadas las 200k tokens donde Sonnet 4.5 se desvanece. Claude Haiku 4.5 compite en coste por llamada en tareas más simples.

Frente al tier medio de OpenAI: las variantes de tier medio de GPT-5 compiten en velocidad bruta y en calidad de generación de código. 2.5 Flash gana en multimodalidad más allá de imágenes: la comprensión nativa de audio y vídeo es más sólida en la familia Gemini.

Frente al resto de la línea Gemini: Gemini 2.5 Pro es el movimiento ascendente para trabajo con razonamiento intensivo. Las vistas previas 3.x Flash son el movimiento ascendente para las capacidades más recientes, con las advertencias habituales de vista previa sobre límites de tasa y estabilidad de comportamiento.

El panorama por categorías está en /benchmarks/leaderboard y las puntuaciones por categoría en /benchmarks/intelligence.

Cuándo no es la herramienta adecuada

Razonamiento de la cima de la pila. Suba a Gemini 2.5 Pro o 3 Pro Preview para tareas que requieren razonamiento profundo de múltiples pasos.

Trabajos por lotes ultra-sensibles al coste a escala masiva. Gemini 2.5 Flash-Lite es el tier más barato para cargas de trabajo donde el coste domina cualquier otra consideración.

Voz en tiempo real con baja latencia de extremo a extremo. Para arquitecturas de voz-a-voz, consulte los modelos nativos de audio en la familia. La guía de pipeline de voz en /usecases/voice cubre la arquitectura correcta.

Generación de código en frameworks de rápida evolución donde se quiere la mejor salida idiomática. 2.5 Flash es competente pero no está especializado. La encuesta de modelos en /usecases/code cubre las alternativas.

Despliegue auto-alojado o fine-tuning más allá del ajuste estándar de adaptadores. Google no distribuye pesos Gemini. Para cargas de trabajo que necesitan despliegue on-premise, la encuesta de pesos abiertos en /usecases/local es el punto de partida correcto.

Notas de despliegue

API estándar de Google Gemini. REST, streaming, uso de herramientas, salida estructurada: todo se comporta como se espera. El modelo está bien instrumentado e integra limpiamente con las herramientas más amplias de Vertex AI para monitoreo y registro.

La disponibilidad regional sigue el patrón de Vertex AI de Google. Las regiones de la UE están disponibles en contratos enterprise. El acceso a la API de consumidor estándar no fija una región. Para restricciones estrictas de residencia, la documentación regional de Vertex AI es la referencia correcta.

Los precios son competitivos con las opciones de tier medio de Anthropic y OpenAI. Para cargas de trabajo de alto volumen, el coste por llamada es uno de varios factores: la latencia, la ventana de contexto y la calidad en sus prompts específicos importan más que la tarifa principal.

Cuándo elegirlo

Use Gemini 2.5 Flash cuando:

  • Quiera un modelo de tier medio sólido con una ventana de contexto de un millón de tokens utilizable.
  • La carga de trabajo incluya entrada de visión en documentos, gráficos o diagramas.
  • La latencia en prompts cortos importe tanto como la calidad en los largos.
  • Ya esté en el stack de Google o tenga flexibilidad multi-nube.

Elija otra opción cuando:

  • La carga de trabajo necesite razonamiento de la cima de la pila. Suba a 2.5 Pro o 3 Pro Preview.
  • El coste por llamada domine y la caída de calidad a Flash-Lite sea aceptable.
  • Necesite una postura de rechazo consistente que coincida con el estilo de Anthropic. Claude encaja mejor.
  • El trabajo es nativo de audio o vídeo. Consulte los modelos específicos de modalidad.

El resumen: Gemini 2.5 Flash es el valor predeterminado correcto y predecible para despliegues Gemini en producción. Las vistas previas 3.x más recientes pueden ser más capaces en el límite de vanguardia, pero para estabilidad, límites de tasa y comportamiento bien entendido, 2.5 Flash es el punto de partida correcto para la mayoría de los equipos.

Pruébelo frente a las alternativas con sus propios prompts en /live-test. Mismo prompt, múltiples modelos, uno junto al otro.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Gemini 2.5 Flash — illustration 2
Última prueba automática
15 jun 2026 · 08:00 UTC · Benchmark de velocidad
Latencia P50
1258 ms
Latencia P95
1363 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026