Ir al contenido
Se ejecuta en:USCreado en:United States
Google Gemini

Nano Banana

33K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Nano Banana es un modelo de generación de texto desarrollado por Google como parte de la familia Gemini. Está diseñado para tareas estándar de procesamiento de lenguaje natural, incluyendo generación de contenido, aplicaciones conversacionales y análisis basado en texto. El modelo opera con una ventana de contexto de 33,000 tokens, lo que le permite procesar y mantener coherencia en documentos moderadamente largos o conversaciones extendidas. Como parte de la línea Gemini de Google, Nano Banana representa una oferta de nivel básico en términos de tamaño del modelo y requisitos computacionales. Está posicionado para aplicaciones donde la eficiencia y accesibilidad tienen prioridad sobre el rendimiento máximo en tareas de razonamiento complejo. El modelo demuestra competencia en comprensión y generación fundamental del lenguaje, mientras requiere menos recursos computacionales que los modelos más grandes de la familia Gemini. La ventana de contexto de 33K tokens coloca a Nano Banana en un nivel intermedio para el manejo de contexto, suficiente para procesamiento típico de documentos y conversaciones de múltiples turnos, pero más limitado que los modelos insignia que soportan ventanas de contexto superiores a 100K tokens. Este modelo es adecuado para desarrolladores y organizaciones que buscan capacidades confiables de generación de texto sin la carga de modelos de lenguaje más grandes. Se ajusta a casos de uso como chatbots, redacción de contenido, resumen de documentos de longitud moderada y tareas de completado de texto de propósito general donde se requiere comprensión estándar del lenguaje.

Nano Banana se posiciona como una opción ligera dentro de la familia Gemini, pensada para tareas de lenguaje cotidianas donde la eficiencia importa más que la potencia bruta.

Resumen editorial de Tokonomix
Sección 01

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
100
Razonamiento
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Nano Banana
$0.3000 por 1M de tokens de entrada
$2.50 por 1M de tokens de salida
≈ $0.0007 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.3000
por 1M de tokens de salida$2.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.3000

input / 1M

— stable

$2.50

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 03

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Respuestas rápidas y eficientesBajo coste computacionalApto para chatbots conversacionalesRedacción y borradores de contenidoResúmenes de documentos medianosIntegración sencilla vía API de GoogleBuena cobertura multilingüe básicaVentana de 32K tokens suficiente

Debilidades

Razonamiento complejo limitadoContexto inferior a modelos insigniaCapacidades multimodales no confirmadasFecha de corte de conocimiento poco clara
Sección 04

Capacidades

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingoutputTokenLimit: 32768max output tokens: 32768
Sección 05

Preguntas frecuentes

Está pensado para chatbots, generación de contenido, resúmenes de documentos de longitud moderada y tareas generales de completado de texto donde se prioriza la eficiencia sobre el razonamiento avanzado.

Una alternativa práctica para equipos que necesitan generación de texto fiable sin asumir el coste de un modelo insignia. Cumple bien en su nicho, siempre que no se le exijan tareas de razonamiento complejo.

Veredicto de Tokonomix
Sección 06

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-593/100 · 77 runs
67 correct7 partial3 wrong87% accuracy
2026-06-14

Nano Banana maintains capabilities without performance benchmarks

Nano Banana continues in its second benchmark window with the same comprehensive feature set introduced previously, including tools, vision, JSON mode, PDF input, JSON schema, parallel tools, and prompt caching. However, the model still lacks any published performance data across all standard benchmarks. No MMLU, GPQA, MATH, MUSR, or other academic benchmark scores are available for evaluation. Without quantitative metrics, users cannot assess the model's actual reasoning capabilities, domain knowledge, or problem-solving performance relative to other models in its class or across the broader landscape. The feature list suggests a modern, capable model with multimodal understanding and structured output support, but the absence of empirical performance data makes it impossible to verify quality or recommend specific use cases. Organizations considering Nano Banana should request direct performance evaluations or conduct their own testing before deployment. The stability of capabilities between windows is positive, indicating consistent feature availability, but the continued lack of benchmark transparency remains a significant limitation for informed decision-making.

Quality

Latency p50

Test runs

0

Stable capability set maintained No benchmark scores available Cannot verify performance claims
Sección 08

Perfil completo del modelo

Nano Banana — illustration 1
Nano Banana: el modelo de imagen de Google con historia de nombre de código filtrado

El nombre oficial de Google es Gemini 2.5 Flash Image. Internet lo llama Nano Banana, por el seudónimo con el que el modelo apareció en LMArena antes de que Google lo reconociera públicamente. La historia del nombre es lo más encantador del modelo. El conjunto de capacidades es lo sustancial.

Nano Banana es el endpoint de generación de imágenes de Google con entrada de texto e imagen en el tier Flash de Gemini. Diseñado para velocidad, iteración conversacional y preservación de identidad a través de ediciones, no para fotografías de campaña de alta resolución.

Para qué sirve el modelo

Generación de imágenes multimodal. Se pasa un prompt que mezcla texto e imágenes de referencia en cualquier orden, y el modelo devuelve una salida de imagen que incorpora ambos. Tres formas de solicitud aparecen una y otra vez.

Texto a imagen con referencias de estilo. "Haz una fotografía de producto de una taza de café, al estilo de estas tres imágenes de referencia." El modelo trata las referencias como instrucción visual en lugar de algo que copiar, lo cual es un comportamiento diferente al antiguo enfoque de aplanar todo en texto de prompt.

Edición de imagen mediante lenguaje natural. "Cambia el fondo por una playa al atardecer." "Elimina la mano en el lado izquierdo del encuadre." "Pon la camiseta roja en lugar de azul." El modelo preserva el resto de la imagen en lugar de redibujarlo desde cero. Para la edición conversacional de ida y vuelta, esta es la capacidad principal.

Composición a partir de referencias. "Usa la iluminación de la primera foto, el atuendo de la segunda y la pose de la tercera." Las referencias permanecen activas en la atención del modelo en lugar de colapsar en una sola sugerencia de estilo. La ventana de contexto de texto de 32 768 tokens importa aquí principalmente porque deja espacio para múltiples imágenes de referencia más texto de prompt detallado en una sola llamada.

Dónde brilla

Preservación de identidad a través de ediciones. Un personaje, producto o escena permanece reconocible a través de una cadena de refinamientos conversacionales. Esta es la capacidad en la que los modelos de imagen de la competencia han sido históricamente más débiles, y la ventaja de Nano Banana aquí es real.

Prompts multilingües. El mandarín, hindi, árabe y los principales idiomas europeos producen salidas coherentes sin necesidad de artimañas de traducción de prompts. Para productos que atienden a audiencias no anglófonas, esto elimina una capa de complejidad del pipeline.

Velocidad. Latencia de tier Flash, lo que significa que la generación de imágenes se completa lo suficientemente rápido como para ponerlo detrás de un botón "remezclar" en un producto orientado al usuario. El perfil de latencia es la parte que ganó el nombre Flash.

Texto dentro de imágenes. El texto corto —señalización, superposiciones de dos a cuatro palabras, etiquetas de producto— resulta legible con más frecuencia que no. Los pasajes más largos siguen produciendo el galimatías tipográfico que los modelos adyacentes a difusión en este tier han venido arrastrando durante años.

Dónde flaquea

Fidelidad para impresión. Para campañas de marca, publicidad de pago o cualquier cosa destinada a medios físicos, se nota el techo de resolución y detalle. Imagen 3 es el modelo correcto de Google para ese trabajo. Nano Banana es el modelo correcto para la fase de iteración que lo precede.

Precisión composicional. Los prompts con requisitos espaciales rígidos —"tres manzanas a la izquierda, dos peras a la derecha, un cuchillo entre ellas a 45 grados"— producen salidas que son aproximadas pero raramente exactas. Para trabajo de tipo diagrama o cualquier cosa que requiera elementos contados y posicionados, la salida es un boceto, no un entregable.

Semejanza de personas reales. Los prompts de figuras públicas están bloqueados. La política es suficientemente conservadora como para que parte del trabajo creativo legítimo que usa la semejanza quede atrapado en el filtro. Planifique lógica de reintento con reformulación en cualquier característica de producto que toque este territorio.

Fotorrealismo en el tier más alto. Los rostros en multitudes densas se difuminan. Las manos han mejorado pero no están resueltas. Los reflejos especulares complejos en metal y cristal siguen produciendo el aspecto suave ligeramente plástico que caracteriza las salidas de difusión de tier Flash.

Frente al campo

Nano Banana compite con chatgpt-image-latest de OpenAI, la familia Flux de Black Forest Labs, la generación más reciente de Midjourney y el Nano Banana Pro más grande en la propia línea de Google.

Cada uno tiene su temperamento. La superficie de OpenAI se adhiere estrechamente al prompt literal y favorece el realismo fotográfico. Midjourney se inclina hacia la estética pictórica y produce salidas visualmente llamativas que a veces se alejan de los detalles específicos del prompt. Flux es el más sólido de las opciones de peso abierto para equipos que necesitan auto-alojar. La ventaja de preservación de identidad de Nano Banana es el diferenciador que más importa para las características de producto de edición conversacional.

Para prompts que necesitan una estética estilizada específica, compare entre modelos en ejemplos representativos antes de comprometerse. La elección correcta es específica de la carga de trabajo y las descripciones de las tarjetas de modelo no son suficientemente detalladas como para sustituir a la medición.

Notas de despliegue

La API es la superficie multimodal estándar de Gemini. Se pasan entradas de texto e imagen en la misma solicitud, se reciben bytes de imagen más salida de texto opcional. Los patrones de uso de herramientas que enrutan entre modelos de comprensión de visión y modelos de generación de imágenes pueden ejecutarse dentro de un único bucle de agente sin cambiar de SDK.

Los filtros de seguridad son conservadores y el límite de política cambia entre el canal de vista previa pública y la superficie de AI Studio de Google. Los despliegues de producción necesitan una capa de reintento con reformulación que gestione los rechazos con elegancia: a veces el mismo prompt con una redacción ligeramente diferente pasa limpiamente.

La disponibilidad regional sigue la línea Gemini más amplia. El acceso directo a la API a través de los endpoints de Google está disponible globalmente con las advertencias estándar sobre residencia regional. Para equipos con requisitos estrictos de residencia en la UE, Vertex AI ofrece despliegues regionales bajo contratos separados.

La latencia varía con la resolución de salida y la complejidad de la solicitud. El nombre Flash se mantiene: las características de producto interactivas construidas sobre Nano Banana se sienten reactivas incluso cuando se encadenan a través de múltiples ediciones en una sola sesión de usuario.

Cuándo elegirlo

Use Nano Banana cuando necesite:

  • Preservación de identidad a través de una cadena de ediciones conversacionales.
  • Prompts multilingües gestionados de forma nativa sin pipelines de traducción.
  • Latencia suficientemente baja para características de imagen interactivas dentro de la aplicación.
  • Composición multimodal a partir de múltiples imágenes de referencia en una sola llamada.

Busque otra opción cuando:

  • Los activos finales necesiten fidelidad para impresión: Imagen 3 es el modelo correcto de Google.
  • Necesite salida de vídeo, no imágenes fijas: Veo es la familia relevante.
  • La precisión composicional rígida es un requisito: ningún modelo de tier de difusión es fiable aquí.
  • La semejanza de personas reales forma parte del encargo: las restricciones de política hacen de esta superficie un callejón sin salida para esa carga de trabajo.

Para una comparación más amplia de generación de imágenes, consulte chatgpt-image-latest y el hermano mayor Nano Banana Pro.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Nano Banana — illustration 2Nano Banana — illustration 3
Última prueba automática
14 jun 2026 · 04:14 UTC · Benchmark
Latencia P50
1808 ms
Latencia P95
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026