
El nombre oficial de Google es Gemini 2.5 Flash Image. Internet lo llama Nano Banana, por el seudónimo con el que el modelo apareció en LMArena antes de que Google lo reconociera públicamente. La historia del nombre es lo más encantador del modelo. El conjunto de capacidades es lo sustancial.
Nano Banana es el endpoint de generación de imágenes de Google con entrada de texto e imagen en el tier Flash de Gemini. Diseñado para velocidad, iteración conversacional y preservación de identidad a través de ediciones, no para fotografías de campaña de alta resolución.
Para qué sirve el modelo
Generación de imágenes multimodal. Se pasa un prompt que mezcla texto e imágenes de referencia en cualquier orden, y el modelo devuelve una salida de imagen que incorpora ambos. Tres formas de solicitud aparecen una y otra vez.
Texto a imagen con referencias de estilo. "Haz una fotografía de producto de una taza de café, al estilo de estas tres imágenes de referencia." El modelo trata las referencias como instrucción visual en lugar de algo que copiar, lo cual es un comportamiento diferente al antiguo enfoque de aplanar todo en texto de prompt.
Edición de imagen mediante lenguaje natural. "Cambia el fondo por una playa al atardecer." "Elimina la mano en el lado izquierdo del encuadre." "Pon la camiseta roja en lugar de azul." El modelo preserva el resto de la imagen en lugar de redibujarlo desde cero. Para la edición conversacional de ida y vuelta, esta es la capacidad principal.
Composición a partir de referencias. "Usa la iluminación de la primera foto, el atuendo de la segunda y la pose de la tercera." Las referencias permanecen activas en la atención del modelo en lugar de colapsar en una sola sugerencia de estilo. La ventana de contexto de texto de 32 768 tokens importa aquí principalmente porque deja espacio para múltiples imágenes de referencia más texto de prompt detallado en una sola llamada.
Dónde brilla
Preservación de identidad a través de ediciones. Un personaje, producto o escena permanece reconocible a través de una cadena de refinamientos conversacionales. Esta es la capacidad en la que los modelos de imagen de la competencia han sido históricamente más débiles, y la ventaja de Nano Banana aquí es real.
Prompts multilingües. El mandarín, hindi, árabe y los principales idiomas europeos producen salidas coherentes sin necesidad de artimañas de traducción de prompts. Para productos que atienden a audiencias no anglófonas, esto elimina una capa de complejidad del pipeline.
Velocidad. Latencia de tier Flash, lo que significa que la generación de imágenes se completa lo suficientemente rápido como para ponerlo detrás de un botón "remezclar" en un producto orientado al usuario. El perfil de latencia es la parte que ganó el nombre Flash.
Texto dentro de imágenes. El texto corto —señalización, superposiciones de dos a cuatro palabras, etiquetas de producto— resulta legible con más frecuencia que no. Los pasajes más largos siguen produciendo el galimatías tipográfico que los modelos adyacentes a difusión en este tier han venido arrastrando durante años.
Dónde flaquea
Fidelidad para impresión. Para campañas de marca, publicidad de pago o cualquier cosa destinada a medios físicos, se nota el techo de resolución y detalle. Imagen 3 es el modelo correcto de Google para ese trabajo. Nano Banana es el modelo correcto para la fase de iteración que lo precede.
Precisión composicional. Los prompts con requisitos espaciales rígidos —"tres manzanas a la izquierda, dos peras a la derecha, un cuchillo entre ellas a 45 grados"— producen salidas que son aproximadas pero raramente exactas. Para trabajo de tipo diagrama o cualquier cosa que requiera elementos contados y posicionados, la salida es un boceto, no un entregable.
Semejanza de personas reales. Los prompts de figuras públicas están bloqueados. La política es suficientemente conservadora como para que parte del trabajo creativo legítimo que usa la semejanza quede atrapado en el filtro. Planifique lógica de reintento con reformulación en cualquier característica de producto que toque este territorio.
Fotorrealismo en el tier más alto. Los rostros en multitudes densas se difuminan. Las manos han mejorado pero no están resueltas. Los reflejos especulares complejos en metal y cristal siguen produciendo el aspecto suave ligeramente plástico que caracteriza las salidas de difusión de tier Flash.
Frente al campo
Nano Banana compite con chatgpt-image-latest de OpenAI, la familia Flux de Black Forest Labs, la generación más reciente de Midjourney y el Nano Banana Pro más grande en la propia línea de Google.
Cada uno tiene su temperamento. La superficie de OpenAI se adhiere estrechamente al prompt literal y favorece el realismo fotográfico. Midjourney se inclina hacia la estética pictórica y produce salidas visualmente llamativas que a veces se alejan de los detalles específicos del prompt. Flux es el más sólido de las opciones de peso abierto para equipos que necesitan auto-alojar. La ventaja de preservación de identidad de Nano Banana es el diferenciador que más importa para las características de producto de edición conversacional.
Para prompts que necesitan una estética estilizada específica, compare entre modelos en ejemplos representativos antes de comprometerse. La elección correcta es específica de la carga de trabajo y las descripciones de las tarjetas de modelo no son suficientemente detalladas como para sustituir a la medición.
Notas de despliegue
La API es la superficie multimodal estándar de Gemini. Se pasan entradas de texto e imagen en la misma solicitud, se reciben bytes de imagen más salida de texto opcional. Los patrones de uso de herramientas que enrutan entre modelos de comprensión de visión y modelos de generación de imágenes pueden ejecutarse dentro de un único bucle de agente sin cambiar de SDK.
Los filtros de seguridad son conservadores y el límite de política cambia entre el canal de vista previa pública y la superficie de AI Studio de Google. Los despliegues de producción necesitan una capa de reintento con reformulación que gestione los rechazos con elegancia: a veces el mismo prompt con una redacción ligeramente diferente pasa limpiamente.
La disponibilidad regional sigue la línea Gemini más amplia. El acceso directo a la API a través de los endpoints de Google está disponible globalmente con las advertencias estándar sobre residencia regional. Para equipos con requisitos estrictos de residencia en la UE, Vertex AI ofrece despliegues regionales bajo contratos separados.
La latencia varía con la resolución de salida y la complejidad de la solicitud. El nombre Flash se mantiene: las características de producto interactivas construidas sobre Nano Banana se sienten reactivas incluso cuando se encadenan a través de múltiples ediciones en una sola sesión de usuario.
Cuándo elegirlo
Use Nano Banana cuando necesite:
- Preservación de identidad a través de una cadena de ediciones conversacionales.
- Prompts multilingües gestionados de forma nativa sin pipelines de traducción.
- Latencia suficientemente baja para características de imagen interactivas dentro de la aplicación.
- Composición multimodal a partir de múltiples imágenes de referencia en una sola llamada.
Busque otra opción cuando:
- Los activos finales necesiten fidelidad para impresión: Imagen 3 es el modelo correcto de Google.
- Necesite salida de vídeo, no imágenes fijas: Veo es la familia relevante.
- La precisión composicional rígida es un requisito: ningún modelo de tier de difusión es fiable aquí.
- La semejanza de personas reales forma parte del encargo: las restricciones de política hacen de esta superficie un callejón sin salida para esa carga de trabajo.
Para una comparación más amplia de generación de imágenes, consulte chatgpt-image-latest y el hermano mayor Nano Banana Pro.
Última revisión técnica: 2026-05-22 — Tokonomix.ai

