
Nano Banana Pro es la cima del stack de generación de imágenes de Google. Tras el nombre amigable para el consumidor se encuentra gemini-3-pro-image-preview, un modelo de tier de vista previa que produce imágenes fijas a partir de prompts de texto y, en la misma llamada, puede editar o ampliar imágenes proporcionadas. Es el tercer lanzamiento en la línea Nano Banana, tras el original (construido sobre Gemini 2.5 Flash Image) y Nano Banana 2 (sobre la vista previa Flash 3.1). La rama "Pro" es lo que Google posiciona frente a gpt-image-2 de OpenAI y el campo más amplio de generadores comerciales de pago.
Esta página trata sobre la versión de vista previa. Las capacidades y los precios cambian durante la vista previa; trate cualquier elemento a continuación como una instantánea.
En qué destaca
Tres áreas sobresalen en pruebas prácticas.
Salida fotorrealista sin aspecto plástico. Los lanzamientos anteriores de Nano Banana tenían un estilo de casa reconocible: piel ligeramente cerosa, color sobresaturado, ese brillo distintivo de "renderizado por IA" en las superficies metálicas. La versión Pro reduce mucho de eso. Los retratos parecen fotografías en lugar de CGI con más frecuencia. El modelo aún tiene señales si se mira de cerca, pero la brecha con un fotógrafo cuidadoso con un softbox se ha estrechado de una manera que la versión anterior no había logrado.
Edición de imágenes existentes. Se le pasa una fotografía más un prompt como "elimina a la persona de la izquierda, amplía el fondo, mantén la iluminación" y lo hace en un solo paso. El inpainting y el outpainting no son endpoints separados; son la misma llamada con una imagen adjunta. Aquí es donde Nano Banana Pro se adelanta claramente a los generadores de un solo paso que tienen que ir y volver por una interfaz de edición de máscaras.
Texto dentro de imágenes. Una debilidad de larga data de los modelos de difusión, las letras ininteligibles en carteles y los logotipos deformados, mejora significativamente aquí. Los eslóganes cortos, las etiquetas de producto y los títulos de gráficos se renderizan correctamente la mayor parte del tiempo. Los párrafos largos de texto aún se rompen. Si necesita cuerpo de texto preciso dentro de una imagen, sigue componiendo después.
Qué no hace
Nano Banana Pro es un generador de imágenes. No produce vídeo. No genera audio. El número de contexto de 131 072 tokens que puede ver en las tablas de especificaciones se refiere a cuánto texto acepta el modelo en un único prompt. Eso es útil cuando se pega una guía de estilo de marca detallada; no es útil para alimentarle un documento de 200 páginas.
También es un generador, no un copiador perfecto. La reproducción de marcas, los retratos de semejanza exacta de personas reales y los logotipos de marcas registradas se encuentran dentro de los guardianes de seguridad y política que Google ha establecido en la vista previa. Algunos de esos guardianes se relajarán en la disponibilidad general; otros no. Si su flujo de trabajo depende de reproducir un rostro específico o un logotipo específico con fidelidad a nivel de píxel, la respuesta es una herramienta diferente, normalmente un modelo que se ajusta a medida en el propio activo en cuestión.
Salida, resolución, latencia
El modelo produce imágenes en varias relaciones de aspecto predefinidas: cuadrada, retrato 9:16, paisaje 16:9, más algunas intermedias. La resolución de salida depende de la relación que se elija, pero el máximo práctico se sitúa en el extremo alto de lo que se usaría para una imagen de héroe en un sitio web sin escalado. Para impresión en A3 o mayor, sigue siendo necesario un paso de escalado dedicado tras la generación.
El tiempo de generación por imagen se sitúa en los segundos de un solo dígito para un prompt estándar con la configuración predeterminada. Los prompts complejos con imágenes de referencia adjuntas, o las operaciones de edición en una entrada de alta resolución, pueden llegar a diez o quince segundos. En comparación con la generación anterior de Nano Banana esto no es notablemente más rápido, pero es más consistente: se ve menos varianza entre una llamada rápida y una lenta desafortunada.
Para una comparación entre modelos de imagen en igualdad de condiciones, las pruebas continuas en /benchmarks/speed son una mejor fuente que las hojas de especificaciones.
Estilo de prompting
Nano Banana Pro responde bien a los prompts en lenguaje natural. No se necesita la pila de palabras clave separadas por comas que los modelos de difusión de la era SD-1.5 requerían. Una oración o dos describiendo la escena, la iluminación, la cámara y el ambiente suele ser suficiente.
También acepta dirección negativa en inglés sencillo. "Sin personas en el fondo." "Luz diurna, no atardecer." "Fotográfico, no ilustrado." Esto funciona tan bien como las marcas de parámetros. Eso lo hace accesible para usuarios no técnicos; los equipos de marketing le dan instrucciones al modelo de la misma forma que lo harían con un diseñador junior. También puede frustrar a los ingenieros de prompts que quieren un control detallado. Aún no hay equivalente a los pesos de prompt negativo finamente ajustados en los que confían los usuarios avanzados en los forks de difusión de peso abierto.
Para comparar cómo diferentes modelos de imagen manejan el mismo encargo, la página /usecases/content es el punto de partida correcto.
Dónde encaja y dónde no
Use Nano Banana Pro cuando quiera:
- Visuales de marketing, piezas para redes sociales y creativos publicitarios con aspecto fotográfico.
- Ediciones rápidas de imágenes existentes: eliminar un objeto, ampliar un fondo, cambiar una estación.
- Variaciones de fotografía de producto a partir de una sola foto de referencia.
- Imágenes de estilo de vida para publicaciones de blog y páginas de aterrizaje donde la fotografía de stock sería la alternativa obvia.
Elija otra opción cuando necesite:
- Reproducción de activos de marca a nivel de píxel. Entrene un modelo ajustado a medida en su propia biblioteca de activos.
- Garantías estrictas de uso comercial en cada salida durante la vista previa. Lea los términos actuales de Google detenidamente antes de utilizar salidas de vista previa en canales orientados al cliente.
- Generación en dispositivo o completamente sin conexión. Nano Banana Pro es solo API. Para pipelines creativos que priorizan lo local, el resumen /usecases/local enumera las opciones de peso abierto más pequeñas que vale la pena conocer.
- Texto largo renderizado dentro de la imagen. Componga.
Frente a las alternativas obvias
La decisión generalmente se reduce a tres familias: este tier Pro, gpt-image-2 de OpenAI y los tiers rápidos más pequeños (Nano Banana 2 sobre la vista previa Flash 3.1, y gpt-image-1-mini).
El tier Pro gana en retratos fotorrealistas y en calidad del modo de edición. gpt-image-2 de OpenAI gana en cierto trabajo de ilustración estilizada y en la adherencia al prompt cuando el prompt es inusual o paradójico. Los tiers rápidos más pequeños ganan en coste y en latencia cuando se generan docenas de variaciones para elegir una. Ninguno de estos es definitivo. Ejecute los mismos cinco prompts en los tres antes de comprometer a su equipo con uno de ellos.
El desglose completo por categorías rota mensualmente en /benchmarks/leaderboard.
Dos notas prácticas antes de empezar
Primera: vista previa significa vista previa. Los endpoints pueden cambiar sin mucho aviso, y las salidas que genera hoy pueden no ser reproducibles contra el mismo prompt el mes que viene. Construya su pipeline para que cambiar el modelo sea un cambio de configuración, no una refactorización.
Segunda: revise sus salidas. Los modelos de imagen siguen produciendo artefactos ocasionales: seis dedos, orejas derretidas, una silla con tres patas. Pro reduce la tasa en comparación con sus predecesores, pero no la elimina. Cualquier cosa que vaya ante un cliente debe pasar por un ojo humano primero.
Pruébelo en /live-test. Lado a lado con las alternativas, con su propio prompt.
Última revisión técnica: 2026-05-22 — Tokonomix.ai
