
gpt-image-2 es la actualización de segunda generación del stack de imágenes dedicado de OpenAI y la versión donde la historia de edición pasa de útil a genuinamente potente. Mientras que gpt-image-1 unificó generación y edición en un único endpoint, gpt-image-2 hace que el paso de edición sea lo suficientemente bueno como para construir flujos de trabajo de producción en torno al refinamiento iterativo en lugar de echar los dados en cada nueva generación.
Qué aporta
La fidelidad composicional es la mejora destacada. Las escenas con múltiples sujetos con relaciones espaciales definidas, consistencia de iluminación entre sujetos e interacciones físicamente plausibles aterrizan de manera más fiable que en cualquier lanzamiento previo de imágenes de OpenAI. Si le indicas al modelo que coloque tres personas alrededor de una mesa con un objeto específico entre ellas, ahora tienes una posibilidad razonable de obtener exactamente eso en lugar de un casi-acierto.
La renderización de texto dentro de las imágenes es genuinamente buena por primera vez en el linaje de OpenAI. Texto multilínea, tamaños de fuente mixtos y texto dentro de composiciones complejas son utilizables para trabajo de producción. Esto importa más para creatividad de marketing, donde la brecha entre gpt-image-1.5 y gpt-image-2 en un anuncio de banner con texto superpuesto es la diferencia entre enviar la salida y devolverla a un diseñador.
El patrón de endpoint unificado se mantiene. Todavía llamas a una única API para generación, edición, inpainting y variaciones. El comportamiento de edición es más preciso en esta versión. Las ediciones permanecen localizadas en la región enmascarada sin filtrar estructura de la imagen circundante, lo cual era un modo de falla recurrente en versiones anteriores.
Notas de arquitectura
OpenAI no ha publicado detalles arquitectónicos. A partir del comportamiento observable, el modelo maneja densidad de prompts mucho mayor que gpt-image-1 sin degradarse en prompts largos o composicionalmente complejos. La resolución de salida tiene un tope en el mismo límite nativo de 2048×2048, con los mismos preajustes de relación de aspecto, aunque la ruta de ampliación a través de la API produce salidas de gran formato más limpias que la generación anterior.
La anatomía de manos y dedos está muy mejorada. Las tasas de falla son lo suficientemente bajas como para que en la mayoría de flujos de trabajo ya no necesites un pase dedicado de verificación de anatomía. Todavía quieres un revisor humano para salida premium, pero el presupuesto para esa revisión es menor.
La consistencia de estilo a través de una serie de imágenes relacionadas es genuinamente mejor que gpt-image-1. Si generas diez variaciones sobre un tema, gpt-image-2 mantiene la estética a lo largo del conjunto de manera más fiable. Esto importa para trabajo de narrativa, secuencias estilo cómic y cualquier salida donde la continuidad visual a través de múltiples cuadros es parte del brief.
Donde falla
Los humanos de identidad específica a través de una serie siguen siendo un límite. El modelo es bueno en humanos fotorrealistas genéricos y en personajes estilizados consistentes, pero si necesitas que un personaje específico nombrado aparezca idénticamente a través de cien imágenes, un stack de difusión controlable con condicionamiento de imagen de referencia todavía gana. Esto es un límite de categoría de cómo está diseñado el modelo en lugar de una brecha de calidad.
Los diagramas industriales con precisión dimensional estricta no son un punto fuerte. El modelo produce algo que parece un diagrama técnico pero no se puede confiar en él para precisión de grado ingenieril. El trabajo adyacente a CAD pertenece al software CAD, no en un modelo generativo.
El texto muy pequeño dentro de las imágenes, por debajo de aproximadamente veinte píxeles por carácter en la resolución de salida, sigue siendo inconsistente. Para texto de especificación denso o letra pequeña, todavía quieres superponer texto real en tu código de aplicación en lugar de confiar en que el modelo lo renderice.
Eligiéndolo
Para trabajo nuevo de generación de imágenes donde quieres lo mejor del catálogo de OpenAI y puedes absorber el coste del nivel premium, gpt-image-2 es la opción predeterminada. La instantánea fechada gpt-image-2-2026-04-21 es la versión para anclar en flujos de trabajo regulados o donde sea que la reproducibilidad importe.
Para trabajo de alto volumen donde el coste por imagen domina, gpt-image-1-mini es el nivel presupuestario y gpt-image-1.5 es el término medio de nivel medio. La elección entre estos y gpt-image-2 es principalmente económica en lugar de una de calidad, dado que los tres producen salida utilizable para la mayoría de flujos de trabajo.
Entre proveedores, nano-banana-pro-preview es el competidor más cercano en el nivel premium. Gana en algunas estéticas estilizadas y pierde en renderización de texto dentro de imágenes. Haz benchmark en tu distribución real de prompts antes de comprometerte, porque el ranking relativo entre gpt-image-2 y Nano Banana Pro se invierte dependiendo de qué tipo de trabajo envías más frecuentemente.
La residencia de datos de la UE todavía no se satisface por defecto. El patrón de gateway regional es la solución temporal para despliegues europeos regulados, y todavía no hay señal de que OpenAI ofrezca endpoints de imagen alojados en la UE en el corto plazo.
Última revisión técnica: 2026-05-22 — Tokonomix.ai
