
gpt-image-2 est le rafraîchissement de deuxième génération de la pile d'images dédiée d'OpenAI et la version où l'édition passe d'utile à véritablement puissante. Là où gpt-image-1 unifiait la génération et l'édition dans un seul endpoint, gpt-image-2 rend la passe d'édition suffisamment bonne pour bâtir des workflows de production autour d'un raffinement itératif plutôt que de jouer aux dés à chaque nouvelle génération.
Ce qu'il apporte
La fidélité compositionnelle est l'amélioration phare. Les scènes multi-sujets avec des relations spatiales définies, la cohérence d'éclairage entre sujets et les interactions physiquement plausibles sont restituées plus fiablement que dans toute version d'image OpenAI précédente. Si vous briefez le modèle pour placer trois personnes autour d'une table avec un objet spécifique entre elles, vous avez désormais une chance raisonnable de récupérer exactement cela plutôt qu'un quasi-résultat.
Le rendu de texte à l'intérieur des images est véritablement bon pour la première fois dans la lignée OpenAI. Le texte multi-lignes, les tailles de police mixtes et les textes au sein de compositions complexes sont exploitables pour du travail de production. Cela compte le plus pour les créations marketing, où l'écart entre gpt-image-1.5 et gpt-image-2 sur une bannière publicitaire avec texte en surimpression fait la différence entre livrer le résultat et le renvoyer à un designer.
Le pattern d'endpoint unifié est maintenu. Vous appelez toujours une seule API pour la génération, l'édition, l'inpainting et les variations. Le comportement d'édition est plus précis dans cette version. Les modifications restent localisées dans la région masquée sans fuite de structure depuis l'image environnante, ce qui était un mode de défaillance récurrent dans les versions antérieures.
Notes d'architecture
OpenAI n'a pas publié de détails architecturaux. D'après le comportement observable, le modèle gère une densité de prompt beaucoup plus élevée que gpt-image-1 sans se dégrader sur les prompts longs ou compositionnellement complexes. La résolution de sortie plafonne au même plafond natif 2048×2048, avec les mêmes presets de ratio d'aspect, bien que le chemin d'upscaling via l'API produise des sorties grand format plus propres que la génération précédente.
L'anatomie des mains et des doigts est nettement améliorée. Les taux d'échec sont suffisamment faibles pour que, dans la plupart des workflows, vous n'ayez plus besoin d'une passe de vérification anatomique dédiée. Vous voulez toujours un relecteur humain pour les livrables premium, mais le budget de cette relecture est plus modeste.
La cohérence stylistique sur une série d'images apparentées est véritablement meilleure que gpt-image-1. Si vous générez dix variations sur un thème, gpt-image-2 maintient l'esthétique sur l'ensemble de manière plus fiable. Cela compte pour les travaux narratifs, les séquences de style BD et toute sortie où la continuité visuelle entre plusieurs cadres fait partie du brief.
Là où il déçoit
Les humains à identité spécifique sur une série restent une limite. Le modèle est bon sur les humains photoréalistes génériques et sur les personnages stylisés cohérents, mais si vous avez besoin qu'un personnage spécifique nommé apparaisse de manière identique sur cent images, une pile de diffusion contrôlable avec conditionnement par image de référence gagne toujours. C'est une limite de catégorie liée à la conception du modèle plutôt qu'un écart de qualité.
Les schémas industriels avec une précision dimensionnelle stricte ne sont pas un point fort. Le modèle produit quelque chose qui ressemble à un schéma technique mais on ne peut pas s'y fier pour une précision de niveau ingénierie. Le travail proche de la CAO appartient à un logiciel de CAO, pas à un modèle génératif.
Le texte très petit à l'intérieur des images, en dessous d'environ vingt pixels par caractère à la résolution de sortie, est encore inconsistant. Pour les textes de spécifications denses ou les mentions légales, vous voulez toujours superposer du vrai texte dans le code de votre application plutôt que de compter sur le rendu par le modèle.
Le choisir
Pour de nouveaux travaux de génération d'images où vous voulez le meilleur du catalogue OpenAI et où vous pouvez absorber le coût du palier premium, gpt-image-2 est le choix par défaut. Le snapshot daté gpt-image-2-2026-04-21 est la version à épingler dans les workflows réglementés ou partout où la reproductibilité compte.
Pour les travaux à fort volume où le coût par image domine, gpt-image-1-mini est le palier économique et gpt-image-1.5 est l'entre-deux de milieu de gamme. Le choix entre ces options et gpt-image-2 est principalement économique plutôt que qualitatif, étant donné que les trois produisent des sorties exploitables pour la plupart des workflows.
Côté multi-fournisseurs, nano-banana-pro-preview est le concurrent le plus proche au palier premium. Il l'emporte sur certaines esthétiques stylisées et perd sur le rendu de texte à l'intérieur des images. Faites un benchmark sur votre distribution réelle de prompts avant de vous engager, car le classement relatif entre gpt-image-2 et Nano Banana Pro s'inverse selon le type de travail que vous livrez le plus souvent.
La résidence des données en UE n'est toujours pas satisfaite par défaut. Le pattern de passerelle régionale est le contournement pour les déploiements européens réglementés, et il n'y a encore aucun signal indiquant qu'OpenAI proposera des endpoints d'images hébergés en UE à court terme.
Dernière revue technique : 2026-05-22 — Tokonomix.ai
