
gpt-image-1 est le modèle qui a finalement mis à la retraite la marque DALL-E au sein de la pile d'images d'OpenAI. Il est exposé via l'API standard plutôt qu'uniquement via la surface produit de ChatGPT, ce qui importe pour les équipes qui construisent de vraies fonctionnalités produit plutôt que d'expérimenter dans une fenêtre de chat. La génération, l'édition et l'inpainting sont unifiés en un seul endpoint, ce qui constitue le changement architectural qui élimine la majeure partie des frictions d'intégration dont souffrait la génération DALL-E.
Ce qu'il produit
Le modèle gère une large gamme stylistique : scènes photoréalistes, illustration numérique, aquarelle, isométrique, typographie stylisée, mises en page infographiques. La cohérence compositionnelle est l'amélioration la plus visible par rapport à DALL-E 3. Les scènes complexes avec plusieurs sujets, des sujets en premier plan et en arrière-plan en perspective cohérente, et le texte rendu à l'intérieur de l'image sont nettement plus fiables. Le texte en particulier a franchi le seuil qui le faisait passer d'un tour de salon à quelque chose que vous pouvez livrer dans un actif marketing sans nettoyage manuel la plupart du temps.
Les résolutions de sortie atteignent nativement jusqu'à 2048×2048, avec des préréglages de ratio d'aspect pour le paysage, le portrait et le carré. Les préréglages ne sont pas cosmétiques. Le modèle compose véritablement pour le ratio d'aspect cible plutôt que de générer en carré puis de recadrer, ce qui est ce que faisaient effectivement les générateurs plus anciens en coulisses.
L'histoire de l'édition
L'endpoint unifié est la partie qui change la façon dont vous architecturez les fonctionnalités d'image. Avec la génération DALL-E, vous deviez appeler un modèle pour les nouvelles images et un workflow distinct pour les éditions, l'inpainting et les variations. gpt-image-1 fait s'effondrer cela. Passez une image de base plus un masque plus un prompt et vous obtenez un inpaint. Passez deux images et une instruction et vous obtenez une édition compositionnelle. Le modèle mental pour le développeur est beaucoup plus simple, et la pile opérationnelle est beaucoup plus mince.
Le compromis est que la qualité du masque compte plus qu'elle ne le faisait lorsque vous aviez des endpoints spécialisés. Un masque bâclé vous donne une édition bâclée. La plupart des déploiements en production finissent par ajouter une étape légère de raffinement de masque côté client ou par s'appuyer sur Segment Anything ou un outillage similaire pour nettoyer le masque avant d'appeler gpt-image-1.
Où il échoue
La typographie fine à petites tailles reste incohérente. Les titres et le texte en grand format fonctionnent bien. Le corps de texte à quinze pixels par caractère ne fonctionne pas. Si votre cas d'usage consiste à générer des mises en page denses avec du texte de légende ou des étiquettes de spécifications, vous aurez toujours besoin d'un designer dans la boucle ou d'une passe de superposition typographique.
Les mains et les pieds restent le point faible perpétuel, bien que le taux d'échec soit beaucoup plus bas qu'à l'époque de DALL-E. Vous aurez encore une main à six doigts de temps en temps dans des scènes chargées. Les workflows de production qui génèrent à l'échelle devraient toujours prévoir un budget pour une passe de révision humaine ou de détection automatisée avant publication.
Le contrôle compositionnel sur plusieurs sujets dans des relations spatiales définies est amélioré mais non résolu. Demander deux personnes spécifiques dans des poses spécifiques interagissant d'une manière spécifique produit souvent un résultat où le modèle obtient les personnes correctement et l'interaction approximativement. Les snapshots plus récents gpt-image-1.5 et gpt-image-2 améliorent cela si vous êtes prêt à quitter la version originale.
Quand y recourir et quoi d'autre considérer
gpt-image-1 est le bon point de départ si vous voulez un comportement prévisible d'un modèle qui a été en production assez longtemps pour que les modes de défaillance soient bien documentés et que la communauté de prompt engineering ait cartographié la plupart des recoins. Pour les nouvelles constructions où vous voulez le dernier comportement, gpt-image-1.5 ou gpt-image-2 sont les mises à niveau évidentes. Pour des travaux plus légers ou à plus haut volume où vous n'avez pas besoin de l'enveloppe de qualité complète, gpt-image-1-mini est le frère économe.
En dehors du catalogue OpenAI, la pile d'images de Google est la principale alternative. gemini-2.5-flash-image, souvent appelé Nano Banana, est compétitif sur la sortie photoréaliste et plus solide sur certains styles stylisés. nano-banana-pro-preview se situe au sommet de l'enveloppe de qualité d'image de Google. Le choix entre OpenAI et Google pour le travail d'image tend à se résumer à quel LLM conversationnel vous êtes déjà intégré, car garder la génération d'images dans la même pile fournisseur simplifie la facturation, l'IAM et l'observabilité.
Pour les déploiements européens qui nécessitent une résidence des données dans l'UE, ni les endpoints d'images d'OpenAI ni ceux de Google ne répondent actuellement à la barre prête à l'emploi. Vous acceptez soit le traitement transfrontalier, soit vous passez à un fournisseur régional avec des enveloppes de capacités plus petites. Il n'y a pas encore de troisième option propre pour la génération d'images de haute qualité à l'intérieur des frontières de l'UE.
Dernière revue technique : 2026-05-22 — Tokonomix.ai
