
gpt-image-1 ist das Modell, mit dem das DALL-E-Branding innerhalb des OpenAI-Bildstacks endgültig in den Ruhestand geschickt wurde. Es wird über die Standard-API verfügbar gemacht und nicht nur über die Produktoberfläche von ChatGPT, was für Teams entscheidend ist, die echte Produktfeatures bauen, statt im Chatfenster zu experimentieren. Generierung, Bearbeitung und Inpainting sind in einem einzigen Endpunkt vereinheitlicht, und genau diese architektonische Änderung beseitigt den Großteil der Integrationsreibung, unter der die DALL-E-Generation gelitten hat.
Was es erzeugt
Das Modell deckt eine breite stilistische Bandbreite ab: fotorealistische Szenen, digitale Illustration, Aquarell, isometrische Darstellungen, stilisierte Typografie, Infografik-Layouts. Die kompositorische Kohärenz ist die sichtbarste Verbesserung gegenüber DALL-E 3. Komplexe Szenen mit mehreren Subjekten, Vorder- und Hintergrundobjekten in kohärenter Perspektive sowie Text, der direkt im Bild gerendert wird, sind spürbar zuverlässiger. Vor allem Text hat die Schwelle vom Partytrick zu etwas überschritten, das man in einem Marketing-Asset meistens ohne manuelle Nachbearbeitung ausliefern kann.
Die Ausgabeauflösungen reichen nativ bis 2048×2048, mit Seitenverhältnis-Presets für Landschaft, Porträt und Quadrat. Diese Presets sind nicht nur kosmetisch. Das Modell komponiert tatsächlich für das Zielseitenverhältnis, anstatt quadratisch zu generieren und anschließend zuzuschneiden, wie es ältere Generatoren unter der Haube faktisch getan haben.
Die Editing-Geschichte
Der vereinheitlichte Endpunkt ist der Teil, der die Architektur von Bildfunktionen verändert. In der DALL-E-Generation musste man ein Modell für neue Bilder aufrufen und einen separaten Workflow für Bearbeitungen, Inpainting und Varianten verwenden. gpt-image-1 bricht das zusammen. Übergeben Sie ein Basisbild plus eine Maske plus einen Prompt, und Sie erhalten ein Inpaint. Übergeben Sie zwei Bilder und eine Anweisung, und Sie bekommen einen kompositorischen Edit. Das mentale Modell für Entwicklerinnen und Entwickler wird deutlich einfacher, und der operative Stack wird deutlich schlanker.
Der Kompromiss: Die Maskenqualität spielt eine größere Rolle als zu Zeiten spezialisierter Endpunkte. Eine schlampige Maske erzeugt einen schlampigen Edit. Die meisten Produktiv-Deployments fügen daher einen leichtgewichtigen clientseitigen Schritt zur Maskenverfeinerung hinzu oder setzen auf Segment Anything oder ähnliches Tooling, um die Maske vor dem Aufruf von gpt-image-1 zu bereinigen.
Wo es schwächelt
Feine Typografie in kleinen Größen ist nach wie vor inkonsistent. Überschriften und großformatiger Text funktionieren gut. Fließtext mit fünfzehn Pixeln pro Zeichen nicht. Wenn Ihr Anwendungsfall darin besteht, dichte Layouts mit Bildunterschriften oder Spezifikations-Labels zu generieren, brauchen Sie weiterhin einen Designer im Workflow oder einen separaten Typografie-Overlay-Schritt.
Hände und Füße bleiben der ewige Schwachpunkt, auch wenn die Fehlerquote deutlich niedriger ist als zu DALL-E-Zeiten. In belebten Szenen werden Sie weiterhin gelegentlich eine sechsfingrige Hand bekommen. Produktions-Workflows, die in großem Maßstab generieren, sollten daher weiterhin Budget für eine menschliche Prüfung oder einen automatisierten Erkennungsdurchlauf vor der Veröffentlichung einplanen.
Kompositorische Kontrolle über mehrere Subjekte in definierten räumlichen Beziehungen ist verbessert, aber nicht gelöst. Wenn Sie zwei bestimmte Personen in bestimmten Posen in einer bestimmten Interaktion anfordern, erhalten Sie häufig ein Ergebnis, bei dem das Modell die Personen richtig hinbekommt und die Interaktion nur annähernd. Die neueren Snapshots gpt-image-1.5 und gpt-image-2 verbessern dies, wenn Sie bereit sind, vom Originalrelease abzurücken.
Wann es die richtige Wahl ist und was sonst infrage kommt
gpt-image-1 ist der richtige Ausgangspunkt, wenn Sie vorhersehbares Verhalten von einem Modell wollen, das lange genug produktiv ist, dass die Failure Modes gut dokumentiert sind und die Prompt-Engineering-Community die meisten Ecken kartiert hat. Für Neuentwicklungen, bei denen Sie das aktuellste Verhalten wollen, sind gpt-image-1.5 oder gpt-image-2 die naheliegenden Upgrades. Für leichtere oder volumenstärkere Workloads, bei denen Sie nicht die volle Qualitätsbandbreite benötigen, ist gpt-image-1-mini das budgetbewusste Geschwistermodell.
Außerhalb des OpenAI-Katalogs ist Googles Bildstack die wichtigste Alternative. gemini-2.5-flash-image, oft Nano Banana genannt, ist bei fotorealistischen Ausgaben konkurrenzfähig und in bestimmten stilisierten Stilen stärker. nano-banana-pro-preview steht an der Spitze von Googles Bildqualitäts-Spektrum. Die Wahl zwischen OpenAI und Google für Bildarbeit läuft meist darauf hinaus, in welches Konversations-LLM Sie bereits integriert sind, weil das Halten der Bildgenerierung im selben Vendor-Stack Abrechnung, IAM und Observability vereinfacht.
Für europäische Deployments, die EU-Datenresidenz benötigen, erfüllen weder die Bildendpunkte von OpenAI noch die von Google derzeit out of the box die Anforderungen. Sie akzeptieren entweder die grenzüberschreitende Verarbeitung oder wechseln zu einem regionalen Anbieter mit kleinerem Leistungsumfang. Eine saubere dritte Option für hochwertige Bildgenerierung innerhalb der EU-Grenzen gibt es bislang nicht.
Letzte technische Prüfung: 22.05.2026 — Tokonomix.ai
