
gpt-image-2 ist das Refresh der zweiten Generation von OpenAIs dediziertem Bild-Stack und die Version, in der die Editing-Story von brauchbar zu wirklich leistungsfähig wechselt. Während gpt-image-1 Generierung und Editing in einem einzigen Endpunkt vereinte, macht gpt-image-2 den Editing-Durchlauf gut genug, um Produktions-Workflows um iterative Verfeinerung herum aufzubauen, anstatt bei jeder neuen Generierung zu würfeln.
Was es mitbringt
Kompositionelle Treue ist die wichtigste Verbesserung. Szenen mit mehreren Subjekten mit definierten räumlichen Beziehungen, Beleuchtungskonsistenz über Subjekte hinweg und physikalisch plausible Interaktionen gelingen zuverlässiger als bei jedem vorherigen OpenAI-Bild-Release. Wenn Sie das Modell anweisen, drei Personen um einen Tisch mit einem bestimmten Objekt zwischen ihnen zu platzieren, haben Sie nun eine realistische Chance, genau das zurückzubekommen, statt eines Beinahe-Treffers.
Text-Rendering innerhalb von Bildern ist in der OpenAI-Linie zum ersten Mal wirklich gut. Mehrzeiliger Text, gemischte Schriftgrößen und Text innerhalb komplexer Kompositionen sind für den produktiven Einsatz brauchbar. Das ist vor allem für Marketing-Creatives relevant, bei denen der Abstand zwischen gpt-image-1.5 und gpt-image-2 auf einem Banner-Ad mit Overlay-Text den Unterschied macht, ob das Ergebnis ausgeliefert oder an einen Designer zurückgegeben wird.
Das Muster des vereinheitlichten Endpunkts wird beibehalten. Sie rufen weiterhin eine einzige API für Generierung, Editing, Inpainting und Varianten auf. Das Editing-Verhalten ist in dieser Version präziser. Edits bleiben auf die maskierte Region beschränkt, ohne Strukturen aus dem umgebenden Bild durchsickern zu lassen, was in früheren Releases ein wiederkehrender Fehlermodus war.
Architekturhinweise
OpenAI hat keine Architekturdetails veröffentlicht. Aus dem beobachtbaren Verhalten geht hervor, dass das Modell eine wesentlich höhere Prompt-Dichte als gpt-image-1 verarbeitet, ohne bei langen oder kompositorisch komplexen Prompts abzubauen. Die Ausgabeauflösung ist weiterhin auf die gleiche native Obergrenze von 2048×2048 mit denselben Seitenverhältnis-Presets begrenzt, wobei der Upscaling-Pfad über die API sauberere Großformat-Ausgaben liefert als die Vorgängergeneration.
Anatomie von Händen und Fingern ist deutlich verbessert. Die Fehlerraten sind niedrig genug, dass Sie für die meisten Workflows keinen dedizierten Anatomie-Prüfdurchlauf mehr benötigen. Für Premium-Output wollen Sie weiterhin eine menschliche Prüfinstanz, aber das Budget für diese Prüfung ist kleiner.
Stilkonsistenz über eine Serie verwandter Bilder hinweg ist tatsächlich besser als bei gpt-image-1. Wenn Sie zehn Varianten eines Themas erzeugen, hält gpt-image-2 die Ästhetik über die Serie hinweg zuverlässiger. Das ist relevant für Storytelling-Arbeiten, comicartige Sequenzen und jeden Output, bei dem visuelle Kontinuität über mehrere Frames Teil des Briefings ist.
Wo es schwächelt
Spezifisch identifizierte Personen über eine Serie hinweg bleiben eine Grenze. Das Modell ist gut bei generischen photorealistischen Menschen und bei konsistenten stilisierten Charakteren, aber wenn Sie eine bestimmte benannte Figur in hundert Bildern identisch erscheinen lassen müssen, gewinnt weiterhin ein steuerbarer Diffusion-Stack mit Referenzbild-Konditionierung. Dies ist eine kategorielle Grenze des Modelldesigns, nicht eine Qualitätslücke.
Industrielle Diagramme mit strikter dimensionaler Genauigkeit sind keine Stärke. Das Modell produziert etwas, das wie ein technisches Diagramm aussieht, auf das man sich aber nicht in Engineering-Qualität verlassen kann. CAD-nahe Arbeit gehört in CAD-Software, nicht in ein generatives Modell.
Sehr kleiner Text innerhalb von Bildern, unterhalb von etwa zwanzig Pixeln pro Zeichen bei der Ausgabeauflösung, ist weiterhin inkonsistent. Für dichten Spezifikationstext oder Kleingedrucktes sollten Sie echten Text in Ihrem Anwendungscode überlagern, anstatt sich auf das Rendering durch das Modell zu verlassen.
Auswahlentscheidung
Für neue Bildgenerierungs-Projekte, bei denen Sie das Beste aus OpenAIs Katalog wollen und die Kosten der Premium-Stufe verkraften können, ist gpt-image-2 die Standardwahl. Der datierte Snapshot gpt-image-2-2026-04-21 ist die Version, die in regulierten Workflows oder überall dort, wo Reproduzierbarkeit zählt, fixiert werden sollte.
Für hohe Stückzahlen, bei denen die Kosten pro Bild dominieren, ist gpt-image-1-mini die Budget-Stufe und gpt-image-1.5 das mittlere Segment. Die Entscheidung zwischen diesen und gpt-image-2 ist überwiegend eine wirtschaftliche und keine Qualitätsfrage, da alle drei für die meisten Workflows brauchbare Ergebnisse liefern.
Anbieterübergreifend ist nano-banana-pro-preview der engste Wettbewerber in der Premium-Stufe. Es gewinnt bei manchen stilisierten Ästhetiken und verliert beim Text-Rendering innerhalb von Bildern. Benchmarken Sie auf Ihrer tatsächlichen Prompt-Verteilung, bevor Sie sich festlegen, denn das relative Ranking zwischen gpt-image-2 und Nano Banana Pro kippt je nachdem, welche Art von Arbeit Sie am häufigsten ausliefern.
EU-Datenresidenz wird weiterhin nicht standardmäßig erfüllt. Das Muster eines regionalen Gateways ist der Workaround für regulierte europäische Deployments, und es gibt bisher kein Signal, dass OpenAI in naher Zukunft EU-gehostete Bild-Endpunkte anbieten wird.
Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai
