
Nano Banana Pro ist die Spitze von Googles Bildgenerierungs-Stack. Hinter dem konsumentenfreundlichen Namen verbirgt sich gemini-3-pro-image-preview, ein Modell der Preview-Stufe, das Standbilder aus Text-Prompts erzeugt und im selben Aufruf Bilder bearbeiten oder erweitern kann, die man ihm übergibt. Es ist das dritte Release in der Nano-Banana-Reihe, nach dem Original (basierend auf Gemini 2.5 Flash Image) und Nano Banana 2 (auf dem 3.1 Flash Preview). Der "Pro"-Zweig ist das, was Google gegen OpenAIs gpt-image-2 und das breitere Feld der kostenpflichtigen kommerziellen Generatoren positioniert.
Diese Seite befasst sich mit dem Preview-Build. Sowohl Fähigkeiten als auch Preise bewegen sich während der Preview; alles Folgende ist als Momentaufnahme zu verstehen.
Wofür es gut ist
Drei Bereiche stechen in praktischen Tests heraus.
Fotorealistische Ausgabe ohne Plastik-Look. Frühere Nano-Banana-Releases hatten einen erkennbaren Hausstil: leicht wachsige Haut, übersättigte Farben, jener charakteristische "KI-gerenderte" Glanz auf Metalloberflächen. Der Pro-Build nimmt davon viel zurück. Porträts sehen häufiger nach Fotografien aus als nach CGI. Das Modell hat bei genauem Hinsehen weiterhin verräterische Merkmale, aber der Abstand zu einem sorgfältigen Fotografen mit Softbox hat sich auf eine Weise verkleinert, die die Vorgängerversion nicht geschafft hatte.
Bearbeitung bestehender Bilder. Übergibt man ihm ein Foto plus einen Prompt wie "Entferne die Person links, erweitere den Hintergrund, behalte die Beleuchtung" erledigt es die Aufgabe in einem Durchgang. Inpainting und Outpainting sind keine separaten Endpoints; es ist derselbe Aufruf mit angehängtem Bild. Hier zieht Nano Banana Pro deutlich an One-Shot-Generatoren vorbei, die einen Umweg über eine Masken-Editor-UI nehmen müssen.
Text in Bildern. Eine langjährige Schwäche von Diffusionsmodellen — kauderwelschartige Buchstaben auf Schildern und verstümmelte Logo-Typografie — ist hier deutlich besser. Kurze Slogans, Produktetiketten und Diagrammtitel werden meistens korrekt gerendert. Lange Textabsätze scheitern weiterhin. Wenn akkurater Fließtext im Bild benötigt wird, montiert man ihn nach wie vor nachträglich ein.
Was es nicht leistet
Nano Banana Pro ist ein Bildgenerator. Es produziert kein Video. Es generiert kein Audio. Die Zahl 131.072 Tokens, die in Spec-Tabellen auftaucht, bezieht sich darauf, wie viel Text das Modell in einem einzelnen Prompt akzeptiert. Das ist nützlich, wenn man einen detaillierten Markenstil-Guide einfügt; nicht aber, um ihm ein 200-seitiges Dokument zu füttern.
Es ist außerdem ein Generator, kein perfekter Kopierer. Marken-Reproduktion, exakte Porträts realer Personen und Markenlogos liegen alle innerhalb der Sicherheits- und Policy-Leitplanken, die Google für die Preview gesetzt hat. Manche dieser Leitplanken werden bei General Availability gelockert; andere nicht. Wenn ein Workflow darauf angewiesen ist, ein bestimmtes Gesicht oder ein bestimmtes Logo pixelgenau zu reproduzieren, lautet die Antwort: ein anderes Tool — meist ein Modell, das man selbst auf den fraglichen Asset feintunt.
Output, Auflösung, Latenz
Das Modell erzeugt Bilder in mehreren voreingestellten Seitenverhältnissen: quadratisch, Hochformat 9:16, Querformat 16:9 sowie einige Zwischenformate. Die Output-Auflösung hängt vom gewählten Verhältnis ab, das praktische Maximum liegt jedoch am oberen Ende dessen, was man ohne Upscaling für ein Hero-Bild auf einer Website verwenden würde. Für Druck in A3 oder größer empfiehlt sich nach wie vor ein dedizierter Upscaling-Schritt nach der Generierung.
Die Generierungszeit pro Bild liegt für einen Standard-Prompt mit Default-Einstellungen im einstelligen Sekundenbereich. Komplexe Prompts mit angehängten Referenzbildern oder Edit-Operationen auf hochaufgelösten Eingaben können auf zehn oder fünfzehn Sekunden hochgehen. Verglichen mit der vorherigen Nano-Banana-Generation ist das nicht merklich schneller, aber konsistenter: Man sieht weniger Varianz zwischen einem schnellen Aufruf und einem unglücklich langsamen.
Für einen direkten Vergleich der Generierungsgeschwindigkeit zwischen Bildmodellen sind die laufenden Tests unter /benchmarks/speed eine bessere Quelle als Datenblätter.
Prompting-Stil
Nano Banana Pro reagiert gut auf Prompts in natürlicher Sprache. Man braucht keinen kommagetrennten Keyword-Stack, wie ihn Diffusionsmodelle der SD-1.5-Ära verlangten. Ein bis zwei Sätze, die Szene, Beleuchtung, Kamera und Stimmung beschreiben, reichen in der Regel aus.
Es nimmt auch negative Anweisungen in normalem Deutsch oder Englisch entgegen. "Keine Personen im Hintergrund." "Tageslicht, kein Sonnenuntergang." "Fotografisch, nicht illustriert." Das funktioniert genauso gut wie Parameter-Flags. Damit ist es für nicht-technische Nutzer zugänglich; Marketing-Teams briefen das Modell so, wie sie einen Junior-Designer briefen würden. Es kann auch Prompt-Engineers frustrieren, die feinkörnige Kontrolle wollen. Es gibt noch kein Äquivalent zu den tief abgestimmten Negative-Prompt-Gewichten, auf die sich Power-User in Open-Weight-Diffusion-Forks verlassen.
Um zu vergleichen, wie verschiedene Bildmodelle dasselbe Briefing umsetzen, ist die Seite /usecases/content der richtige Ausgangspunkt.
Wo es passt, wo nicht
Nano Banana Pro wählen, wenn Folgendes benötigt wird:
- Marketing-Visuals, Social-Tiles und Werbekreativ mit fotografischer Anmutung.
- Schnelle Bearbeitungen bestehender Bilder: Objekt entfernen, Hintergrund erweitern, Jahreszeit ändern.
- Produktshot-Varianten aus einem einzigen Referenzfoto.
- Lifestyle-Bilder für Blogposts und Landingpages, bei denen Stockfotografie die naheliegende Alternative wäre.
Etwas anderes wählen, wenn Folgendes nötig ist:
- Pixelgenaue Reproduktion von Marken-Assets. Hier ein feingetuntes Modell auf der eigenen Asset-Bibliothek trainieren.
- Strenge Garantien zur kommerziellen Nutzung für jede Ausgabe während der Preview. Die aktuellen Google-Bedingungen sorgfältig lesen, bevor Preview-Output in kundenseitige Kanäle ausgespielt wird.
- On-Device- oder vollständig offline-basierte Generierung. Nano Banana Pro ist ausschließlich per API verfügbar. Für lokal-first orientierte kreative Pipelines listet die Übersicht unter /usecases/local die kleineren Open-Weight-Optionen, die man kennen sollte.
- Langer Fließtext, der im Bild gerendert wird. Composite.
Versus die offensichtlichen Alternativen
Die Entscheidung läuft meist auf drei Familien hinaus: diese Pro-Stufe, OpenAIs gpt-image-2 und die kleineren schnellen Stufen (Nano Banana 2 auf dem 3.1 Flash Preview sowie gpt-image-1-mini).
Die Pro-Stufe gewinnt bei fotorealistischen Porträts und bei der Qualität im Edit-Mode. OpenAIs gpt-image-2 gewinnt bei bestimmten stilisierten Illustrationsarbeiten und bei der Prompt-Treue, wenn der Prompt ungewöhnlich oder paradox ist. Die kleineren schnellen Stufen gewinnen bei Kosten und Latenz, wenn man Dutzende Varianten generiert, um eine davon auszuwählen. Keine davon ist ein K.-o.-Sieger. Vor der Festlegung des Teams auf eine Option dieselben fünf Prompts durch alle drei laufen lassen.
Die vollständige Kategorie-Aufschlüsselung rotiert monatlich unter /benchmarks/leaderboard.
Zwei praktische Hinweise vor dem Start
Erstens: Preview heißt Preview. Endpoints können sich ohne viel Vorwarnung ändern, und Ausgaben, die heute generiert werden, sind im nächsten Monat gegenüber demselben Prompt möglicherweise nicht reproduzierbar. Die Pipeline so bauen, dass ein Modellwechsel eine Konfigurationsänderung ist, kein Refactor.
Zweitens: Ausgaben prüfen. Bildmodelle erzeugen weiterhin gelegentliche Artefakte: sechs Finger, geschmolzene Ohren, ein Stuhl mit drei Beinen. Pro reduziert die Rate gegenüber seinen Vorgängern, eliminiert sie aber nicht. Alles, was vor einem Kunden landet, sollte zuerst ein menschliches Auge passieren.
Ausprobieren unter /live-test. Side-by-side mit den Alternativen, am eigenen Prompt.
Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai
