Wie groß ist der Kontext?

131.000 Tokens – passend für moderate Dokumente und mehrstufige Konversationen.

Wo positioniert sich das Modell im Gemini-Lineup?

Als zugängliche Mittelklasse-Option für Standard-NLP ohne die Ressourcenanforderungen größerer Flaggschiff-Modelle.

Unterstützt es Bildverarbeitung?

Nein, der Fokus liegt auf textbasierter Verarbeitung.

Tier A — Frontier

Läuft in:USErstellt in:United States

Google Gemini

Nano Banana Pro

Tier A — Frontier · 131K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 26. Mai 2026

Nano Banana Pro ist ein Textgenerierungsmodell, das von Google im Rahmen der Gemini-Familie entwickelt wurde. Es ist für standardmäßige Aufgaben der natürlichen Sprachverarbeitung konzipiert, darunter Inhaltsgenerierung, Fragebeantwortung, Zusammenfassung und allgemeine Konversationsanwendungen. Das Modell arbeitet mit einem Kontextfenster von 131K Tokens, wodurch es mittellange Dokumente verarbeiten und längere Gesprächsverläufe aufrechterhalten kann. Aus technischer Sicht stellt Nano Banana Pro ein Angebot der mittleren Kategorie innerhalb des Modellportfolios von Google dar. Das Kontextfenster von 131K positioniert es oberhalb von Modellen mit kleinerem Kontext, bleibt jedoch unter den erweiterten Kontextfähigkeiten der Flaggschiff-Angebote von Google. Es ist darauf ausgelegt, typische Textgenerierungs-Workloads zu bewältigen, bei denen umfangreiches Reasoning über sehr lange Dokumente nicht erforderlich ist, was es für Anwendungen wie Chatbots, Inhaltsunterstützung, Bildungstools und allgemeine Textverarbeitungsaufgaben geeignet macht. Innerhalb des Google-Gemini-Ökosystems nimmt Nano Banana Pro eine praktische Position für Entwickler ein, die zuverlässige Textgenerierungsfähigkeiten ohne die fortschrittlichsten multimodalen Funktionen oder erweiterten Kontextlängen suchen. Das Modell balanciert funktionale Leistung mit Zugänglichkeit und zielt auf Anwendungsfälle ab, bei denen standardmäßiges Sprachverständnis und -generierung die primären Anforderungen sind. Es eignet sich für Produktionsumgebungen, in denen eine konsistente Textausgabequalität wichtiger ist als experimentelle Spitzenfunktionen.

Ein Mid-Tier-Gemini-Modell mit 131.000-Token-Kontext für solide Textverarbeitung im Google-Ökosystem.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Nano Banana Pro

$2.00 pro 1M Input-Tokens

$12.00 pro 1M Output-Tokens

≈ $0.0036 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$2.00

pro 1M Output-Tokens$12.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.00

input / 1M

— stable

$12.00

output / 1M

— stable

2026-05-242026-06-212026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

131.000-Token-KontextfensterChatbot- und Content-AssistenzZuverlässige TextgenerierungBildungs- und LernwerkzeugeGoogle-Infrastruktur-IntegrationAllgemeine NLP-Aufgaben

Schwächen

Begrenzte Reasoning-TiefeKein Multimodal-SupportUnter Flaggschiff-Gemini-Modellen

Abschnitt 03

Fähigkeiten

source: litellmvisionjson modejson schemaimage editingprompt cachingimage generationoutputTokenLimit: 32768max output tokens: 32768

Abschnitt 04

Häufig gestellte Fragen

Chatbots, Inhaltsassistenz, Bildungstools und allgemeine Textverarbeitung ohne extreme Kontextanforderungen.

Für Anwendungen, die verlässliche Textgenerierung im mittleren Kontextbereich benötigen, bietet dieses Modell ein stabiles Fundament.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 05

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 06

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-541/100 · 76 runs

25 correct2 partial49 wrong33% accuracy

● 2026-07-26

No performance data available for new benchmark window

The current benchmark window shows no performance results for Nano Banana Pro, making it impossible to assess changes from the previous period. The model previously demonstrated stable performance across various tasks after expanding its feature set to include vision, JSON handling, image editing, prompt caching, and image generation capabilities. Without current benchmark data, users cannot determine whether the model maintains its previous performance levels or if any regressions or improvements have occurred. The absence of results could indicate testing issues, model availability problems, or a gap in the benchmark collection process. Users relying on Nano Banana Pro should be aware that performance verification for this window is unavailable. Until new benchmark data becomes available, the most recent reference point remains the previous window's results, which showed consistent performance across supported capabilities. Organizations using this model in production should monitor their own performance metrics closely during this period of benchmark data absence.

Quality

—

Latency p50

—

Test runs

✗ No benchmark data available

Abschnitt 07

Vollständiges Modellprofil

Nano Banana Pro: Googles Flaggschiff-Bildgenerator, in der Preview

Nano Banana Pro ist die Spitze von Googles Bildgenerierungs-Stack. Hinter dem konsumentenfreundlichen Namen verbirgt sich gemini-3-pro-image-preview, ein Modell der Preview-Stufe, das Standbilder aus Text-Prompts erzeugt und im selben Aufruf Bilder bearbeiten oder erweitern kann, die man ihm übergibt. Es ist das dritte Release in der Nano-Banana-Reihe, nach dem Original (basierend auf Gemini 2.5 Flash Image) und Nano Banana 2 (auf dem 3.1 Flash Preview). Der "Pro"-Zweig ist das, was Google gegen OpenAIs gpt-image-2 und das breitere Feld der kostenpflichtigen kommerziellen Generatoren positioniert.

Diese Seite befasst sich mit dem Preview-Build. Sowohl Fähigkeiten als auch Preise bewegen sich während der Preview; alles Folgende ist als Momentaufnahme zu verstehen.

Wofür es gut ist

Drei Bereiche stechen in praktischen Tests heraus.

Fotorealistische Ausgabe ohne Plastik-Look. Frühere Nano-Banana-Releases hatten einen erkennbaren Hausstil: leicht wachsige Haut, übersättigte Farben, jener charakteristische "KI-gerenderte" Glanz auf Metalloberflächen. Der Pro-Build nimmt davon viel zurück. Porträts sehen häufiger nach Fotografien aus als nach CGI. Das Modell hat bei genauem Hinsehen weiterhin verräterische Merkmale, aber der Abstand zu einem sorgfältigen Fotografen mit Softbox hat sich auf eine Weise verkleinert, die die Vorgängerversion nicht geschafft hatte.

Bearbeitung bestehender Bilder. Übergibt man ihm ein Foto plus einen Prompt wie "Entferne die Person links, erweitere den Hintergrund, behalte die Beleuchtung" erledigt es die Aufgabe in einem Durchgang. Inpainting und Outpainting sind keine separaten Endpoints; es ist derselbe Aufruf mit angehängtem Bild. Hier zieht Nano Banana Pro deutlich an One-Shot-Generatoren vorbei, die einen Umweg über eine Masken-Editor-UI nehmen müssen.

Text in Bildern. Eine langjährige Schwäche von Diffusionsmodellen — kauderwelschartige Buchstaben auf Schildern und verstümmelte Logo-Typografie — ist hier deutlich besser. Kurze Slogans, Produktetiketten und Diagrammtitel werden meistens korrekt gerendert. Lange Textabsätze scheitern weiterhin. Wenn akkurater Fließtext im Bild benötigt wird, montiert man ihn nach wie vor nachträglich ein.

Was es nicht leistet

Nano Banana Pro ist ein Bildgenerator. Es produziert kein Video. Es generiert kein Audio. Die Zahl 131.072 Tokens, die in Spec-Tabellen auftaucht, bezieht sich darauf, wie viel Text das Modell in einem einzelnen Prompt akzeptiert. Das ist nützlich, wenn man einen detaillierten Markenstil-Guide einfügt; nicht aber, um ihm ein 200-seitiges Dokument zu füttern.

Es ist außerdem ein Generator, kein perfekter Kopierer. Marken-Reproduktion, exakte Porträts realer Personen und Markenlogos liegen alle innerhalb der Sicherheits- und Policy-Leitplanken, die Google für die Preview gesetzt hat. Manche dieser Leitplanken werden bei General Availability gelockert; andere nicht. Wenn ein Workflow darauf angewiesen ist, ein bestimmtes Gesicht oder ein bestimmtes Logo pixelgenau zu reproduzieren, lautet die Antwort: ein anderes Tool — meist ein Modell, das man selbst auf den fraglichen Asset feintunt.

Output, Auflösung, Latenz

Das Modell erzeugt Bilder in mehreren voreingestellten Seitenverhältnissen: quadratisch, Hochformat 9:16, Querformat 16:9 sowie einige Zwischenformate. Die Output-Auflösung hängt vom gewählten Verhältnis ab, das praktische Maximum liegt jedoch am oberen Ende dessen, was man ohne Upscaling für ein Hero-Bild auf einer Website verwenden würde. Für Druck in A3 oder größer empfiehlt sich nach wie vor ein dedizierter Upscaling-Schritt nach der Generierung.

Die Generierungszeit pro Bild liegt für einen Standard-Prompt mit Default-Einstellungen im einstelligen Sekundenbereich. Komplexe Prompts mit angehängten Referenzbildern oder Edit-Operationen auf hochaufgelösten Eingaben können auf zehn oder fünfzehn Sekunden hochgehen. Verglichen mit der vorherigen Nano-Banana-Generation ist das nicht merklich schneller, aber konsistenter: Man sieht weniger Varianz zwischen einem schnellen Aufruf und einem unglücklich langsamen.

Für einen direkten Vergleich der Generierungsgeschwindigkeit zwischen Bildmodellen sind die laufenden Tests unter /benchmarks/speed eine bessere Quelle als Datenblätter.

Prompting-Stil

Nano Banana Pro reagiert gut auf Prompts in natürlicher Sprache. Man braucht keinen kommagetrennten Keyword-Stack, wie ihn Diffusionsmodelle der SD-1.5-Ära verlangten. Ein bis zwei Sätze, die Szene, Beleuchtung, Kamera und Stimmung beschreiben, reichen in der Regel aus.

Es nimmt auch negative Anweisungen in normalem Deutsch oder Englisch entgegen. "Keine Personen im Hintergrund." "Tageslicht, kein Sonnenuntergang." "Fotografisch, nicht illustriert." Das funktioniert genauso gut wie Parameter-Flags. Damit ist es für nicht-technische Nutzer zugänglich; Marketing-Teams briefen das Modell so, wie sie einen Junior-Designer briefen würden. Es kann auch Prompt-Engineers frustrieren, die feinkörnige Kontrolle wollen. Es gibt noch kein Äquivalent zu den tief abgestimmten Negative-Prompt-Gewichten, auf die sich Power-User in Open-Weight-Diffusion-Forks verlassen.

Um zu vergleichen, wie verschiedene Bildmodelle dasselbe Briefing umsetzen, ist die Seite /usecases/content der richtige Ausgangspunkt.

Wo es passt, wo nicht

Nano Banana Pro wählen, wenn Folgendes benötigt wird:

Marketing-Visuals, Social-Tiles und Werbekreativ mit fotografischer Anmutung.
Schnelle Bearbeitungen bestehender Bilder: Objekt entfernen, Hintergrund erweitern, Jahreszeit ändern.
Produktshot-Varianten aus einem einzigen Referenzfoto.
Lifestyle-Bilder für Blogposts und Landingpages, bei denen Stockfotografie die naheliegende Alternative wäre.

Etwas anderes wählen, wenn Folgendes nötig ist:

Pixelgenaue Reproduktion von Marken-Assets. Hier ein feingetuntes Modell auf der eigenen Asset-Bibliothek trainieren.
Strenge Garantien zur kommerziellen Nutzung für jede Ausgabe während der Preview. Die aktuellen Google-Bedingungen sorgfältig lesen, bevor Preview-Output in kundenseitige Kanäle ausgespielt wird.
On-Device- oder vollständig offline-basierte Generierung. Nano Banana Pro ist ausschließlich per API verfügbar. Für lokal-first orientierte kreative Pipelines listet die Übersicht unter /usecases/local die kleineren Open-Weight-Optionen, die man kennen sollte.
Langer Fließtext, der im Bild gerendert wird. Composite.

Versus die offensichtlichen Alternativen

Die Entscheidung läuft meist auf drei Familien hinaus: diese Pro-Stufe, OpenAIs gpt-image-2 und die kleineren schnellen Stufen (Nano Banana 2 auf dem 3.1 Flash Preview sowie gpt-image-1-mini).

Die Pro-Stufe gewinnt bei fotorealistischen Porträts und bei der Qualität im Edit-Mode. OpenAIs gpt-image-2 gewinnt bei bestimmten stilisierten Illustrationsarbeiten und bei der Prompt-Treue, wenn der Prompt ungewöhnlich oder paradox ist. Die kleineren schnellen Stufen gewinnen bei Kosten und Latenz, wenn man Dutzende Varianten generiert, um eine davon auszuwählen. Keine davon ist ein K.-o.-Sieger. Vor der Festlegung des Teams auf eine Option dieselben fünf Prompts durch alle drei laufen lassen.

Die vollständige Kategorie-Aufschlüsselung rotiert monatlich unter /benchmarks/leaderboard.

Zwei praktische Hinweise vor dem Start

Erstens: Preview heißt Preview. Endpoints können sich ohne viel Vorwarnung ändern, und Ausgaben, die heute generiert werden, sind im nächsten Monat gegenüber demselben Prompt möglicherweise nicht reproduzierbar. Die Pipeline so bauen, dass ein Modellwechsel eine Konfigurationsänderung ist, kein Refactor.

Zweitens: Ausgaben prüfen. Bildmodelle erzeugen weiterhin gelegentliche Artefakte: sechs Finger, geschmolzene Ohren, ein Stuhl mit drei Beinen. Pro reduziert die Rate gegenüber seinen Vorgängern, eliminiert sie aber nicht. Alles, was vor einem Kunden landet, sollte zuerst ein menschliches Auge passieren.

Ausprobieren unter /live-test. Side-by-side mit den Alternativen, am eigenen Prompt.

Letzte technische Prüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

21. Juni 2026 · 04:51 UTC · Benchmark

P50-Latenz

11201 ms

P95-Latenz

—

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·26. Mai 2026