Wie groß ist das Kontextfenster?

Rund 65.000 Tokens – ausreichend für moderate Dokumente und erweiterte Gesprächsverläufe.

Ist das Modell Teil der Gemini-Familie?

Ja, es ist ein kompakter Ableger der Google Gemini-Produktlinie.

Wann sollte ich ein größeres Gemini-Modell wählen?

Wenn komplexes Reasoning, sehr lange Dokumente oder spezialisierte Fähigkeiten wie Bildverarbeitung benötigt werden.

Tier B — Produktion

Läuft in:USErstellt in:United States

Google Gemini

Nano Banana 2

Tier B — Produktion · 66K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 24. Mai 2026

Nano Banana 2 ist ein Standardmodell zur Textgenerierung, das von Google im Rahmen der Gemini-Modellfamilie entwickelt wurde. Es ist für allgemeine Aufgaben der natürlichen Sprachverarbeitung konzipiert, darunter Textvervollständigung, Beantwortung von Fragen, Zusammenfassung und dialogorientierte Anwendungen. Das Modell verarbeitet und erzeugt menschenähnlichen Text auf Basis von Eingabe-Prompts und eignet sich damit für die Integration in verschiedene Anwendungen, die Sprachverständnis- und Sprachgenerierungsfähigkeiten erfordern. Das Modell verfügt über ein Kontextfenster von 66,000 Tokens und kann so die Kohärenz über mäßig lange Dokumente oder ausgedehnte Konversationen hinweg aufrechterhalten. Diese Kontextkapazität ermöglicht es, mehrstufige Dialoge zu führen, Dokumente angemessener Länge zu analysieren und relevante Informationen über Interaktionen hinweg zu bewahren. Nano Banana 2 unterstützt textbasierte Ein- und Ausgaben ohne multimodale Fähigkeiten wie Bild- oder Audioverarbeitung. Innerhalb von Googles Gemini-Reihe positioniert sich Nano Banana 2 als kompaktes Modell, das auf effizienten Einsatz optimiert ist und gleichzeitig funktionale Textgenerierungsfähigkeiten bietet. Es stellt einen Ausgleich zwischen Recheneffizienz und Leistung dar und ist damit für Anwendungen geeignet, bei denen Ressourcenbeschränkungen eine Rolle spielen, Standard-Sprachaufgaben jedoch eine angemessene Leistung erfordern. Das Modell ist für Anwendungsfälle ausgelegt, die zuverlässige Textgenerierung ohne den Rechenaufwand größerer Modelle der Gemini-Familie erfordern.

Ein kompaktes Gemini-Modell mit 65.000-Token-Kontext für allgemeine Textverarbeitung in der Google-Infrastruktur.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Nano Banana 2

$0.5000 pro 1M Input-Tokens

$3.00 pro 1M Output-Tokens

≈ $0.0009 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.5000

pro 1M Output-Tokens$3.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.5000

input / 1M

— stable

$3.00

output / 1M

— stable

2026-05-242026-06-212026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 02

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Kompakter Ressourcenbedarf65.000-Token-KontextfensterSchnelle TextverarbeitungAllgemeine NLP-AufgabenGoogle-Infrastruktur-IntegrationMulti-Turn-Dialog-fähig

Schwächen

Begrenzte Reasoning-TiefeKein Multimodal-SupportKleiner Kontext vs. große Gemini-Modelle

Abschnitt 03

Fähigkeiten

source: litellmvisionjson modejson schemaimage editingprompt cachingimage generationoutputTokenLimit: 65536max output tokens: 32768

Abschnitt 04

Häufig gestellte Fragen

Allgemeine Textgenerierung, Frage-Antwort-Systeme, Zusammenfassungen und Multi-Turn-Dialoge innerhalb moderater Kontextlängen.

Für ressourcenbewusste Anwendungen innerhalb des Gemini-Ökosystems liefert dieses Modell solide Textgenerierung.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 05

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 06

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-593/100 · 78 runs

69 correct8 partial1 wrong88% accuracy

● 2026-07-26

Nano Banana 2 adds six capabilities but remains untested on benchmarks

Nano Banana 2 continues to lack performance data across all benchmark categories for the second consecutive window. Despite this absence of measurable results, Google has significantly expanded the model's feature set with six new capabilities: vision, JSON mode, JSON schema, image editing, prompt caching, and image generation. This represents a substantial technical evolution from a text-only model to a multimodal system with structured output support and media manipulation features. However, without benchmark scores in areas like MMLU, HumanEval, or GPQA, users have no empirical basis to evaluate the model's actual performance in reasoning, coding, mathematics, or visual understanding tasks. The gap between announced capabilities and demonstrated performance creates uncertainty for potential adopters who need to assess whether Nano Banana 2 can deliver on its expanded promise. Until Google provides benchmark results or independent testing becomes available, organizations considering this model for production use should proceed with caution and conduct their own evaluations. The situation suggests either the model is still in early development stages or Google is prioritizing feature development over performance transparency.

Quality

—

Latency p50

—

Test runs

✓ Six new capabilities added✓ Multimodal support now available✗ No benchmark data available✗ Performance remains unverified

Abschnitt 07

Vollständiges Modellprofil

Nano Banana 2: das Bildmodell der nächsten Generation in Googles Flash-Familie

Hinweis — zukunftsgerichtetes Profil. Nano Banana 2 (gemini-3.1-flash-image-preview) ist der 3.1-Flash-Bildgenerierungs-Preview. Verhalten, Fähigkeiten und Ratenlimits werden sich vor der allgemeinen Verfügbarkeit ändern.

Nano Banana 2 ist die Iteration der nächsten Generation von Googles Flash-Tier-Bildgenerierungsmodell. Ein Kontext von 65.536 Token für den Prompt und Referenzmaterial — doppelter Prompt-Spielraum des ursprünglichen Nano Banana. Bildausgabe aus Text- oder Text-plus-Referenzbild-Eingabe. Der Produktname ist unverändert; das dahinterstehende Modell ist bedeutend verbessert.

Dies ist keine Text-LLM-Seite. Das Modell produziert Bilder, keine Absätze. Alles unten handelt von Generierungsqualität, Steueroberflächen und wo die zweite Generation Nano Banana gegenüber dem Original und dem breiteren Bildgenerierungsfeld landet.

Was sich gegenüber dem Original geändert hat

Die 3.1-Flash-Generation bringt mehrere Verbesserungen gegenüber dem 2.5-Flash-Bildmodell:

Stärkeres Textrendering innerhalb von Bildern. Das originale Nano Banana war bereits unter den besseren Optionen für Text in Bildern; Nano Banana 2 produziert merklich sauberere Typografie, zuverlässigere Zeichenformen und bessere Verarbeitung längerer Textpassagen.
Höhere Fidelity bei feinen Details. Hände, Stofttexturen, mechanische Details — Bereiche, bei denen Bildgenerierung historisch kämpfte — zeigen bedeutende Verbesserung.
Bessere Einhaltung von kompositionellen Prompts. „Vier Panels mit X, Y, Z, W" oder „ein Weitwinkelschuss mit Vordergrundmotiv und Hintergrundkontext" produziert genauere Ausgaben ohne aufwendiges Prompt-Engineering.
Zuverlässigere Referenzbild-Konditionierung. Charakterkonsistenz über mehrere Generierungen ist stärker; Stilübertragung aus einem Referenzbild ist treuer.
Verdoppeltes Prompt-Kontextfenster. Längere Anweisungen, mehr Referenzmaterial, nuanciertere Prompts passen alle.

Die Schlagzeilen-Verbesserungen beiseite: Die praktische Erfahrung ist, dass Prompts, die beim Original meist-funktioniert haben, mit der zweiten Generation zuverlässig-funktionieren.

Wo es glänzt

Einige Workloads, bei denen Nano Banana 2 wirklich mit den spezialisierten Bildgenerierungs-Leadern konkurriert:

UI-Mockups mit detailliertem Text und strukturierten Layouts. Text ist lesbar, Layouts sind kohärent, die Ausgabe ist im Design-Review ohne große Nachbearbeitung verwendbar.
Marketingmaterial mit substantiellem Textinhalt. Poster, Banner, Social-Media-Grafiken mit mehreren Textelementen funktionieren sauber.
Storyboarding und Comic-artiges Arbeiten, bei dem Charakterkonsistenz über viele Frames wichtig ist.
Produkt-Mockups mit Markenelementen, bei denen Text-Fidelity wichtig ist.
Bildungs- und Lehrmedien, bei denen Beschriftungen, Diagramme und erklärende Texte lesbar und genau sein müssen.

Wann es das falsche Werkzeug ist

Fotorealistisches Portrait-Arbeiten auf höchstem Niveau. Die spezialisierten Fotorealismus-Leader halten noch Vorsprünge bei menschlichen Gesichtern und Hauttextur auf dem sehr hohen Qualitätsende.

Stark stilisierte künstlerische Arbeit in spezifischen erkennbaren Ästhetiken, bei der das Ziel ein bestimmter kunsthistorischer Stil ist. Speziell auf diese Stile trainierte Modelle drücken sie oft authentischer aus.

Sehr große Ausgabeauflösungen für hochwertigen Druck ohne Upscaling-Schritt. Die Auflösungsobergrenzen in der aktuellen API-Dokumentation gegen spezifische Bedürfnisse prüfen.

Videogenerierung. Dies sind Standbilder. Die Google-Videogenerierungsmodelle decken die Videokategorie ab.

Inhalte, die außerhalb der Standard-Sicherheitsfilterung fallen. Die Filterung wird konsistent angewendet; Workloads, die legitimerweise Inhalte außerhalb dieser Filter benötigen, brauchen einen anderen Anbieter.

Vergleich mit Geschwistern und Konkurrenten

Gegenüber dem originalen Nano Banana: Nano Banana 2 ist der natürliche Upgrade-Pfad für Neubauten. Für bestehende Deployments hängt der Migrationsfall davon ab, ob die Qualitätsverbesserungen für den spezifischen Anwendungsfall wichtig sind und ob Preview-Tier-Ratenlimits für das Traffic-Volumen funktionieren.

Gegenüber Nano Banana Pro: Pro ist die höherwertige Geschwisterin mit weiteren Fidelity-Verbesserungen und stärkerer Referenzbild-Konditionierung. Für Workloads, bei denen Qualität die dominierende Anforderung ist und Kosten sekundär sind, ist Pro die Wahl. Für Workloads, bei denen Flash-Tier-Latenz und -Kosten Teil der Anforderung sind, trifft Nano Banana 2 eine starke Balance.

Gegenüber Nicht-Google-Bildgenerierungsoptionen: Midjourney hält seine Position bei Fotorealismus und stilisierter Ästhetik. Die höherwertigen Stable-Diffusion-Varianten konkurrieren bei Flexibilität und selbst-hostbarem Deployment. Die OpenAI-Bildmodelle konkurrieren bei Integration mit deren breiterem Stack. Für Workloads auf dem Google-Stack, bei denen Textrendering in Bildern und Referenzbild-Konditionierung wichtig sind, ist Nano Banana 2 eine der stärksten Optionen.

Praktische Muster

Einiges, was man vor dem Aufbau auf Nano Banana 2 wissen sollte:

Prompt-Struktur ist noch wichtig. Die Verbesserungen gegenüber dem Original machen Prompts verzeihender, aber spezifische kompositionelle Anweisungen produzieren noch bessere Ausgaben als vage Beschreibungen.
Referenzbilder tragen bedeutendes Gewicht. Für Charakterkonsistenz, Stilübertragung oder spezifische kompositionelle Führung eine Referenz einschließen statt sie nur im Text zu beschreiben.
Generierungslatenz ist für die Flash-Stufe vernünftig. UX-Muster planen, die Fortschritt zeigen und Iteration ermöglichen, statt auf eine einzelne Generierung zu blockieren.
Das verdoppelte Prompt-Fenster lädt zu komplexeren Prompts ein. Nutzen — längere, spezifischere Prompts produzieren kontrolliertere Ausgaben.
Iteration bleibt Teil des Workflows. Selbst starke Prompts brauchen oft zwei oder drei Generierungen, um die beste Ausgabe zu finden.

Deployment-Hinweise

Standard-Google-Gemini-API für die Bildgenerierungs-Endpoints. Das Request-Format folgt demselben Muster wie das originale Nano Banana mit dem zusätzlichen Parameter-Raum für das größere Kontextfenster.

Regionale Verfügbarkeit folgt Googles Standard-Vertex-AI-Muster. EU-Regionen sind auf Enterprise-Verträgen verfügbar. Der Standard-Consumer-API-Zugang pinnt keine Region.

Sicherheitsfilterung wird auf generierte Bilder angewendet. Das Filterverhalten ist konsistent mit Googles umfassenderen Inhaltsrichtlinien. Workloads mit legitimen Bedürfnissen außerhalb dieser Richtlinien brauchen einen anderen Anbieter.

Generierte Bilder tragen Wasserzeichen und Provenienz-Metadaten entsprechend Googles Verpflichtungen zu KI-generierten Inhalten. Für Workloads, bei denen das auf die eine oder andere Weise wichtig ist, die aktuelle API-Dokumentation auf das Konfigurierbare prüfen.

Preview-Tier-Überlegungen gelten. Ratenlimits, regionale Verfügbarkeit und spezifische Verhaltensweisen können sich vor der allgemeinen Verfügbarkeit verschieben. Für Produktions-Workloads, die stabile Verhaltensweisen brauchen, bleibt das originale Nano Banana vorübergehend die konservativere Wahl.

Wann Sie es einsetzen sollten

Greifen Sie zu Nano Banana 2, wenn:

Sie das verbesserte Textrendering, feinere Details oder das größere Prompt-Fenster gegenüber dem originalen Nano Banana brauchen.
Der Workload UI-Mockups, Marketing-Collateral oder Storyboarding ist, bei dem Qualität wichtig ist.
Sie bereit sind, Preview-Tier-Ratenlimits und Verhaltensüberlegungen zu akzeptieren.
Sie bereits auf dem Google-Stack sind und dort bleiben wollen.

Wählen Sie etwas anderes, wenn:

Das originale Nano Banana Ihren Workload abdeckt und das Preview-Tier-Upgrade Risiko ohne Mehrwert hinzufügt.
Sie top-tier Fidelity für Portrait- oder stilisierte Künstlerarbeit brauchen.
Die Arbeit Videogenerierung statt Standbilder ist.
Self-Hosted oder Fine-Tuned Bildgenerierung Teil der Anforderung ist.

Zusammenfassung: Starker Upgrade-Pfad vom originalen Nano Banana mit bedeutenden Verbesserungen beim Textrendering, feinen Details und Prompt-Kontrolle. Für Preview-Tier-Workloads, bei denen die Verbesserungen die Migrationskosten rechtfertigen, ist es die richtige Wahl. Für Produktions-Workloads, bei denen Stabilität wichtiger ist als das Upgrade, bleibt das Original eine vernünftige Wahl.

Testen Sie es mit einem echten Prompt unter /live-test. Bildgenerierungs-Output ist subjektiv genug, dass man ihn auf dem eigenen Anwendungsfall sehen sollte, bevor man sich festlegt.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

21. Juni 2026 · 04:49 UTC · Benchmark

P50-Latenz

4330 ms

P95-Latenz

—

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·24. Mai 2026