Zum Inhalt
Läuft in:USErstellt in:United States
Google Gemini

Nano Banana

33K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Nano Banana ist ein Textgenerierungsmodell, das von Google als Teil der Gemini-Familie entwickelt wurde. Es ist für standardmäßige Natural Language Processing-Aufgaben konzipiert, einschließlich Content-Generierung, Konversationsanwendungen und textbasierter Analyse. Das Modell arbeitet mit einem Kontextfenster von 33.000 Token, wodurch es moderately lange Dokumente oder ausgedehnte Konversationen verarbeiten und dabei kohärent bleiben kann. Als Teil von Googles Gemini-Reihe repräsentiert Nano Banana ein Einstiegsangebot hinsichtlich Modellgröße und Rechenanforderungen. Es ist für Anwendungen positioniert, bei denen Effizienz und Zugänglichkeit Vorrang vor maximaler Leistung bei komplexen Reasoning-Aufgaben haben. Das Modell zeigt Kompetenz im grundlegenden Sprachverständnis und in der Generierung, während es weniger Rechenressourcen benötigt als größere Modelle der Gemini-Familie. Das 33K-Token-Kontextfenster platziert Nano Banana in einer mittleren Kategorie für Kontextverarbeitung – ausreichend für typische Dokumentenverarbeitung und mehrstufige Konversationen, aber begrenzter als Flaggschiff-Modelle, die Kontextfenster von über 100K Token unterstützen. Dieses Modell eignet sich für Entwickler und Organisationen, die zuverlässige Textgenerierungsfähigkeiten ohne den Overhead größerer Language Models suchen. Es passt zu Anwendungsfällen wie Chatbots, Content-Entwurf, Zusammenfassung von Dokumenten mittlerer Länge und allgemeinen Textvervollständigungsaufgaben, bei denen standardmäßiges Sprachverständnis erforderlich ist.

Nano Banana positioniert sich als ressourcenschonende Einstiegslösung in die Gemini-Familie, die solide Sprachverarbeitung ohne den Overhead größerer Modelle bietet.

Tokonomix Modellanalyse
Abschnitt 01

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
100
Schlussfolgern
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Nano Banana
$0.3000 pro 1M Input-Tokens
$2.50 pro 1M Output-Tokens
≈ $0.0007 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.3000
pro 1M Output-Tokens$2.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.3000

input / 1M

— stable

$2.50

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Geringe Rechenressourcen erforderlichSolide Konversationsfähigkeiten32K Token für mittellange DokumenteEinfache Integration in bestehende SystemeEffizient für Standard-NLP-AufgabenTeil des etablierten Gemini-ÖkosystemsZuverlässige InhaltserstellungGut geeignet für Chatbot-Anwendungen

Schwächen

Eingeschränkte komplexe Reasoning-FähigkeitenKontextfenster kleiner als Flaggschiff-ModelleKeine multimodalen Fähigkeiten dokumentiertKompromisse bei anspruchsvollen Aufgaben
Abschnitt 04

Fähigkeiten

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingoutputTokenLimit: 32768max output tokens: 32768
Abschnitt 05

Häufig gestellte Fragen

Das Modell eignet sich optimal für Chatbots, Content-Entwürfe, Zusammenfassungen mittellanger Dokumente und allgemeine Textvervollständigung. Es ist ideal für Projekte, die zuverlässige Sprachverarbeitung ohne extreme Komplexität benötigen.

Für Teams, die zuverlässige Textgenerierung mit moderatem Kontextfenster benötigen, stellt Nano Banana eine ausgewogene Wahl zwischen Leistung und Effizienz dar.

Tokonomix Redaktionelle Einschätzung
Abschnitt 06

Verfügbarkeit

Verfügbarkeit

Noch keine Messdaten

Es wurden noch nicht genug API-Aufrufe aufgezeichnet, um Verfügbarkeitsstatistiken für dieses Modell anzuzeigen. Daten erscheinen, sobald das Modell Live-Traffic erhält.

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-593/100 · 77 runs
67 correct7 partial3 wrong87% accuracy
2026-06-14

Nano Banana maintains capabilities without performance benchmarks

Nano Banana continues in its second benchmark window with the same comprehensive feature set introduced previously, including tools, vision, JSON mode, PDF input, JSON schema, parallel tools, and prompt caching. However, the model still lacks any published performance data across all standard benchmarks. No MMLU, GPQA, MATH, MUSR, or other academic benchmark scores are available for evaluation. Without quantitative metrics, users cannot assess the model's actual reasoning capabilities, domain knowledge, or problem-solving performance relative to other models in its class or across the broader landscape. The feature list suggests a modern, capable model with multimodal understanding and structured output support, but the absence of empirical performance data makes it impossible to verify quality or recommend specific use cases. Organizations considering Nano Banana should request direct performance evaluations or conduct their own testing before deployment. The stability of capabilities between windows is positive, indicating consistent feature availability, but the continued lack of benchmark transparency remains a significant limitation for informed decision-making.

Quality

Latency p50

Test runs

0

Stable capability set maintained No benchmark scores available Cannot verify performance claims
Abschnitt 08

Vollständiges Modellprofil

Nano Banana — illustration 1
Nano Banana: Googles Bildmodell mit einem Geschichte aus durchgesickertem Codenamen

Googles offizieller Name ist Gemini 2.5 Flash Image. Das Internet nennt es Nano Banana, nach dem Pseudonym, das das Modell auf LMArena trug, bevor Google es öffentlich anerkannte. Die Namengeschichte ist das Charmanteste an dem Modell. Die Fähigkeiten sind das Wesentliche.

Nano Banana ist Googles Text-und-Bild-Eingabe-Bildgenerierungs-Endpoint im Flash-Tier von Gemini. Gebaut für Geschwindigkeit, konversationelle Iteration und Identitätserhaltung über Bearbeitungen hinweg — nicht für Poster-Qualitäts-Hero-Shots.

Wofür das Modell da ist

Multimodale Bildgenerierung. Man übergibt einen Prompt, der Text und Referenzbilder in beliebiger Reihenfolge mischt, und das Modell gibt Bildausgaben zurück, die beides einbezieht. Drei Formen von Anfragen tauchen immer wieder auf.

Text-zu-Bild mit Stil-Referenzen. „Erstelle einen Produktshot einer Kaffeetasse im Stil dieser drei Referenzbilder." Das Modell behandelt die Referenzen als visuelle Anweisung, statt sie zu kopieren — ein anderes Verhalten als der ältere Ansatz, alles in Prompt-Text zu reduzieren.

Bildbearbeitung durch natürliche Sprache. „Ändere den Hintergrund auf einen Strand bei Sonnenuntergang." „Entferne die Hand links im Bild." „Mach das Hemd rot statt blau." Das Modell bewahrt den Rest des Bildes, statt es von Grund auf neu zu zeichnen. Für die konversationelle Hin-und-Her-Bearbeitung ist dies die Schlüsselfähigkeit.

Komposition über Referenzen hinweg. „Verwende die Beleuchtung des ersten Fotos, das Outfit des zweiten und die Pose des dritten." Die Referenzen bleiben in der Aufmerksamkeit des Modells aktiv, statt zu einem einzigen Stil-Hinweis zu kollabieren. Das 32.768-Token-Textkontextfenster ist hier wichtig, weil es Platz für mehrere Referenzbilder plus detaillierten Prompt-Text in einem Aufruf lässt.

Wo es glänzt

Identitätserhaltung über Bearbeitungen. Ein Charakter, Produkt oder eine Szene bleibt durch eine Kette konversationeller Verfeinerungen erkennbar. Das ist die Fähigkeit, bei der konkurrierende Bildmodelle historisch am schwächsten waren, und Nano Bananas Vorsprung hier ist real.

Mehrsprachige Prompts. Mandarin, Hindi, Arabisch und die großen europäischen Sprachen produzieren kohärente Ausgaben ohne Prompt-Übersetzungs-Gymnastics. Für Produkte, die nicht-englischsprachige Zielgruppen bedienen, entfernt das eine Schicht Pipelinekomplexität.

Geschwindigkeit. Flash-Tier-Latenz, was bedeutet, dass die Bildgenerierung schnell genug abschließt, um hinter einem „Remix"-Button in einem nutzerseitigen Produkt zu stehen. Das Latenzprofil ist der Teil, der das Flash-Branding verdient hat.

Text in Bildern. Kurzer Text — Beschilderung, zwei-bis-vier-Wort-Overlays, Produktbeschriftungen — kommt mehr oder weniger lesbar heraus. Längere Passagen produzieren noch den typografischen Kauderwelsch, den diffusionsähnliche Modelle in dieser Stufe seit Jahren tragen.

Wo es schwächer wird

Druckqualitäts-Treue. Für Markenkampagnen, bezahlte Werbung oder alles, was für physische Medien bestimmt ist, spürt man die Auflösungs- und Detailgrenze. Imagen 3 ist das richtige Google-Modell für diese Arbeit. Nano Banana ist das richtige Modell für die Iterationsphase davor.

Kompositionelle Präzision. Prompts mit starren räumlichen Anforderungen — „drei Äpfel links, zwei Birnen rechts, ein Messer in 45 Grad zwischen ihnen" — produzieren Ausgaben, die nah dran sind, aber selten exakt. Für diagrammartige Arbeit oder alles, das gezählte und positionierte Elemente erfordert, ist die Ausgabe eine Skizze, kein Endprodukt.

Ähnlichkeit realer Personen. Prompts zu öffentlichen Personen werden blockiert. Die Richtlinien sind konservativ genug, dass einige legitime kreative Arbeiten mit Ähnlichkeit im Filter landen. Retry-mit-Umschreibungs-Logik für jedes Produktfeature einplanen, das dieses Terrain berührt.

Fotorealismus auf höchstem Niveau. Gesichter in dichten Menschenmengen verschwimmen. Hände haben sich verbessert, sind aber nicht gelöst. Komplexe Spiegellichter auf Metall und Glas produzieren noch den weichen, leicht plastikartigen Look, der Flash-Tier-Diffusions-Ausgaben charakterisiert.

Vergleich mit dem Wettbewerb

Nano Banana konkurriert mit OpenAIs chatgpt-image-latest, Black Forest Labs' Flux-Familie, Midjourneys aktuellster Generation und dem größeren Nano Banana Pro in Googles eigenem Lineup.

Jedes hat seinen Charakter. OpenAIs Oberfläche hält sich eng an den wörtlichen Prompt und bevorzugt fotografischen Realismus. Midjourney neigt zur malerischen Ästhetik und produziert visuell auffällige Ausgaben, die manchmal vom Prompt-Inhalt abweichen. Flux ist die stärkste Open-Weight-Option für Teams, die selbst hosten müssen. Nano Bananas Identitätserhaltungs-Vorsprung ist der Differenziator, der bei konversationellen Bearbeitungs-Produktfeaturen am meisten zählt.

Für Prompts, die eine spezifische stilisierte Ästhetik benötigen: Modelle anhand repräsentativer Beispiele benchmarken, bevor man sich festlegt. Die richtige Wahl ist workload-spezifisch, und die Modellkarten-Beschreibungen sind nicht detailliert genug, um Messungen zu ersetzen.

Deployment-Hinweise

Die API ist die Standard-Gemini-Multimodale-Oberfläche. Text- und Bildeingaben im gleichen Request übergeben, Bild-Bytes plus optionale Textausgabe erhalten. Tool-Use-Muster, die zwischen Vision-Verstehens-Modellen und Bildgenerierungs-Modellen routen, können innerhalb eines einzigen Agent-Loops ohne SDK-Wechsel laufen.

Sicherheitsfilter sind konservativ, und die Richtliniengrenze verschiebt sich zwischen dem öffentlichen Preview-Kanal und Googles AI-Studio-Oberfläche. Produktions-Deployments brauchen eine Retry-mit-Umschreibungs-Schicht, die Ablehnungen sauber behandelt — manchmal geht derselbe Prompt mit leicht anderer Formulierung sauber durch.

Regionale Verfügbarkeit folgt dem breiteren Gemini-Lineup. Direkter API-Zugang über Googles Endpoints ist global verfügbar mit den üblichen Vorbehalten zur regionalen Residenz. Für Teams mit strikten EU-Residenzanforderungen bietet Vertex AI regionale Deployments unter separaten Verträgen.

Latenz variiert mit der Ausgabeauflösung und Anfragekomplexität. Das Flash-Tier-Branding hält — interaktive Produktfeaturen, die auf Nano Banana aufgebaut sind, fühlen sich reaktionsfähig an, selbst wenn sie durch mehrere Bearbeitungen in einer einzigen Nutzersitzung gekettet sind.

Wann Sie es einsetzen sollten

Greifen Sie zu Nano Banana, wenn Sie brauchen:

  • Identitätserhaltung über eine Kette konversationeller Bearbeitungen.
  • Mehrsprachige Prompts, die nativ ohne Übersetzungs-Pipelines verarbeitet werden.
  • Latenz niedrig genug für interaktive In-App-Bildfeatures.
  • Multimodale Komposition über mehrere Referenzbilder in einem Aufruf.

Lassen Sie es links liegen, wenn:

  • Finale Assets druckqualitäts-treue Fidelity benötigen — Imagen 3 ist das richtige Google-Modell.
  • Video-Ausgabe statt Standbilder benötigt wird — Veo ist die relevante Familie.
  • Starre kompositionelle Präzision eine Anforderung ist — kein Diffusions-Tier-Modell ist hier zuverlässig.
  • Ähnlichkeit realer Personen Teil des Briefings ist — die Richtlinien blockieren machen diese Oberfläche für diesen Workload zu einer Sackgasse.

Für breiteren Bildgenerierungs-Vergleich siehe chatgpt-image-latest und das größere Geschwister Nano Banana Pro.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Nano Banana — illustration 2Nano Banana — illustration 3
Letzter automatisierter Test
14. Juni 2026 · 04:14 UTC · Benchmark
P50-Latenz
1808 ms
P95-Latenz
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026