Aller au contenu
Fonctionne en :USCréé en :United States
Google Gemini

Nano Banana

33K tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Nano Banana est un modèle de génération de texte développé par Google dans le cadre de la famille Gemini. Il est conçu pour des tâches standard de traitement du langage naturel, notamment la génération de contenu, les applications conversationnelles et l'analyse textuelle. Le modèle fonctionne avec une fenêtre de contexte de 33 000 tokens, lui permettant de traiter et de maintenir la cohérence sur des documents de longueur modérée ou des conversations étendues. En tant que membre de la gamme Gemini de Google, Nano Banana représente une offre d'entrée de gamme en termes de taille de modèle et d'exigences de calcul. Il est positionné pour des applications où l'efficacité et l'accessibilité sont prioritaires par rapport à la performance maximale sur des tâches de raisonnement complexes. Le modèle démontre une compétence dans la compréhension et la génération fondamentales du langage tout en nécessitant moins de ressources de calcul que les modèles plus grands de la famille Gemini. La fenêtre de contexte de 33K tokens place Nano Banana dans un niveau intermédiaire pour la gestion du contexte, suffisant pour le traitement classique de documents et les conversations multi-tours, mais plus limité que les modèles phares qui prennent en charge des fenêtres de contexte dépassant 100K tokens. Ce modèle convient aux développeurs et organisations recherchant des capacités fiables de génération de texte sans la charge des modèles de langage plus volumineux. Il s'adapte aux cas d'usage tels que les chatbots, la rédaction de contenu, la synthèse de documents de longueur modérée et les tâches générales de complétion de texte où une compréhension standard du langage est requise.

Nano Banana représente l'option d'entrée de gamme efficace de la famille Gemini, conçue pour les applications nécessitant une génération de texte fiable sans les exigences computationnelles des modèles phares.

Analyse comparative Tokonomix
Section 01

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
100
Raisonnement
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Nano Banana
$0.3000 par 1M de tokens d'entrée
$2.50 par 1M de tokens de sortie
≈ $0.0007 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.3000
par 1M de tokens de sortie$2.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.3000

input / 1M

— stable

$2.50

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Section 03

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Faibles exigences computationnellesConversations multi-tours cohérentesFenêtre de 32K tokens suffisanteTâches NLP standard bien maîtriséesIntégration simple écosystème GoogleCoûts opérationnels réduitsLatence rapide pour déploiements légersGénération de contenu accessible

Faiblesses

Raisonnement complexe limitéContexte inférieur aux modèles pharesCapacités multimodales absentesPerformance réduite tâches spécialisées
Section 04

Capacités

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingoutputTokenLimit: 32768max output tokens: 32768
Section 05

Questions fréquentes

Nano Banana est le modèle d'entrée de gamme de la famille Gemini, optimisé pour l'efficacité plutôt que pour la performance maximale. Il consomme moins de ressources computationnelles tout en maintenant une compétence solide pour les tâches linguistiques standard.

Pour les équipes cherchant un équilibre entre performance linguistique fondamentale et efficacité des ressources, Nano Banana offre une solution pragmatique dans l'écosystème Gemini.

Évaluation éditoriale Tokonomix
Section 06

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 07

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-593/100 · 77 runs
67 correct7 partial3 wrong87% accuracy
2026-06-14

Nano Banana maintains capabilities without performance benchmarks

Nano Banana continues in its second benchmark window with the same comprehensive feature set introduced previously, including tools, vision, JSON mode, PDF input, JSON schema, parallel tools, and prompt caching. However, the model still lacks any published performance data across all standard benchmarks. No MMLU, GPQA, MATH, MUSR, or other academic benchmark scores are available for evaluation. Without quantitative metrics, users cannot assess the model's actual reasoning capabilities, domain knowledge, or problem-solving performance relative to other models in its class or across the broader landscape. The feature list suggests a modern, capable model with multimodal understanding and structured output support, but the absence of empirical performance data makes it impossible to verify quality or recommend specific use cases. Organizations considering Nano Banana should request direct performance evaluations or conduct their own testing before deployment. The stability of capabilities between windows is positive, indicating consistent feature availability, but the continued lack of benchmark transparency remains a significant limitation for informed decision-making.

Quality

Latency p50

Test runs

0

Stable capability set maintained No benchmark scores available Cannot verify performance claims
Section 08

Profil complet du modèle

Nano Banana — illustration 1
Nano Banana : le modèle d'image de Google avec un historique de nom de code fuité

Le nom officiel de Google est Gemini 2.5 Flash Image. L'internet l'appelle Nano Banana, d'après le pseudonyme que le modèle portait sur LMArena avant que Google ne le reconnaisse publiquement. L'histoire du nom est ce que le modèle a de plus charmant. L'ensemble de capacités, lui, est ce qu'il a de substantiel.

Nano Banana est l'endpoint de génération d'images de Google qui accepte du texte et des images en entrée, situé dans la gamme Flash de Gemini. Conçu pour la rapidité, l'itération conversationnelle et la préservation de l'identité d'une édition à l'autre — pas pour des visuels héros de qualité affiche.

À quoi sert le modèle

Génération d'images multimodale. Vous passez un prompt qui mélange du texte et des images de référence dans n'importe quel ordre, et le modèle renvoie une sortie image qui intègre les deux. Trois formes de requête reviennent sans cesse.

Texte-vers-image avec références de style. « Fais une photo produit d'une tasse à café, dans le style de ces trois images de référence. » Le modèle traite les références comme une instruction visuelle plutôt que comme quelque chose à copier, ce qui est un comportement différent de l'ancienne approche consistant à tout aplatir en texte de prompt.

Édition d'image en langage naturel. « Change l'arrière-plan pour une plage au coucher du soleil. » « Supprime la main sur la gauche du cadre. » « Mets la chemise en rouge au lieu de bleu. » Le modèle préserve le reste de l'image plutôt que de la redessiner depuis zéro. Pour l'édition conversationnelle en aller-retour, c'est la capacité phare.

Composition à partir de plusieurs références. « Utilise l'éclairage de la première photo, la tenue de la deuxième et la pose de la troisième. » Les références restent vivantes dans l'attention du modèle au lieu d'être réduites à un seul indice stylistique. La fenêtre de contexte texte de 32 768 tokens compte ici surtout parce qu'elle laisse de la place pour plusieurs images de référence ainsi qu'un texte de prompt détaillé dans un seul appel.

Là où il brille

Préservation de l'identité au fil des éditions. Un personnage, un produit ou une scène reste reconnaissable au travers d'une chaîne de raffinements conversationnels. C'est la capacité sur laquelle les modèles d'image concurrents ont historiquement été les plus faibles, et l'avance de Nano Banana est ici bien réelle.

Prompts multilingues. Le mandarin, l'hindi, l'arabe et les principales langues européennes produisent des sorties cohérentes sans gymnastique de traduction du prompt. Pour des produits destinés à des audiences non anglophones, cela supprime une couche de complexité dans le pipeline.

Vitesse. Latence de la gamme Flash, ce qui signifie que la génération d'image se termine assez vite pour être placée derrière un bouton « remixer » dans un produit utilisateur. Le profil de latence est la partie qui a justifié l'étiquette Flash.

Texte à l'intérieur des images. Le texte court — enseignes, surimpressions de deux à quatre mots, étiquettes produit — ressort lisible plus souvent qu'autrement. Les passages plus longs produisent encore le charabia typographique que les modèles proches de la diffusion à ce niveau traînent depuis des années.

Là où il flanche

Fidélité qualité impression. Pour les campagnes de marque, la publicité payante ou tout ce qui est destiné à un support physique, on sent le plafond de résolution et de détail. Imagen 3 est le bon modèle Google pour ce travail. Nano Banana est le bon modèle pour la phase d'itération qui le précède.

Précision de composition. Les prompts à exigences spatiales rigides — « trois pommes à gauche, deux poires à droite, un couteau entre les deux à 45 degrés » — produisent des sorties qui s'en approchent mais sont rarement exactes. Pour du travail de type schéma ou tout ce qui exige des éléments comptés et positionnés, la sortie est une esquisse, pas un livrable.

Ressemblance de personnes réelles. Les prompts sur des personnalités publiques sont bloqués. La politique est suffisamment conservatrice pour que certains travaux créatifs légitimes utilisant la ressemblance soient pris dans le filtre. Prévoyez une logique de réessai avec reformulation dans toute fonctionnalité produit qui touche à ce terrain.

Photoréalisme au plus haut niveau. Les visages dans des foules denses deviennent flous. Les mains se sont améliorées mais ne sont pas résolues. Les reflets spéculaires complexes sur le métal et le verre produisent encore l'aspect un peu plastique caractéristique des sorties de diffusion en gamme Flash.

Face au reste du peloton

Nano Banana est en concurrence avec le chatgpt-image-latest d'OpenAI, la famille Flux de Black Forest Labs, la dernière génération de Midjourney et le plus grand Nano Banana Pro au sein même de la gamme Google.

Chacun a son tempérament. La surface d'OpenAI colle de près au prompt littéral et privilégie le réalisme photographique. Midjourney penche vers l'esthétique picturale et produit des sorties visuellement frappantes qui s'écartent parfois des spécificités du prompt. Flux est la plus solide des options à poids ouverts pour les équipes qui ont besoin d'auto-héberger. L'avance de Nano Banana en matière de préservation de l'identité est le facteur différenciant le plus important pour des fonctionnalités produit d'édition conversationnelle.

Pour des prompts qui exigent une esthétique stylisée précise, faites un benchmark entre modèles sur des exemples représentatifs avant de vous engager. Le bon choix dépend de la charge de travail et les descriptions des fiches modèles ne sont pas assez détaillées pour se substituer à une mesure.

Notes de déploiement

L'API est la surface multimodale standard de Gemini. Passez des entrées texte et image dans la même requête, recevez des octets d'image plus une sortie texte optionnelle. Les schémas d'utilisation d'outils qui routent entre modèles de compréhension visuelle et modèles de génération d'image peuvent tourner dans une seule boucle d'agent sans changer de SDK.

Les filtres de sécurité sont conservateurs et la frontière de politique change entre le canal de prévisualisation publique et la surface AI Studio de Google. Les déploiements en production ont besoin d'une couche de réessai avec reformulation qui gère les refus avec élégance — parfois le même prompt avec une formulation légèrement différente passe sans accroc.

La disponibilité régionale suit l'ensemble de la gamme Gemini. L'accès direct à l'API via les endpoints de Google est disponible mondialement avec les habituelles réserves sur la résidence régionale. Pour les équipes ayant des exigences strictes de résidence dans l'UE, Vertex AI propose des déploiements régionaux sous contrats séparés.

La latence varie selon la résolution de sortie et la complexité de la requête. L'étiquette Flash tient — les fonctionnalités produit interactives bâties sur Nano Banana restent réactives même lorsqu'elles s'enchaînent à travers plusieurs éditions dans une même session utilisateur.

Quand le choisir

Tournez-vous vers Nano Banana lorsque vous avez besoin de :

  • Préservation de l'identité au fil d'une chaîne d'éditions conversationnelles.
  • Prompts multilingues gérés nativement sans pipelines de traduction.
  • Latence suffisamment basse pour des fonctionnalités d'image interactives in-app.
  • Composition multimodale à partir de plusieurs images de référence en un seul appel.

Passez votre chemin lorsque :

  • Les actifs finaux exigent une fidélité de qualité impression — Imagen 3 est le bon modèle Google.
  • Vous avez besoin de sortie vidéo, pas d'images fixes — Veo est la famille pertinente.
  • Une précision compositionnelle rigide est requise — aucun modèle de niveau diffusion n'est fiable ici.
  • La ressemblance de personnes réelles fait partie du brief — les blocages de politique font de cette surface une impasse pour cette charge de travail.

Pour une comparaison plus large en génération d'images, voir chatgpt-image-latest et le grand frère Nano Banana Pro.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

Nano Banana — illustration 2Nano Banana — illustration 3
Dernier test automatisé
14 juin 2026 · 04:14 UTC · Benchmark
Latence P50
1808 ms
Latence P95
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026