
Le nom officiel de Google est Gemini 2.5 Flash Image. L'internet l'appelle Nano Banana, d'après le pseudonyme que le modèle portait sur LMArena avant que Google ne le reconnaisse publiquement. L'histoire du nom est ce que le modèle a de plus charmant. L'ensemble de capacités, lui, est ce qu'il a de substantiel.
Nano Banana est l'endpoint de génération d'images de Google qui accepte du texte et des images en entrée, situé dans la gamme Flash de Gemini. Conçu pour la rapidité, l'itération conversationnelle et la préservation de l'identité d'une édition à l'autre — pas pour des visuels héros de qualité affiche.
À quoi sert le modèle
Génération d'images multimodale. Vous passez un prompt qui mélange du texte et des images de référence dans n'importe quel ordre, et le modèle renvoie une sortie image qui intègre les deux. Trois formes de requête reviennent sans cesse.
Texte-vers-image avec références de style. « Fais une photo produit d'une tasse à café, dans le style de ces trois images de référence. » Le modèle traite les références comme une instruction visuelle plutôt que comme quelque chose à copier, ce qui est un comportement différent de l'ancienne approche consistant à tout aplatir en texte de prompt.
Édition d'image en langage naturel. « Change l'arrière-plan pour une plage au coucher du soleil. » « Supprime la main sur la gauche du cadre. » « Mets la chemise en rouge au lieu de bleu. » Le modèle préserve le reste de l'image plutôt que de la redessiner depuis zéro. Pour l'édition conversationnelle en aller-retour, c'est la capacité phare.
Composition à partir de plusieurs références. « Utilise l'éclairage de la première photo, la tenue de la deuxième et la pose de la troisième. » Les références restent vivantes dans l'attention du modèle au lieu d'être réduites à un seul indice stylistique. La fenêtre de contexte texte de 32 768 tokens compte ici surtout parce qu'elle laisse de la place pour plusieurs images de référence ainsi qu'un texte de prompt détaillé dans un seul appel.
Là où il brille
Préservation de l'identité au fil des éditions. Un personnage, un produit ou une scène reste reconnaissable au travers d'une chaîne de raffinements conversationnels. C'est la capacité sur laquelle les modèles d'image concurrents ont historiquement été les plus faibles, et l'avance de Nano Banana est ici bien réelle.
Prompts multilingues. Le mandarin, l'hindi, l'arabe et les principales langues européennes produisent des sorties cohérentes sans gymnastique de traduction du prompt. Pour des produits destinés à des audiences non anglophones, cela supprime une couche de complexité dans le pipeline.
Vitesse. Latence de la gamme Flash, ce qui signifie que la génération d'image se termine assez vite pour être placée derrière un bouton « remixer » dans un produit utilisateur. Le profil de latence est la partie qui a justifié l'étiquette Flash.
Texte à l'intérieur des images. Le texte court — enseignes, surimpressions de deux à quatre mots, étiquettes produit — ressort lisible plus souvent qu'autrement. Les passages plus longs produisent encore le charabia typographique que les modèles proches de la diffusion à ce niveau traînent depuis des années.
Là où il flanche
Fidélité qualité impression. Pour les campagnes de marque, la publicité payante ou tout ce qui est destiné à un support physique, on sent le plafond de résolution et de détail. Imagen 3 est le bon modèle Google pour ce travail. Nano Banana est le bon modèle pour la phase d'itération qui le précède.
Précision de composition. Les prompts à exigences spatiales rigides — « trois pommes à gauche, deux poires à droite, un couteau entre les deux à 45 degrés » — produisent des sorties qui s'en approchent mais sont rarement exactes. Pour du travail de type schéma ou tout ce qui exige des éléments comptés et positionnés, la sortie est une esquisse, pas un livrable.
Ressemblance de personnes réelles. Les prompts sur des personnalités publiques sont bloqués. La politique est suffisamment conservatrice pour que certains travaux créatifs légitimes utilisant la ressemblance soient pris dans le filtre. Prévoyez une logique de réessai avec reformulation dans toute fonctionnalité produit qui touche à ce terrain.
Photoréalisme au plus haut niveau. Les visages dans des foules denses deviennent flous. Les mains se sont améliorées mais ne sont pas résolues. Les reflets spéculaires complexes sur le métal et le verre produisent encore l'aspect un peu plastique caractéristique des sorties de diffusion en gamme Flash.
Face au reste du peloton
Nano Banana est en concurrence avec le chatgpt-image-latest d'OpenAI, la famille Flux de Black Forest Labs, la dernière génération de Midjourney et le plus grand Nano Banana Pro au sein même de la gamme Google.
Chacun a son tempérament. La surface d'OpenAI colle de près au prompt littéral et privilégie le réalisme photographique. Midjourney penche vers l'esthétique picturale et produit des sorties visuellement frappantes qui s'écartent parfois des spécificités du prompt. Flux est la plus solide des options à poids ouverts pour les équipes qui ont besoin d'auto-héberger. L'avance de Nano Banana en matière de préservation de l'identité est le facteur différenciant le plus important pour des fonctionnalités produit d'édition conversationnelle.
Pour des prompts qui exigent une esthétique stylisée précise, faites un benchmark entre modèles sur des exemples représentatifs avant de vous engager. Le bon choix dépend de la charge de travail et les descriptions des fiches modèles ne sont pas assez détaillées pour se substituer à une mesure.
Notes de déploiement
L'API est la surface multimodale standard de Gemini. Passez des entrées texte et image dans la même requête, recevez des octets d'image plus une sortie texte optionnelle. Les schémas d'utilisation d'outils qui routent entre modèles de compréhension visuelle et modèles de génération d'image peuvent tourner dans une seule boucle d'agent sans changer de SDK.
Les filtres de sécurité sont conservateurs et la frontière de politique change entre le canal de prévisualisation publique et la surface AI Studio de Google. Les déploiements en production ont besoin d'une couche de réessai avec reformulation qui gère les refus avec élégance — parfois le même prompt avec une formulation légèrement différente passe sans accroc.
La disponibilité régionale suit l'ensemble de la gamme Gemini. L'accès direct à l'API via les endpoints de Google est disponible mondialement avec les habituelles réserves sur la résidence régionale. Pour les équipes ayant des exigences strictes de résidence dans l'UE, Vertex AI propose des déploiements régionaux sous contrats séparés.
La latence varie selon la résolution de sortie et la complexité de la requête. L'étiquette Flash tient — les fonctionnalités produit interactives bâties sur Nano Banana restent réactives même lorsqu'elles s'enchaînent à travers plusieurs éditions dans une même session utilisateur.
Quand le choisir
Tournez-vous vers Nano Banana lorsque vous avez besoin de :
- Préservation de l'identité au fil d'une chaîne d'éditions conversationnelles.
- Prompts multilingues gérés nativement sans pipelines de traduction.
- Latence suffisamment basse pour des fonctionnalités d'image interactives in-app.
- Composition multimodale à partir de plusieurs images de référence en un seul appel.
Passez votre chemin lorsque :
- Les actifs finaux exigent une fidélité de qualité impression — Imagen 3 est le bon modèle Google.
- Vous avez besoin de sortie vidéo, pas d'images fixes — Veo est la famille pertinente.
- Une précision compositionnelle rigide est requise — aucun modèle de niveau diffusion n'est fiable ici.
- La ressemblance de personnes réelles fait partie du brief — les blocages de politique font de cette surface une impasse pour cette charge de travail.
Pour une comparaison plus large en génération d'images, voir chatgpt-image-latest et le grand frère Nano Banana Pro.
Dernière revue technique : 2026-05-22 — Tokonomix.ai

