
Nano Banana Pro occupe le sommet de la gamme de génération d'images de Google. Derrière ce nom accessible au grand public se trouve gemini-3-pro-image-preview, un modèle en phase de préversion qui produit des images fixes à partir d'invites textuelles et qui, dans le même appel, peut éditer ou étendre les images que vous lui fournissez. Il s'agit de la troisième version de la lignée Nano Banana, après l'original (construit sur Gemini 2.5 Flash Image) et Nano Banana 2 (sur la préversion 3.1 Flash). La branche « Pro » est ce que Google positionne face au gpt-image-2 d'OpenAI et à l'ensemble du marché des générateurs commerciaux payants.
Cette page concerne la version de préversion. Les capacités et la tarification évoluent toutes deux durant la préversion ; considérez tout ce qui suit comme un instantané.
Ce dans quoi il excelle
Trois domaines se distinguent lors des tests pratiques.
Rendu photoréaliste sans l'aspect plastique. Les premières versions de Nano Banana avaient un style maison reconnaissable : peau légèrement cireuse, couleurs sursaturées, ce lustre caractéristique « rendu par IA » sur les surfaces métalliques. La version Pro réduit considérablement tout cela. Les portraits ressemblent à des photographies plutôt qu'à de la CGI bien plus souvent. Le modèle présente encore des indices révélateurs si vous regardez de près, mais l'écart avec un photographe soigneux équipé d'une softbox s'est rétréci d'une manière que la version précédente n'avait pas réussi à accomplir.
Édition d'images existantes. Fournissez-lui une photographie accompagnée d'une invite comme « supprimer la personne à gauche, étendre l'arrière-plan, conserver l'éclairage » et il effectue le travail en une seule passe. L'inpainting et l'outpainting ne sont pas des points de terminaison distincts ; il s'agit du même appel avec une image jointe. C'est ici que Nano Banana Pro prend clairement de l'avance sur les générateurs à prise unique qui doivent passer par une interface utilisateur d'édition de masques dans un processus aller-retour.
Texte à l'intérieur des images. Une faiblesse de longue date des modèles de diffusion, les lettres incohérentes sur les enseignes et les logos déformés, est sensiblement améliorée ici. Les slogans courts, les étiquettes de produits et les titres de graphiques s'affichent correctement la plupart du temps. Les longs paragraphes de texte se dégradent encore. Si vous avez besoin d'un corps de texte précis à l'intérieur d'une image, vous devez toujours le composer par la suite.
Ce qu'il ne fait pas
Nano Banana Pro est un générateur d'images. Il ne produit pas de vidéo. Il ne génère pas d'audio. Le nombre de 131 072 jetons de contexte que vous pourriez voir dans les tableaux de spécifications fait référence à la quantité de texte que le modèle acceptera dans une seule invite. C'est utile lorsque vous collez un guide de style de marque détaillé ; ce n'est pas utile pour lui fournir un document de 200 pages.
C'est également un générateur, pas un copieur parfait. La reproduction de marques, les portraits de ressemblance exacte de personnes réelles et les logos de marques déposées se situent tous à l'intérieur des garde-fous de sécurité et de politique que Google a établis pour la préversion. Certains de ces garde-fous s'assoupliront lors de la disponibilité générale ; d'autres non. Si votre flux de travail dépend de la reproduction d'un visage spécifique ou d'un logo spécifique avec une fidélité au niveau du pixel, la réponse est un outil différent — généralement un modèle que vous affinez vous-même sur l'actif en question.
Sortie, résolution, latence
Le modèle produit des images selon plusieurs rapports d'aspect prédéfinis : carré, portrait 9:16, paysage 16:9, plus quelques-uns intermédiaires. La résolution de sortie dépend du rapport que vous choisissez, mais le maximum pratique se situe au niveau supérieur de ce que vous utiliseriez pour une image principale sur un site web sans agrandissement. Pour l'impression au format A3 ou supérieur, vous souhaitez toujours une passe d'agrandissement dédiée après la génération.
Le temps de génération par image s'exécute en quelques secondes pour une invite standard avec les paramètres par défaut. Les invites complexes avec des images de référence jointes, ou les opérations d'édition sur une entrée haute résolution, peuvent atteindre dix ou quinze secondes. Par rapport à la génération Nano Banana précédente, ce n'est pas sensiblement plus rapide, mais c'est plus cohérent : vous observez moins de variance entre un appel rapide et un appel lent malchanceux.
Pour une comparaison équitable de la vitesse de génération entre les modèles d'images, les tests continus sur /benchmarks/speed constituent une meilleure source que les fiches techniques.
Style d'invite
Nano Banana Pro répond bien aux invites en langage naturel. Vous n'avez pas besoin de la pile de mots-clés séparés par des virgules que les modèles de diffusion de l'ère SD-1.5 exigeaient. Une phrase ou deux décrivant la scène, l'éclairage, la caméra et l'ambiance suffit généralement.
Il accepte également les directives négatives en anglais simple. « Pas de personnes en arrière-plan. » « Lumière du jour, pas coucher de soleil. » « Photographique, pas illustré. » Ces formulations fonctionnent aussi bien que les indicateurs de paramètres. Cela le rend accessible aux utilisateurs non techniques ; les équipes marketing briefent le modèle comme elles brieferaient un designer junior. Cela peut également frustrer les ingénieurs d'invites qui souhaitent un contrôle à grain fin. Il n'existe pas encore d'équivalent aux poids d'invite négative finement ajustés sur lesquels s'appuient les utilisateurs avancés dans les versions open-weight de diffusion.
Pour comparer comment différents modèles d'images gèrent la même instruction, la page /usecases/content est le bon point de départ.
Où il s'inscrit, où il ne s'inscrit pas
Choisissez Nano Banana Pro quand vous voulez :
- Des visuels marketing, des vignettes sociales et des créations publicitaires avec un aspect photographique.
- Des modifications rapides d'images existantes : supprimer un objet, étendre un arrière-plan, changer une saison.
- Des variations de prises de vue de produits à partir d'une seule photo de référence.
- Des images de style de vie pour des articles de blog et des pages de destination où la photographie de stock serait l'alternative évidente.
Choisissez autre chose quand vous avez besoin de :
- Reproduction parfaite au pixel près d'actifs de marque. Entraînez un modèle affiné sur votre propre bibliothèque d'actifs.
- Garanties strictes d'utilisation commerciale sur chaque sortie durant la préversion. Lisez attentivement les conditions actuelles de Google avant de diffuser une sortie de préversion dans des canaux destinés aux clients.
- Génération sur appareil ou entièrement hors ligne. Nano Banana Pro est uniquement par API. Pour les pipelines créatifs locaux d'abord, l'aperçu /usecases/local répertorie les options open-weight plus petites qui méritent d'être connues.
- Texte long rendu à l'intérieur de l'image. Composez.
Face aux alternatives évidentes
La décision se résume généralement à trois familles : ce niveau Pro, le gpt-image-2 d'OpenAI, et les niveaux rapides plus petits (Nano Banana 2 sur la préversion 3.1 Flash, et gpt-image-1-mini).
Le niveau Pro l'emporte sur les portraits photoréalistes et sur la qualité du mode édition. Le gpt-image-2 d'OpenAI l'emporte sur certains travaux d'illustration stylisée et sur l'adhérence aux invites lorsque l'invite est inhabituelle ou paradoxale. Les niveaux rapides plus petits l'emportent sur le coût et sur la latence lorsque vous générez des dizaines de variations pour en choisir une. Aucune de ces options n'est décisive. Exécutez les mêmes cinq invites à travers les trois avant d'engager votre équipe sur l'une d'entre elles.
La répartition complète des catégories tourne mensuellement sur /benchmarks/leaderboard.
Deux notes pratiques avant de commencer
Premièrement : préversion signifie préversion. Les points de terminaison peuvent changer sans beaucoup d'avertissement, et les sorties que vous générez aujourd'hui peuvent ne pas être reproductibles avec la même invite le mois prochain. Construisez votre pipeline de sorte que changer le modèle soit un changement de configuration unique, pas une refonte.
Deuxièmement : examinez vos sorties. Les modèles d'images produisent encore des artefacts occasionnels : six doigts, oreilles fondues, une chaise avec trois pieds. Pro réduit le taux par rapport à ses prédécesseurs mais ne le ramène pas à zéro. Tout ce qui se présente devant un client devrait d'abord passer par un œil humain.
Essayez-le sur /live-test. En comparaison directe avec les alternatives, sur votre propre invite.
Dernière revue technique : 2026-05-22 — Tokonomix.ai
