Aller au contenu
Tier C — Spécialiste
Fonctionne en :USCréé en :United States
Google Gemini

Gemini 3.1 Flash Lite Preview

Tier C — Spécialiste · 1.048576M tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Gemini 3.1 Flash Lite Preview est un modèle léger de génération de texte développé par Google dans le cadre de la famille de modèles Gemini. Cette version préliminaire est conçue pour les tâches standard de génération de texte où la vitesse et l'efficacité priment sur la capacité maximale. Elle constitue une option accessible pour les développeurs et applications nécessitant des temps de réponse rapides avec une charge computationnelle réduite par rapport aux modèles plus volumineux de la gamme. Le modèle dispose d'une fenêtre de contexte de 1,048,576 tokens (1M tokens), lui permettant de traiter et de maintenir la cohérence sur des volumes substantiels de texte en entrée. Cette capacité de contexte étendue lui permet de gérer des documents complexes, de longues conversations et des tâches nécessitant un historique conséquent. Gemini 3.1 Flash Lite Preview se concentre sur les capacités essentielles de génération de texte sans fonctionnalités multimodales, ce qui le rend adapté à des applications telles que la rédaction de contenu, les interfaces conversationnelles, la synthèse et les tâches générales de traitement du langage naturel. Au sein de l'écosystème Gemini de Google, ce modèle occupe une position optimisée pour les applications où les contraintes de ressources sont déterminantes. La désignation « Flash » indique une optimisation pour une latence réduite, tandis que « Lite » suggère une architecture rationalisée par rapport aux variantes Gemini standard. En tant que version préliminaire, elle offre aux développeurs un accès anticipé à l'architecture évolutive de modèles légers de Google, bien que les fonctionnalités et caractéristiques de performance puissent évoluer avant la disponibilité générale. Ce modèle illustre l'approche de Google consistant à proposer divers paliers de performance au sein de la famille Gemini pour répondre aux exigences variées des cas d'usage.

Gemini 3.1 Flash Lite Preview représente l'approche de Google pour démocratiser l'accès à des modèles rapides avec une fenêtre de contexte exceptionnellement large, tout en maintenant une empreinte computationnelle réduite.

Analyse Tokonomix des modèles légers
Section 01

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Gemini 3.1 Flash Lite Preview
$0.2500 par 1M de tokens d'entrée
$1.50 par 1M de tokens de sortie
≈ $0.0004 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.2500
par 1M de tokens de sortie$1.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.2500

input / 1M

— no change

$1.50

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Section 02

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Latence optimisée pour applications temps réelFenêtre de contexte 1M tokensArchitecture légère économiqueTraitement de documents longs efficaceSpécialisé pour génération textuelle pureDéploiement rapide dans écosystème GoogleAdapté aux charges conversationnelles élevéesAccès anticipé aux innovations Google

Faiblesses

Statut preview implique instabilité potentielleAucune capacité multimodaleTier C limite la complexitéCapacités exactes non documentées
Section 03

Capacités

outputTokenLimit: 65536
Section 04

Questions fréquentes

Flash Lite privilégie une architecture encore plus compacte avec une empreinte computationnelle réduite, au prix de certaines capacités. Le modèle est optimisé pour des cas d'usage où la vitesse et l'efficacité ressource priment sur la performance maximale.

Pour les équipes recherchant un équilibre entre vitesse de réponse et capacité de traitement de documents volumineux sans nécessiter de capacités multimodales, ce modèle en preview offre une option pragmatique dans l'écosystème Google.

Évaluation Tokonomix
Section 05

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 06

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-596/100 · 68 runs
65 correct3 partial0 wrong96% accuracy
2026-05-24

Gains de qualité et temps de réponse plus rapides avec une excellence technique soutenue

Gemini 3.1 Flash Lite Preview affiche des améliorations mesurables sur les indicateurs clés de cette fenêtre d'évaluation. La qualité globale passe de 95,3 à 96,5, tandis que la latence s'améliore de 20 %, le p50 chutant de 2168ms à 1741ms. Ces progrès représentent des gains tangibles pour l'expérience utilisateur sans compromettre la précision. Les capacités techniques restent exceptionnelles, le raisonnement et le code maintenant tous deux un score parfait de 100 sur les deux fenêtres. La précision factuelle se maintient également au plus haut niveau avec 100 contre 99 précédemment. La catégorie créative présente une variation à la baisse, passant de 93 à 87, mais reste solidement compétitive. La catégorie zorg progresse nettement de 87 à 91, signalant une meilleure gestion de ce type de tâche. La réduction du nombre de tests, de 28 à 11, signifie que les résultats actuels reposent sur un échantillon plus restreint, bien que la constance des scores techniques suggère une performance stable. La combinaison de réponses plus rapides et d'une précision maintenue rend cette itération particulièrement adaptée aux applications exigeant à la fois vitesse et précision. Les utilisateurs peuvent compter sur des performances fiables pour les tâches de raisonnement et de code, tout en bénéficiant de temps d'attente sensiblement réduits.

Quality

96.5

Latency p50

1,741 ms

Test runs

11

Temps de réponse 20 % plus rapides Score de qualité amélioré à 96,5 Performance de Zorg en hausse Les scores créatifs ont diminué
Section 07

Profil complet du modèle

Gemini 3.1 Flash Lite Preview — illustration 1
Gemini 3.1 Flash Lite Preview : le palier économique de nouvelle génération

Note — profil prospectif. Gemini 3.1 Flash Lite Preview (gemini-3.1-flash-lite-preview) est un instantané en préversion. Le comportement, les capacités et les limites de débit évolueront avant la disponibilité générale.

L'entrée de gamme économique de nouvelle génération dans la famille Flash de Google. Une fenêtre de contexte de 1 048 576 tokens. Entrée texte plus vision. Conçu pour faire progresser le palier Lite en matière de qualité de raisonnement et de fiabilité des sorties structurées tout en conservant le positionnement tarifaire qui avait rendu les précédents instantanés Lite viables pour les charges à haut volume.

Le cadrage qui convient à cette préversion. 3.1 Flash Lite est le modèle vers lequel se tourner lorsque 2.5 Flash-Lite est le palier tarifaire souhaité mais que la qualité a été le facteur limitant sur ce que l'on peut mettre en production. La génération 3.1 réduit une partie de cet écart. Que cette réduction soit suffisante pour justifier une migration depuis un déploiement 2.5 Flash-Lite qui fonctionne dépend de votre charge de travail spécifique.

Ce qui a changé depuis 2.5 Flash-Lite

La génération Lite 3.1 apporte plusieurs améliorations par rapport à l'instantané Lite 2.5 :

  • Raisonnement plus solide sur les tâches en plusieurs étapes. Les paliers Lite précédents géraient proprement l'extraction et la classification simples mais peinaient sur le raisonnement enchaîné. La préversion 3.1 montre une amélioration significative à ce niveau.
  • Meilleure attention en long contexte en profondeur. Tient plus fiablement la route au-delà de 200 000 tokens d'entrée que ne le faisait la génération Lite 2.5.
  • Meilleure adhérence aux sorties structurées. Les schémas JSON tiennent de manière fiable même sur des structures imbriquées complexes où le 2.5 Lite dérivait occasionnellement.
  • Posture de refus plus cohérente. Les invites limites obtiennent un traitement qui s'aligne plus étroitement sur celui des grands modèles Gemini — moins d'arbitrages incohérents entre réponse fournie et refus.
  • Qualité de vision plus précise sur les tâches standard de lecture de documents. Toujours en deçà du niveau de la variante Flash complète, mais l'écart est plus réduit qu'à la génération 2.5.

Rien d'individuellement spectaculaire. L'effet cumulé est un palier Lite qui fait davantage de ce qu'un palier Lite devrait pouvoir faire.

Ce qu'il fait bien

La combinaison phare reste la même qu'à la génération Lite 2.5 : une fenêtre de contexte d'un million de tokens à un prix de palier Lite. La préversion 3.1 rend cette combinaison plus exploitable pour les charges de synthèse où les paliers Lite précédents décrochaient.

La latence tient bien la route sur les invites courtes. Le nom Flash-Lite justifie sa place sur la réactivité en streaming. Pour des expériences de chat à ressenti temps réel à faible coût, le profil de latence est réellement exploitable.

L'entrée multimodale gère proprement les tâches courantes de lecture de documents. Captures d'écran, formulaires scannés, captures de tableaux de bord — adéquat pour la plupart des pipelines d'extraction.

L'utilisation d'outils et les sorties structurées sont suffisamment fiables pour des charges de type agent à ce palier. L'adhérence aux schémas est améliorée par rapport au 2.5 Lite.

Ce qu'il fait mal

Toujours un palier Lite. Pour du raisonnement réellement difficile en plusieurs étapes, les variantes Flash 3.x complètes ou le palier Pro sont la bonne montée en gamme.

L'attention en long contexte en profondeur est meilleure que la génération Lite 2.5 mais reste en retrait des variantes Flash complètes sur la synthèse de faits dispersés. Pour des requêtes purement de récupération, le palier Lite tient ; pour de la synthèse en profondeur, montez en gamme.

La qualité de vision est améliorée mais reste inférieure à la variante Flash complète. Pour les charges à forte composante visuelle où la qualité d'image compte plus que le coût, ce n'est pas le bon point de départ.

Les considérations propres au palier préversion s'appliquent. Les limites de débit, la disponibilité régionale et certains comportements spécifiques peuvent évoluer avant la disponibilité générale. Pour des charges de production exigeant un comportement stable dès aujourd'hui, 2.5 Flash-Lite reste le choix plus conservateur.

Où il se situe face à la concurrence

Face aux instantanés Lite précédents — 2.5 Flash-Lite. La préversion 3.1 est la mise à niveau naturelle pour les nouvelles constructions. Pour les déploiements existants, la pertinence de la migration dépend de l'importance des améliorations de qualité pour votre charge spécifique et de l'acceptabilité du comportement préversion.

Face aux préversions Flash 3.x complètes. Les variantes complètes surpassent la variante Lite sur tous les plans, comme attendu. Le choix entre Lite et complet à la génération 3.x se ramène à un arbitrage coût/qualité sur votre charge spécifique, le même que celui de la génération 2.5.

Face aux concurrents de la même tranche. Claude Haiku 4.5 reste le petit modèle le plus solide sur les charges à forte composante de raisonnement, mais ne dispose pas de la fenêtre de contexte de 1 M. Les variantes plus petites d'OpenAI rivalisent en vitesse mais généralement avec un contexte plus court. Pour le coût par appel à grande échelle avec un long contexte, Gemini 3.1 Flash Lite Preview est positionné pour dominer sa tranche lorsqu'il atteindra la disponibilité générale.

La vue par catégorie se trouve sur /benchmarks/leaderboard et les scores par catégorie sur /benchmarks/intelligence.

Là où il est réellement utile

Quelques charges de travail où la préversion Lite 3.1 s'inscrit proprement :

  • Routage et classification de FAQ à haut volume où le facteur décisif est le débit plutôt que la profondeur de raisonnement, mais où le raisonnement du 2.5 Lite était parfois trop léger.
  • Triage de service client à grande échelle avec logique de routage en plusieurs étapes.
  • Récupération en long contexte sur documents structurés où la qualité d'attention au-delà de 200 000 tokens compte.
  • Prototypage de nouvelles conceptions d'agents où le coût par appel est suffisamment faible pour que l'expérimentation ne nécessite pas d'approbation budgétaire.
  • Support client multilingue où la génération 3.1 gère les langues européennes courantes avec une fidélité terminologique légèrement améliorée.

Là où c'est le mauvais outil

Charges de production qui ont besoin d'un comportement stable dès aujourd'hui. Utilisez 2.5 Flash-Lite jusqu'à ce que la préversion 3.1 atteigne la disponibilité générale.

Tout ce qui exige un raisonnement profond en plusieurs étapes. Montez en gamme vers les variantes Flash 3.x complètes ou vers un palier Pro.

Charges à forte composante visuelle où la qualité d'image compte. Les variantes Flash complètes produisent une sortie nettement meilleure.

Applications critiques en matière de sûreté sans vérification en aval. La posture de refus est améliorée mais reste en deçà du niveau des grands modèles Gemini.

Voix temps réel. Pas d'entrée audio. Le guide du pipeline vocal sur /usecases/voice couvre la bonne architecture.

Notes de déploiement

API Google Gemini standard. REST, streaming, utilisation d'outils, sorties structurées — tout se comporte comme attendu pour la surface de capacités sous-jacente.

La disponibilité régionale suit le schéma standard Vertex AI de Google. Les régions UE sont disponibles via contrats entreprise. L'accès API grand public clé en main n'épingle pas de région. Pour des contraintes de résidence strictes, la documentation régionale Vertex AI est la référence appropriée.

La tarification du palier préversion ne devrait pas servir de base à une modélisation de coût à long terme. La structure tarifaire à la disponibilité générale peut différer des tarifs préversion. Planifiez vos hypothèses de capacité en conséquence.

Les limites de débit et la stabilité comportementale sont les principales considérations opérationnelles pendant la préversion. Les migrations en production devraient anticiper la possibilité de changements de comportement avant la disponibilité générale et valider les contrats en aval par rapport aux sorties évolutives du modèle.

Le choisir

Tournez-vous vers Gemini 3.1 Flash Lite Preview lorsque :

  • Vous explorez les capacités de palier Lite de nouvelle génération en vue d'un futur déploiement en production.
  • La charge était contrainte par la profondeur de raisonnement du 2.5 Flash-Lite et vous voulez voir si la 3.1 comble l'écart.
  • Les limites de débit du palier préversion conviennent à votre profil de trafic.
  • Vous êtes déjà sur la pile Google et souhaitez y rester.

Choisissez autre chose lorsque :

  • Vous avez besoin d'un comportement stable en production dès aujourd'hui. Utilisez 2.5 Flash-Lite.
  • La charge demande une profondeur de raisonnement ou une qualité de vision au-delà de ce qu'offre un palier Lite.
  • Vous avez besoin du compromis tarifaire plus un raisonnement modeste, et 2.5 Flash-Lite le couvre déjà. La migration dans ce cas peut ne pas valoir le travail de validation.
  • Le travail concerne l'audio, la voix ou la vidéo.

Le résumé. Instantané de palier Lite de nouvelle génération prometteur qui comble des écarts significatifs depuis la génération 2.5. Pour l'exploration en palier préversion et le travail de conception prospectif, c'est le bon point de départ. Pour des déploiements stables en production aujourd'hui, 2.5 Flash-Lite reste le choix conservateur jusqu'à ce que la lignée 3.1 atteigne la disponibilité générale.

Essayez-le sur les mêmes invites que vous passez par 2.5 Flash-Lite sur /live-test. Les écarts apparaissent le plus clairement en comparaison directe.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

Gemini 3.1 Flash Lite Preview — illustration 2
Dernier test automatisé
27 mai 2026 · 21:59 UTC · Benchmark
Latence P50
Latence P95
Erreurs
1 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026