Aller au contenu
Tier B — Production
Fonctionne en :USCréé en :United States
Google Gemini

Gemini 2.5 Flash-Lite

Tier B — Production · 1.048576M tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Gemini 2.5 Flash-Lite est un grand modèle de langage développé par Google dans le cadre de la famille Gemini. Il est conçu pour des tâches standard de génération de texte, offrant un équilibre entre performance et efficacité des ressources. Le modèle est positionné comme une variante allégée au sein de la série Gemini 2.5, optimisée pour les applications où une réduction de la charge de calcul est bénéfique tout en maintenant des capacités solides de compréhension et de génération du langage naturel. Une caractéristique technique clé de Gemini 2.5 Flash-Lite est sa fenêtre de contexte de 1,048,576 tokens, soit environ un million de tokens. Cette capacité de contexte étendue permet au modèle de traiter et de raisonner sur des volumes substantiels de texte en un seul appel d'inférence, le rendant adapté aux tâches impliquant de longs documents, des historiques de conversation étendus ou des interactions complexes à plusieurs tours. Le modèle prend en charge les capacités standard de génération de texte, y compris la réponse aux questions, la synthèse, la création de contenu et les applications de dialogue. Au sein de la gamme Gemini de Google, la variante 2.5 Flash-Lite se situe en dessous des modèles Flash et Pro standard en termes d'intensité de calcul, offrant une option plus accessible pour les développeurs et les applications soumises à des contraintes de latence ou de débit. Elle illustre l'approche de Google consistant à proposer des options de modèles hiérarchisées répondant à différentes exigences d'usage, des environnements de production à haut débit aux déploiements expérimentaux ou à ressources limitées. Le modèle est accessible via les services AI Platform de Google et les points d'accès API standard.

Gemini 2.5 Flash-Lite offre un million de tokens de contexte dans un modèle optimisé pour les contraintes de ressources.

Synthèse benchmark Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9597 runs
3223425652796301273205-2206-15ms
Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
97
Multilingue
100
Raisonnement
Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Gemini 2.5 Flash-Lite
$0.1000 par 1M de tokens d'entrée
$0.4000 par 1M de tokens de sortie
≈ $0.0001 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.1000
par 1M de tokens de sortie$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.4000

output / 1M

— stable

2026-05-242026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)441 / avg 398
61517

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Faible consommation de ressourcesContexte d un million de tokensRéponses rapidesRapport coût-performance avantageuxTâches textuelles standardsBon débit pour applications légères

Faiblesses

Raisonnement limité vs Flash standardMoins adapté aux analyses complexesCapacités spécialisées réduites
Section 06

Capacités

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65535
Section 07

Questions fréquentes

Flash-Lite est conçu pour minimiser les ressources computationnelles tout en conservant la fenêtre de contexte d un million de tokens, au prix d un raisonnement légèrement réduit.

Flash-Lite est la solution Google pour les développeurs soucieux de l efficacité sans sacrifier la capacité de contexte.

Synthèse benchmark Tokonomix
Section 08

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 09

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-590/100 · 72 runs
56 correct13 partial3 wrong78% accuracy
2026-06-14

Gemini 2.5 Flash-Lite adds tools and vision while maintaining performance

Gemini 2.5 Flash-Lite has expanded significantly with the addition of seven new capabilities including tools, vision, reasoning, PDF input, and various JSON modes. These additions transform the model from a text-only processor into a multimodal system with function calling and structured output support. Performance metrics remain exceptionally strong, though no current benchmark data is available for direct comparison. The previous window showed perfect scores across language understanding and generation tasks with notably low latency. The new capabilities suggest the model can now handle complex workflows involving image analysis, document processing, and API integrations while potentially maintaining its speed advantage. Users should note that parallel tool calling and prompt caching support indicate optimization for production use cases. The reasoning capability addition suggests improved handling of multi-step problems. However, without current performance data, it remains unclear whether these extensive new features impact the model's previous speed characteristics or accuracy levels. The transformation from a lightweight text model to a full-featured multimodal system represents a significant evolution in the model's intended use cases and target applications.

Quality

Latency p50

Test runs

0

Seven new capabilities added Vision and tool support enabled Reasoning capability introduced PDF input now supported
Section 10

Profil complet du modèle

Gemini 2.5 Flash-Lite — illustration 1
Gemini 2.5 Flash-Lite : le niveau économique de la famille Flash de production

Gemini 2.5 Flash-Lite (gemini-2.5-flash-lite) est le modèle d'entrée économique de la famille Flash 2.5 de production. Une fenêtre de contexte de 1 048 576 tokens — la même fenêtre que le variant Flash 2.5 complet. Entrée texte-plus-vision. Conçu pour les travaux à volume élevé où le coût par appel compte plus que la capacité absolue.

Le cadrage qui convient à cet instantané : Flash-Lite est le bon choix quand vous avez regardé le Flash complet et décidé que la qualité dépasse ce que votre charge de travail nécessite réellement, et regardé le niveau Pro en décidant que le coût dépasse ce que votre charge de travail justifie. Il se positionne dans la bande économique intentionnellement, et il le fait bien.

Pourquoi cet instantané a séduit

Plusieurs éléments se sont mis en place dans 2.5 Flash-Lite qui en ont fait la cible d'upgrade standard pour les équipes sous 2.0 Flash-Lite :

  • Un raisonnement plus acéré que la génération 2.0, notamment sur les tâches d'extraction multi-étapes où 2.0 Flash-Lite peinait parfois.
  • Une meilleure adhérence aux sorties structurées. Les schémas JSON tiennent de façon fiable même au niveau Lite.
  • Une meilleure attention long-contexte en profondeur. La fenêtre 1M est plus utilisable au-delà de 200 000 tokens que dans l'instantané 2.0 Lite.
  • Une meilleure qualité vision sur les tâches standard de lecture de documents.
  • Une posture de refus plus alignée avec les grands modèles Gemini — moins de traitement incohérent des prompts limites.

Pour la plupart des charges de travail sous 2.0 Flash-Lite, le calcul de migration était suffisamment favorable pour que les équipes y passent.

Ce qu'il fait bien

La fenêtre de contexte 1M à un prix de niveau Lite est l'argument phare. Peu de concurrents dans la même bande offrent autant de contexte, et 2.5 Flash-Lite l'utilise de façon nettement plus significative que la génération 2.0.

La latence tient bien sur les prompts courts. Le modèle streame rapidement et reste réactif à mesure que l'entrée grandit. Pour les expériences de chat semblant temps réel à faible coût, le profil de latence est genuinement utilisable.

L'entrée multimodale fonctionne pour les charges de travail routinières de lecture de documents. Captures d'écran, formulaires scannés, tableaux de bord — le modèle les gère avec assez de soin pour la plupart des pipelines d'extraction. Pas de premier rang pour la vision, mais solidement dans la bande où vous pouvez faire confiance à la sortie pour les tâches standard.

Les appels d'outils et les sorties structurées sont suffisamment fiables pour la plupart des charges de travail de forme agentique à ce niveau.

Ce qu'il fait mal

La profondeur de raisonnement est la limitation visible. Le modèle gère proprement l'extraction et la classification simples mais peine sur le raisonnement multi-étapes. Pour les tâches nécessitant une synthèse soigneuse, le variant Flash 2.5 complet est le bon upgrade.

La qualité d'attention long-contexte est nettement meilleure que la génération 2.0 Lite mais reste en retrait sur le variant Flash 2.5 complet pour la synthèse sur des faits dispersés. Pour les requêtes de style récupération pure sur des entrées bien structurées, le niveau Lite tient. Pour la synthèse en profondeur, montez.

La qualité vision est inférieure au variant Flash 2.5 complet et bien inférieure au variant Pro 2.5. Pour les charges de travail lourdes en vision où la qualité des images compte plus que le coût, c'est le mauvais point de départ.

La génération de code est compétente pour les tâches simples mais conservatrice sur les complexes. Le niveau Lite n'est pas la bonne bande pour un travail de code adapté à l'IDE.

Positionnement face à la concurrence

Face aux instantanés Lite plus récents — la 3.1 Flash Lite Preview — 2.5 Flash-Lite est le choix le plus stable en production. La préversion 3.1 montre des améliorations sur certaines catégories mais présente des considérations de limites de taux et de comportement de niveau préversion.

Face aux concurrents dans la même bande. Claude Haiku 4.5 est plus performant sur les charges de travail plus lourdes en raisonnement mais ne correspond pas à la fenêtre de contexte 1M. Les petits variants OpenAI rivalisent sur la vitesse mais généralement avec des contextes plus courts. Pour le coût par appel à grande échelle avec long contexte, 2.5 Flash-Lite est l'un des meilleurs choix actuels.

Pour un coût inférieur au centime à des tailles de contexte plus petites, les options open-weight hébergées sur OVH recensées sur /usecases/local rivalisent sur un axe différent.

Le tableau par catégorie est sur /benchmarks/leaderboard et les scores par catégorie sur /benchmarks/intelligence.

Où il est réellement utile

Quelques charges de travail où 2.5 Flash-Lite atteint son point idéal :

  • Le routage de FAQ à volume élevé où le facteur décisif est le débit plutôt que la profondeur de raisonnement.
  • Le triage et la classification du service client à grande échelle.
  • La récupération long-contexte sur des documents structurés où le modèle doit simplement trouver des faits plutôt que les synthétiser.
  • Le prototypage où le coût par appel est assez bas pour expérimenter sans approbation budgétaire.
  • Le support client multilingue pour les requêtes de routine — le modèle gère adéquatement les langues européennes courantes même au niveau Lite.

Quand ce n'est pas le bon outil

Tout ce qui nécessite un raisonnement multi-étapes profond. Montez vers le variant Flash 2.5 complet ou vers un niveau Pro.

Les charges de travail lourdes en vision où la qualité des images compte. Les variants Flash 2.5 complet et Pro 2.5 produisent une sortie nettement meilleure.

Les applications critiques en matière de sécurité sans vérification en aval. La posture de refus est raisonnable mais pas au niveau des grands modèles Gemini.

La génération de code pour des frameworks évoluant rapidement. Le niveau Lite n'est pas la bonne bande. L'étude de modèles sur /usecases/code couvre les alternatives.

La voix en temps réel. Pas d'entrée audio. Le guide de pipeline vocal sur /usecases/voice couvre l'architecture adaptée.

Notes de déploiement

API Google Gemini standard. REST, streaming, appels d'outils, sortie structurée — tout se comporte comme prévu pour la surface de capacité sous-jacente.

La disponibilité régionale suit le schéma Vertex AI de Google. Les régions UE sont disponibles sur les contrats Enterprise. L'accès à l'API grand public n'épingle pas de région.

La tarification est le différenciateur historique pour ce niveau. La tarification Vertex AI actuelle doit être la référence plutôt que les chiffres de lancement. Pour les charges de travail à très grand volume, l'écart de coût par appel par rapport au Flash 2.5 complet compte ; vérifiez si la qualité dont vous avez réellement besoin justifie le passage à la version supérieure.

Quand l'adopter

Choisissez Gemini 2.5 Flash-Lite quand :

  • La charge de travail est à volume élevé et le coût par appel compte.
  • Vous avez besoin de la fenêtre de contexte 1M à un prix de niveau Lite.
  • La tâche est de l'extraction, de la classification, de la récupération ou du routage plutôt que du raisonnement profond.
  • Vous êtes déjà sur la pile Google et voulez y rester.

Choisissez autre chose quand :

  • La charge de travail nécessite une profondeur de raisonnement ou une synthèse soigneuse. Montez vers Flash 2.5 complet.
  • La qualité de vision compte plus que le coût.
  • Application critique en matière de sécurité sans vérification en aval. Utilisez un modèle plus grand.
  • Le travail est audio, vocal ou vidéo.

En résumé. Un solide modèle économique qui fait bien son niveau. Pour les travaux à volume élevé où les exigences de qualité sont modestes et la fenêtre de contexte compte, 2.5 Flash-Lite est l'un des meilleurs choix du marché.

Comparez avec les alternatives sur vos propres prompts à /live-test.

Dernière vérification technique : 2026-05-22 — Tokonomix.ai

Gemini 2.5 Flash-Lite — illustration 2Gemini 2.5 Flash-Lite — illustration 3
Dernier test automatisé
15 juin 2026 · 08:00 UTC · Benchmark de vitesse
Latence P50
454 ms
Latence P95
502 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·24 mai 2026