Aller au contenu
Tier A — Frontier
Fonctionne en :USCréé en :United States
Google Gemini

Gemini 2.5 Flash

Tier A — Frontier · 1.048576M tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Gemini 2.5 Flash est un grand modèle de langage développé par Google dans le cadre de la famille de systèmes d'IA Gemini. Il est conçu pour des tâches standard de génération de texte, offrant un équilibre entre performance et efficacité adapté à un large éventail d'applications de traitement du langage naturel. Le modèle prend en charge des tâches telles que la réponse aux questions, la synthèse, l'écriture créative, la génération de code et les interactions conversationnelles générales. Une caractéristique technique majeure de Gemini 2.5 Flash est sa fenêtre de contexte exceptionnellement vaste de 1 048 576 tokens (environ 1 million de tokens). Cette capacité étendue permet au modèle de traiter et de maintenir la cohérence sur des documents très longs, des conversations étendues ou des bases de code volumineuses au sein d'une seule requête. Cela le rend particulièrement utile pour les applications nécessitant l'analyse de documents volumineux ou le maintien du contexte sur des interactions prolongées. Au sein de la gamme Gemini de Google, la variante 2.5 Flash se positionne comme une option plus rapide et plus économe en ressources comparée à des modèles plus volumineux comme Gemini Pro ou Ultra, tout en conservant de solides performances sur les tâches linguistiques généralistes. La désignation « Flash » indique une optimisation pour la vitesse et une latence réduite, ce qui le rend adapté aux applications où le temps de réponse est important. Il constitue une itération de l'architecture Gemini 2.0 avec des améliorations à la fois en capacité et en efficacité, ciblant les développeurs et organisations recherchant des performances solides de modèle de langage sans nécessiter la charge computationnelle des plus grands modèles disponibles.

Gemini 2.5 Flash allie une fenêtre de contexte d un million de tokens à une vitesse de traitement optimisée pour les applications modernes.

Synthèse benchmark Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9597 runs
352161728814146541005-2206-15ms
Section 02

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

35
Génération de code
19
Multilingue
28
Raisonnement
Section 03

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Gemini 2.5 Flash
$0.3000 par 1M de tokens d'entrée
$2.50 par 1M de tokens de sortie
≈ $0.0007 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.3000
par 1M de tokens de sortie$2.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.3000

input / 1M

▲ +275% since first

$2.50

output / 1M

▲ +733% since first

2026-05-242026-05-312026-06-14
Input
Output
Price change
⟳ synced weekly
Section 04

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)159 / avg 335
56251

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 05

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Latence optimisée pour applicationsContexte d un million de tokensGénération de code performanteCréation de contenu polyvalenteBon débit pour volume élevéCapacités multilingues solidesAnalyse et résumé de documents

Faiblesses

Raisonnement moins profond que ProLimites sur tâches très spécialiséesMoins précis en mathématiques avancées
Section 06

Capacités

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65535
Section 07

Questions fréquentes

Cette capacité permet de traiter de très longs documents, des bases de code étendues et des conversations avec un historique important dans une seule requête.

Le modèle Flash de Google redéfinit l équilibre entre rapidité et capacité de contexte.

Synthèse benchmark Tokonomix
Section 08

Disponibilité

Disponibilité

La fréquence à laquelle ce modèle répond lorsqu'on l'appelle — mesurée sur de vraies requêtes API et des tests en direct au cours des 30 derniers jours. C'est indépendant de la qualité : ces chiffres indiquent seulement si le modèle répond, pas la qualité de sa réponse.

7 derniers jours

100.0%

n=36

30 derniers jours

100.0%

n=36

Temps de réponse médian

3,597ms

n=36

Basé sur 104 mesures au cours des 30 derniers jours.

Détails techniques

Seuls les vrais appels API et les requêtes de test en direct sont comptés — les sondes internes et les benchmarks sont exclus.

Les appels avec une clé API personnalisée (BYOK) sont exclus : ces échecs sont spécifiques à la clé, pas un signe de défaillance du modèle.

Les appels échoués ne sont PAS inclus dans les scores de qualité — la qualité est mesurée uniquement sur les réponses réussies. Disponibilité et qualité sont des signaux indépendants.

Temps de réponse médian (p50) sur les appels réussis avec une durée enregistrée. Les valeurs extrêmes influencent moins la médiane que la moyenne.

Total des appels (30d)

36

Réponses OK (30d)

36

Total des appels (7d)

36

Réponses OK (7d)

36

Pilote contrôle qualité image (2026-06-10)

Rappel

36.9%

n=300

Faux positifs

7.9%

n=300

Section 09

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-538/100 · 76 runs
16 correct9 partial51 wrong21% accuracy
2026-06-14

Major quality decline with 26-point drop across most categories

Gemini 2.5 Flash experienced a significant performance degradation in the current benchmark window, with overall quality falling from 53.6 to 27.2 points. This 26.4-point decline represents nearly a 50% reduction in measured capability. The coding category shows mixed signals, rising from 15 to 35 points, suggesting some improvement in technical task handling. However, this gain is overshadowed by severe regressions elsewhere. Multilingual performance dropped dramatically from 40 to 19 points, indicating substantial difficulties with non-English language tasks. Reasoning capabilities declined from unmeasured in the previous window to a measured score of 28 points. Most notably, creative tasks which previously scored a perfect 100 are no longer being measured, along with factual tasks that previously scored 60 points. The absence of these category measurements in the current window makes direct comparison challenging but suggests potential shifts in model focus or capability boundaries. Latency remained relatively stable at 3888ms compared to the previous 3957ms, showing consistent response times despite the quality changes. Users should expect notably reduced performance across language understanding and general task quality compared to the previous version.

Quality

27.2

Latency p50

3,888 ms

Test runs

5

Quality dropped 26 points Multilingual score halved Coding improved from 15 to 35 Latency remained stable
Section 10

Profil complet du modèle

Gemini 2.5 Flash — illustration 1
Gemini 2.5 Flash : le cheval de bataille de la ligne Gemini en production

Gemini 2.5 Flash (gemini-2.5-flash) est le modèle sur lequel la plupart des déploiements Gemini en production ont tourné tout au long du second semestre 2025 et au début 2026. Une fenêtre de contexte de 1 048 576 tokens. Entrée texte-plus-vision. Traitement multimodal natif qui rivalise de front avec le niveau intermédiaire d'Anthropic et les variants GPT-5 plus petits d'OpenAI.

Si vous avez passé du temps à discuter avec une équipe solutions Google en 2025 du "bon Gemini à mettre en production à grande échelle", c'est ce modèle qu'on vous a indiqué. C'est le cheval de bataille de la famille, et il a mérité ce positionnement.

Pourquoi cet instantané a séduit

Plusieurs éléments se sont mis en place ensemble dans 2.5 Flash qui en ont fait la cible d'upgrade par défaut pour les équipes sous 2.0 Flash :

  • Un raisonnement plus acéré que la génération 2.0, notamment sur les charges de travail d'extraction multi-étapes et de sortie structurée où 2.0 Flash peinait parfois.
  • Une meilleure adhérence aux schémas JSON. Les schémas imbriqués complexes sont gérés de façon fiable sans la dérive de noms de champs qu'affichaient parfois les instantanés Flash précédents.
  • Une meilleure attention long-contexte en profondeur. La fenêtre 1M est plus utilisable pour les tâches de synthèse au-delà de 200 000 tokens que dans la génération 2.0.
  • Un temps jusqu'au premier token plus rapide sur les prompts courts. Le label "Flash" méritait son nom au lancement et le 2.5 conserve ce profil de latence.
  • Une meilleure qualité vision sur les documents, graphiques et diagrammes.

Aucun de ces points n'est individuellement spectaculaire. Empilés ensemble, ils ont rendu le calcul de migration depuis 2.0 Flash suffisamment favorable pour que la plupart des équipes y passent.

Ce qu'une fenêtre de 1M tokens vous apporte concrètement

Un million de tokens, c'est assez pour une base de code conséquente, un long rapport trimestriel, ou une charge de travail multi-documents. L'argument marketing est fondé. La question pratique est celle qui s'applique à tout modèle à long contexte : l'attention tient-elle sur l'ensemble du tampon, ou le modèle perd-il le fil du début quand la fin est pleine ?

Gemini 2.5 Flash maintient son attention raisonnablement sur l'ensemble de la fenêtre. La qualité de récupération d'informations reste acceptable bien au-delà des 200 000 tokens où la génération 2.0 commençait à décrocher. Au-delà d'environ 600 000 tokens, la latence s'allonge visiblement. Le tableau de vitesse en temps réel est sur /benchmarks/speed.

Deux implications pratiques. Premièrement, la longue fenêtre est utilisable pour des tâches comme l'analyse de documents complets, la revue de documents croisés et la gestion d'état conversationnel sur de longs fils — pas seulement un chiffre de fiche technique. Deuxièmement, le prompt caching est le bon schéma pour les requêtes répétées sur un même large corpus. Recharger 800 000 tokens de contexte à chaque appel coûte cher en temps réel même quand l'appel API réussit.

Une vision sérieusement compétitive

La génération 2.5 a comblé l'écart de qualité vision que Gemini Flash portait dans ses instantanés précédents. Captures d'écran de documents, PDF scannés rendus en images, tableaux de bord, diagrammes. L'extraction de tableaux est propre. Les graphiques avec des tailles d'étiquettes raisonnables sont décrits avec précision, y compris les unités d'axe et les ordres de grandeur des différences.

L'écriture manuscrite reste le point faible. Tout comme les figures scientifiques très denses. Tout ce qu'un humain devrait zoomer bénéficie d'une étape de vérification. Pour la plupart des charges de travail de lecture de documents en production, 2.5 Flash est dans la bande où vous pouvez faire confiance à la sortie sans escalader vers un modèle de niveau Pro.

Positionnement face à la concurrence

Le tableau concurrentiel honnête pour Gemini 2.5 Flash à mi-2026 :

Face au niveau intermédiaire d'Anthropic. Claude Sonnet 4.5 gagne sur la prose administrative en langues européennes et la cohérence des refus sur les sorties structurées. Gemini 2.5 Flash gagne sur la vitesse brute pour les prompts courts et sur l'utilisation de la fenêtre 1M au-delà des 200 000 tokens où Sonnet 4.5 commence à décrocher. Claude Haiku 4.5 rivalise sur le coût par appel pour les tâches plus simples.

Face au niveau intermédiaire d'OpenAI. Les variants mid-tier de GPT-5 rivalisent sur la vitesse brute et la qualité de génération de code. 2.5 Flash gagne sur le multimodal au-delà des images — la compréhension audio et vidéo native est plus solide dans la famille Gemini.

Face au reste de la ligne Gemini. Gemini 2.5 Pro est l'upgrade pour les travaux lourds en raisonnement. Les préversions 3.x Flash sont l'upgrade pour les capacités les plus récentes, avec les réserves habituelles des préversions sur les limites de taux et la stabilité du comportement.

Le tableau par catégorie est sur /benchmarks/leaderboard et les scores par catégorie sur /benchmarks/intelligence.

Quand ce n'est pas le bon outil

Le raisonnement de niveau supérieur. Montez vers Gemini 2.5 Pro ou 3 Pro Preview pour les tâches nécessitant un raisonnement multi-étapes profond.

Les travaux par lots ultra-sensibles au coût à grande échelle. Gemini 2.5 Flash-Lite est le niveau moins cher pour les charges de travail où le coût domine toute autre considération.

La voix en temps réel avec faible latence de bout en bout. Pour les architectures voix-en-voix-sortie, consultez les modèles audio-natifs de la famille. Le guide de pipeline vocal sur /usecases/voice couvre l'architecture adaptée.

La génération de code pour des frameworks évoluant rapidement où vous voulez la meilleure sortie idiomatique. 2.5 Flash est compétent mais pas spécialisé. L'étude de modèles sur /usecases/code couvre les alternatives.

Le déploiement auto-hébergé ou le fine-tuning au-delà de l'adaptation standard. Google ne livre pas les poids Gemini. Pour les charges de travail nécessitant un déploiement on-premise, l'étude open-weight sur /usecases/local est le bon point de départ.

Notes de déploiement

API Google Gemini standard. REST, streaming, appels d'outils, sortie structurée — tout se comporte comme prévu. Le modèle est bien instrumenté et s'intègre proprement avec l'outillage Vertex AI plus large pour la surveillance et la journalisation.

La disponibilité régionale suit le schéma Vertex AI de Google. Les régions UE sont disponibles sur les contrats Enterprise. L'accès à l'API grand public n'épingle pas de région. Pour les contraintes de résidence strictes, la documentation régionale de Vertex AI est la bonne référence.

La tarification est compétitive avec les options de niveau intermédiaire d'Anthropic et d'OpenAI. Pour les charges de travail à volume élevé, le coût par appel est l'un de plusieurs facteurs — la latence, la fenêtre de contexte et la qualité sur vos prompts spécifiques comptent plus que le tarif affiché.

Quand l'adopter

Choisissez Gemini 2.5 Flash quand :

  • Vous voulez un modèle intermédiaire solide avec une fenêtre de contexte d'un million de tokens utilisable.
  • La charge de travail inclut de l'entrée vision sur des documents, graphiques ou diagrammes.
  • La latence sur les prompts courts compte autant que la qualité sur les longs.
  • Vous êtes déjà sur la pile Google ou avez de la flexibilité multi-cloud.

Choisissez autre chose quand :

  • La charge de travail nécessite un raisonnement de niveau supérieur. Montez vers 2.5 Pro ou 3 Pro Preview.
  • Le coût par appel domine et la baisse de qualité vers Flash-Lite est acceptable.
  • Vous avez besoin d'une posture de refus cohérente correspondant au style Anthropic. Claude est le meilleur choix.
  • Le travail est audio-natif ou vidéo-natif. Regardez les modèles spécifiques à la modalité.

En résumé. Gemini 2.5 Flash est le choix par défaut ennuyeux et correct pour les déploiements Gemini en production. Les préversions 3.x plus récentes peuvent être plus performantes en pointe, mais pour la stabilité, les limites de taux et un comportement bien compris, 2.5 Flash est le bon point de départ pour la plupart des équipes.

Testez-le face aux alternatives sur vos propres prompts à /live-test. Même prompt, plusieurs modèles, côte à côte.

Dernière vérification technique : 2026-05-22 — Tokonomix.ai

Gemini 2.5 Flash — illustration 2
Dernier test automatisé
15 juin 2026 · 08:00 UTC · Benchmark de vitesse
Latence P50
1258 ms
Latence P95
1363 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·24 mai 2026