Tier B — Production

Fonctionne en :USCréé en :United States

Gemini 3.1 Flash Lite

Tier B — Production · 1.048576M tokens

Équipe éditoriale Tokonomix·Relu par Mes Kalkan·Publié le 27 mai 2026·Dernière relecture 19 juillet 2026

Section 01

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100

Génération de code

100

Multilingue

Créatif

Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰

Tarifs API — Gemini 3.1 Flash Lite

$0.2500 par 1M de tokens d'entrée

$1.50 par 1M de tokens de sortie

≈ $0.0004 par conversation typique (800 tokens)

Prix entrée vs sortie (par 1M de tokens)

par 1M de tokens d'entrée$0.2500

par 1M de tokens de sortie$1.50

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.2500

input / 1M

▼ −44% since first

$1.50

output / 1M

▼ −44% since first

2026-06-072026-06-282026-07-19

Input

Output

Price change

⟳ synced weekly

Section 03

Capacités

toolssource: litellmvisionjson modepdf inputreasoningaudio inputjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65536

Section 04

Disponibilité

La fréquence à laquelle ce modèle répond lorsqu'on l'appelle — mesurée sur de vraies requêtes API et des tests en direct au cours des 30 derniers jours. C'est indépendant de la qualité : ces chiffres indiquent seulement si le modèle répond, pas la qualité de sa réponse.

7 derniers jours

100.0%

n=4

30 derniers jours

100.0%

n=165

Temps de réponse médian

1,274ms

n=165

Basé sur 185 mesures au cours des 30 derniers jours.

Détails techniques

Seuls les vrais appels API et les requêtes de test en direct sont comptés — les sondes internes et les benchmarks sont exclus.

Les appels avec une clé API personnalisée (BYOK) sont exclus : ces échecs sont spécifiques à la clé, pas un signe de défaillance du modèle.

Les appels échoués ne sont PAS inclus dans les scores de qualité — la qualité est mesurée uniquement sur les réponses réussies. Disponibilité et qualité sont des signaux indépendants.

Temps de réponse médian (p50) sur les appels réussis avec une durée enregistrée. Les valeurs extrêmes influencent moins la médiane que la moyenne.

Total des appels (30d)

165

Réponses OK (30d)

165

Total des appels (7d)

Réponses OK (7d)

Section 05

Verdicts benchmark Tokonomix

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-597/100 · 42 runs

38 correct4 partial0 wrong90% accuracy

● 2026-07-19

Quality decline across categories with reasoning performance now unmeasured

Gemini 3.1 Flash Lite shows a notable 6-point drop in overall quality score, falling from 99.3 to 93.3 out of 100 in the current benchmark window. The model maintains perfect scores in coding and multilingual tasks at 100 each, but creative performance registered at just 80, suggesting potential regression in generative capabilities. Most concerning is the complete absence of reasoning scores in the current window, despite achieving a perfect 100 in this category previously. This missing data point makes it difficult to assess whether the model has actually lost reasoning capability or if the test coverage has simply changed. Latency remains relatively stable with a marginal increase from 1408ms to 1460ms at the median, representing a 52ms degradation that should be negligible for most use cases. The consistency in test runs at 5 per window provides reasonable confidence in these measurements. Users should be aware that while specialized tasks like coding and multilingual processing remain strong, the overall reliability appears to have decreased. The missing reasoning benchmark is particularly notable given its previous perfect performance, and users relying on logical inference capabilities should exercise caution until this metric is re-established.

Quality

93.3

Latency p50

1,460 ms

Test runs

✗ Quality dropped 6 points✗ Reasoning category no longer tested✗ Creative score fell to 80✓ Coding and multilingual remain perfect

Dernier test automatisé

19 juil. 2026 · 05:23 UTC · Benchmark

Latence P50

1310 ms

Latence P95

—

Erreurs

0 / 6 exécutions

Dernière revue par Équipe Tokonomix·19 juillet 2026