İçeriğe geç
Seviye B — Üretim
Çalıştığı yer:USYapıldığı yer:United States
Google Gemini

Gemini 2.5 Flash-Lite

Seviye B — Üretim · 1.048576M token

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

Gemini 2.5 Flash-Lite, Google tarafından Gemini ailesinin bir parçası olarak geliştirilen büyük bir dil modelidir. Standart metin üretim görevleri için tasarlanmış olup performans ile kaynak verimliliği arasında bir denge sunar. Model, Gemini 2.5 serisi içinde hafif bir varyant olarak konumlandırılmış ve doğal dil anlama ile üretim yeteneklerini korurken hesaplama yükünün düşük olmasının fayda sağladığı uygulamalar için optimize edilmiştir. Gemini 2.5 Flash-Lite'ın temel teknik özelliklerinden biri, yaklaşık bir milyon token'a karşılık gelen 1,048,576 token'lık bağlam penceresidir. Bu genişletilmiş bağlam kapasitesi, modelin tek bir çıkarım çağrısında büyük miktarda metin üzerinde işlem yapmasına ve akıl yürütmesine olanak tanır; bu da onu uzun belgeler, kapsamlı konuşma geçmişleri veya karmaşık çok turlu etkileşimler içeren görevler için uygun hale getirir. Model; soru yanıtlama, özetleme, içerik oluşturma ve diyalog uygulamaları dahil olmak üzere standart metin üretim yeteneklerini destekler. Google'ın Gemini serisi içinde 2.5 Flash-Lite varyantı, hesaplama yoğunluğu açısından standart Flash ve Pro modellerinin altında konumlanmakta olup gecikme veya iş hacmi gereksinimleri konusunda kısıtlamaları bulunan geliştiriciler ve uygulamalar için daha erişilebilir bir seçenek sunar. Bu model, Google'ın yüksek iş hacmine sahip üretim ortamlarından deneysel veya kaynakları sınırlı dağıtımlara kadar farklı kullanım senaryosu gereksinimlerini karşılayan kademeli model seçenekleri sunma yaklaşımını temsil eder. Model, Google'ın AI Platform hizmetleri ve standart API erişim noktaları aracılığıyla kullanılabilir.

Google altyapısıyla desteklenen bu model, geniş bilgi tabanını etkin biçimde kullanıyor.

Tokonomix benchmark özeti
Bölüm 01

Hız analizi

Tüm benchmark çalıştırmalarında ölçülen gecikme. P50 (medyan) ve P95 (95. yüzdelik) normal ve yoğun yük altında yanıt hızının gerçekçi bir resmini verir.

P50 gecikme (medyan)P95 gecikme97 runs
3223425652796301273205-2206-15ms
Bölüm 02

Kalite puanları

Çeşitli görev kategorilerinde yargıç modelin puanlarından elde edilen değerlendirme sonuçları. Puanlar tutarlılık, doğruluk ve talimat takibini yansıtır.

100
Kod üretimi
97
Çok dilli
100
Akıl yürütme
Bölüm 03

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — Gemini 2.5 Flash-Lite
$0.1000 1M giriş token başına
$0.4000 1M çıkış token başına
≈ $0.0001 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$0.1000
1M çıkış token başına$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1000

input / 1M

— stable

$0.4000

output / 1M

— stable

2026-05-242026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Bölüm 04

Saniye başına token

Ölçülen P50 gecikmesinden türetilen saniye başına token verimi. Yüksek daha iyidir; dalgalanmalar sağlayıcı tarafındaki yükü yansıtır.

Verim (token / s)441 / avg 398
61517

P50 gecikme × 200 çıkış token tahmininden hesaplandı — mutlak rakam bu varsayıma bağlıdır; önemli olan eğilimdir.

Bölüm 05

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Düşük gecikme, hızlı yanıt1M token bağlam penceresiMetin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarıDoğal dil anlama kapasitesi

Zayıf yönler

Karmaşık akıl yürütmede sınırlıİnternet erişimi bulunmuyorGörsel işleme desteği yok
Bölüm 06

Yetenekler

toolssource: litellmvisionjson modepdf inputreasoningjson schemaparallel toolsprompt cachingoutputTokenLimit: 65536max output tokens: 65535
Bölüm 07

Sık sorulan sorular

Metin üretimi, içerik oluşturma, soru-cevap ve özetleme görevlerini destekleyen geniş bir uygulama yelpazesi sunuyor.

Google Gemini ekosistemiyle entegre çalışan bu model kurumsal iş akışlarını hızlandırıyor.

Tokonomix benchmark özeti
Bölüm 08

Kullanılabilirlik

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 09

Tokonomix kıyaslama kararları

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-590/100 · 72 runs
56 correct13 partial3 wrong78% accuracy
2026-06-14

Gemini 2.5 Flash-Lite adds tools and vision while maintaining performance

Gemini 2.5 Flash-Lite has expanded significantly with the addition of seven new capabilities including tools, vision, reasoning, PDF input, and various JSON modes. These additions transform the model from a text-only processor into a multimodal system with function calling and structured output support. Performance metrics remain exceptionally strong, though no current benchmark data is available for direct comparison. The previous window showed perfect scores across language understanding and generation tasks with notably low latency. The new capabilities suggest the model can now handle complex workflows involving image analysis, document processing, and API integrations while potentially maintaining its speed advantage. Users should note that parallel tool calling and prompt caching support indicate optimization for production use cases. The reasoning capability addition suggests improved handling of multi-step problems. However, without current performance data, it remains unclear whether these extensive new features impact the model's previous speed characteristics or accuracy levels. The transformation from a lightweight text model to a full-featured multimodal system represents a significant evolution in the model's intended use cases and target applications.

Quality

Latency p50

Test runs

0

Seven new capabilities added Vision and tool support enabled Reasoning capability introduced PDF input now supported
Bölüm 10

Tam model profili

Gemini 2.5 Flash-Lite — illustration 1
Gemini 2.5 Flash-Lite: prodüksiyon Flash ailesinin maliyet katmanı

Gemini 2.5 Flash-Lite (gemini-2.5-flash-lite), prodüksiyon 2.5 Flash ailesinin maliyet katmanı girişi. 1.048.576 token context window — tam 2.5 Flash varyantıyla aynı pencere. Metin ve görüntü girişi. Çağrı başı maliyetin mutlak yetenek yerine belirleyici olduğu yüksek hacimli çalışma için tasarlandı.

Bu anlık görüntüye en uygun çerçeveleme: Flash-Lite, tam Flash'a bakıp kalitesinin iş yükünün gerçekte ihtiyaç duyduğundan fazla olduğuna karar veren ve Pro katmanına bakıp maliyetinin iş yüküünün gerekçeleyebileceğinden fazla olduğuna karar veren ekiplerin doğru tercihi. Bütçe bandında, kasıtlı olarak ve bütçe bandını iyi yapacak şekilde oturuyor.

Bu anlık görüntünün tutunmasının nedeni

2.5 Flash-Lite'ta inen birkaç şey, 2.0 Flash-Lite üzerinde çalışan ekipler için standart yükseltme hedefine dönüştürdü:

  • 2.0 Flash-Lite'ın zaman zaman zorlandığı çok adımlı çıkarma görevlerinde özellikle belirgin olmak üzere 2.0 nesline kıyasla daha keskin akıl yürütme.
  • Daha temiz yapılandırılmış çıktı uyumu. JSON şemaları, Lite katmanında bile güvenilir biçimde tutuluyor.
  • Derinlikte daha iyi uzun context dikkati. 1M pencere, 2.0 Lite anlık görüntüsünde olduğundan 200k tokenin ötesinde daha kullanılabilir.
  • Standart belge okuma görevlerinde iyileştirilmiş görüntü kalitesi.
  • Daha büyük Gemini modelleriyle daha uyumlu reddetme tutumu — sınır prompt'larda daha az tutarsız işleme.

2.0 Flash-Lite üzerinde çalışan çoğu iş yükü için geçiş hesabı, ekiplerin kolayca yapabileceği kadar kolaylaştı.

İyi yaptığı şeyler

Lite katmanı fiyatında 1M context window başlık özellik. Aynı banttaki az sayıda rakip bu kadar context sunuyor ve 2.5 Flash-Lite bunu 2.0 neslinden anlamlı ölçüde daha iyi kullanıyor.

Kısa prompt'larda gecikme iyi tutuyor. Model hızlı akış başlatıyor ve giriş büyüdükçe yanıt vermeye devam ediyor. Düşük maliyetli gerçek-zamanlı hissettiren sohbet deneyimleri için gecikme profili gerçekten kullanılabilir.

Çok modalite girişi rutin belge okuma iş yükleri için çalışıyor. Ekran görüntüleri, taranmış formlar, pano yakaları — model bunları çoğu çıkarma hattı için yeterli özenle işliyor. Görüntü için birinci sınıf değil, ama standart görevlerde çıktıya güvenebileceğiniz bantta.

Tool-use ve yapılandırılmış çıktı, bu katmandaki çoğu ajan-şekilli iş yükü için yeterince güvenilir. Şema uyumu temiz; tool-call payload'ları düzgün biçimlendirilmiş.

Kötü yaptığı şeyler

Akıl yürütme derinliği görünür kısıtlama. Model basit çıkarma ve sınıflandırmayı temiz işliyor ama çok adımlı akıl yürütmede zorlanıyor. Dikkatli sentez gerektiren görevler için doğru hamle tam 2.5 Flash varyantına çıkmak.

Uzun context dikkat kalitesi 2.0 Lite neslinden anlamlı ölçüde daha iyi ama dağınık gerçeklerde sentez için hâlâ tam 2.5 Flash varyantının gerisinde. İyi yapılandırılmış girişe karşı salt erişim tarzı sorgular için Lite katmanı tutuyor. Derinlikte sentez için çıkın.

Görüntü kalitesi tam 2.5 Flash varyantının ve 2.5 Pro varyantının çok altında. Maliyetten çok görüntü kalitesinin önemli olduğu görüntü ağırlıklı iş yükleri için yanlış başlangıç noktası.

Kod üretimi basit görevler için yeterli ama karmaşıklarda muhafazakâr. Lite katmanı IDE uyumlu kod çalışmaları için doğru band değil.

Sahada ne durumda

Daha yeni Lite katmanı anlık görüntülere — 3.1 Flash Lite Preview — karşı, 2.5 Flash-Lite daha prodüksiyon-kararlı tercih. 3.1 önizlemesi bazı kategorilerde iyileştirmeler gösteriyor ama önizleme katmanı istek sınırı ve davranış değerlendirmeleri taşıyor.

Aynı banttaki rakiplerine karşı: Claude Haiku 4.5, akıl yürütme ağırlıklı iş yüklerinde daha yetenekli ama 1M context penceresini eşlemiyor. Küçük OpenAI varyantları hızda rekabet ediyor ama genellikle daha kısa context ile. Uzun context ile ölçekte saf çağrı başı maliyet için 2.5 Flash-Lite günümüzdeki en güçlü seçimlerden biri.

Daha küçük context boyutlarında alt-sent çağrı başı maliyet için /usecases/local sayfasında incelenen OVH-hosted açık ağırlıklı seçenekler farklı bir eksende rekabet ediyor.

Kategori bazındaki tablo /benchmarks/leaderboard ve kategori bazındaki puanlar /benchmarks/intelligence sayfasında.

Gerçekten kullanışlı olduğu durumlar

2.5 Flash-Lite'ın tatlı noktasına isabet ettiği birkaç iş yükü:

  • Belirleyicinin akıl yürütme derinliği değil, throughput olduğu yüksek hacimli SSS yönlendirme.
  • Ölçekte müşteri hizmetleri önceliklendirme ve sınıflandırma.
  • Modelin gerçekleri sentezlemek yerine yalnızca bulmasi gereken yapılandırılmış belgelere karşı uzun context erişimi.
  • Çağrı başı maliyetin deneme için bütçe onayı gerektirmeyecek kadar düşük olduğu prototip geliştirme.
  • Rutin sorgular için çok dilli müşteri desteği — model yaygın Avrupalı dilleri Lite katmanında bile yeterli düzeyde işliyor.

Yanlış araç olduğu durumlar

Derin çok adımlı akıl yürütme gerektiren her şey. Tam 2.5 Flash varyantına veya Pro katmana çıkın.

Görüntü kalitesinin önemli olduğu görüntü ağırlıklı iş yükleri. Tam 2.5 Flash ve 2.5 Pro varyantları belirgin ölçüde daha iyi çıktı üretiyor.

Aşağı yönlü doğrulama olmaksızın güvenlik kritik uygulamalar. Reddetme tutumu makul ama daha büyük Gemini modellerinin düzeyinde değil.

Hızlı gelişen framework'lerde kod üretimi. Lite katmanı doğru band değil. /usecases/code sayfasındaki model anketi alternatifleri kapsıyor.

Gerçek zamanlı ses. Audio girişi yok. /usecases/voice sayfasındaki ses hattı kılavuzu doğru mimariyi kapsıyor.

Dağıtım notları

Standart Google Gemini API. REST, streaming, tool-use, yapılandırılmış çıktı — hepsi temel yetenek yüzeyi için beklenen biçimde çalışıyor.

Bölgesel kullanılabilirlik Google'ın Vertex AI kalıbını izliyor. AB bölgeleri kurumsal sözleşmelerde mevcut. Hazır tüketici API erişimi bölge sabitlemiyor. Zorunlu yerleşim kısıtlamaları için Vertex AI bölgesel belgeleri doğru başvuru kaynağı.

Fiyatlandırma bu katman için tarihi farklılaştırıcı. Güncel Vertex AI fiyatlandırması, başlangıç dönemi rakamları yerine başvuru kaynağı olmalı. Çok yüksek hacimli iş yükleri için tam 2.5 Flash'a kıyasla çağrı başı maliyet farkı önemli; gerçekte ihtiyaç duyduğunuz kalitelin yukarı hamleyi gerekçeleyip gerekçelemediğini kontrol edin.

Tercih kriteri

Gemini 2.5 Flash-Lite'a şu durumlarda uzanın:

  • İş yükü yüksek hacimli ve çağrı başı maliyet önemliyse.
  • Lite katmanı fiyatında 1M context window gerektiğinde.
  • Görev derin akıl yürütme yerine çıkarma, sınıflandırma, erişim veya yönlendirmeyse.
  • Halihazırda Google yığınındasınız ve orada kalmak istiyorsunuz.

Başka bir şey seçin:

  • İş yükü akıl yürütme derinliği veya dikkatli sentez gerektiriyorsa. Tam 2.5 Flash'a çıkın.
  • Görüntü kalitesi maliyetten daha önemliyse.
  • Aşağı yönlü doğrulama olmaksızın güvenlik kritik uygulama. Daha büyük model kullanın.
  • Çalışma audio, ses veya video ise.

Özet. Bandını iyi yapan sağlam maliyet katmanı model. Kalite gereksinimlerinin mütevazı olduğu ve context penceresinin önemli olduğu yüksek hacimli çalışmalar için 2.5 Flash-Lite piyasadaki en güçlü seçimlerden biri.

/live-test sayfasında kendi prompt'larınızla alternatiflere karşı karşılaştırın.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Gemini 2.5 Flash-Lite — illustration 2Gemini 2.5 Flash-Lite — illustration 3
Son otomatik test
15 Haz 2026 · 08:00 UTC · Hız testi
P50 gecikme
454 ms
P95 gecikme
502 ms
Hatalar
0 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·24 Mayıs 2026