Seviye B — Üretim

Çalıştığı yer:USYapıldığı yer:United States

$4.40

çıktı · 1M token başına (maliyet bazı)

Maliyet

2,161 ms

Yanıt hızı

100 / 100

Zeka

Karar — özetLIVE

● LIVE

şimdi · 2026-07-26

o4-mini suffers major quality collapse in factual and reasoning tasks

✗ Quality dropped 50 points✗ Factual and reasoning scores zero✓ Creative performance remains strong✓ Multilingual capability at 100

The o4-mini model has experienced a severe degradation in performance, with overall quality plummeting from 99.3 to 49.4 across the benchmark window. Most alarming is the complete failure in factual and reasoning categories, both scoring zero compared to previous strong performance. This represents a fundamental regression in core capabilities that previously defined the model's value proposition. Creative and multilingual capabilities remain intact, with creative tasks scoring 98 and multilingual achieving a perfect 100. The coding category, previously at 100, is no longer being measured in the current window. Latency has increased modestly from 3945ms to 4477ms at the median, suggesting potential infrastructure changes alongside the quality issues. This dramatic shift indicates either a problematic deployment, a flawed model update, or significant changes to the underlying architecture that have compromised reasoning abilities. Users relying on factual accuracy or logical reasoning should exercise extreme caution with this version until the issues are resolved. The consistency of creative and multilingual performance suggests the problems are specific to analytical capabilities rather than a complete system failure.

Quality

49.4

Latency p50

4,477 ms

Test runs

1 / 11

Görsel ve açıklamaLIVE

OpenAI

o4-mini-2025-04-16

Seviye B — Üretim

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan·Yayınlandı 22 Mayıs 2026·Son inceleme 26 Mayıs 2026

o4-mini-2025-04-16, OpenAI tarafından geliştirilen ve Nisan 2025'te o-serisi ailesinin bir parçası olarak yayımlanan bir metin üretim modelidir. Bu model, OpenAI'ın akıl yürütme odaklı ürün gamında, yetkin performansı geliştirilmiş verimlilikle dengelemek üzere tasarlanmış kompakt bir varyantı temsil eder. Soru yanıtlama, içerik oluşturma, analiz ve genel sohbet uygulamaları dahil olmak üzere standart metin üretim görevlerini destekler. Bağlam penceresi boyutu, OpenAI tarafından şu an itibarıyla kamuya açıklanmamıştır. o-serisi modeller, genişletilmiş akıl yürütme yeteneklerini ön plana çıkaran mimarileriyle öne çıkar; bu da geleneksel otoregresif dil modellerine kıyasla daha titiz problem çözme yaklaşımlarına olanak tanır. "mini" tanımlaması, bunun tam ölçekli o-serisi modellere kıyasla daha küçük ve kaynak açısından daha verimli bir sürüm olduğunu gösterir; bu da dağıtım kısıtlamalarının veya yanıt gecikmesinin önem taşıdığı uygulamalar için uygun hale getirir. Küçültülmüş boyutuna rağmen o4-mini, o-serisi ailesini karakterize eden temel akıl yürütme metodolojisini korur. OpenAI'ın model yelpazesinde o4-mini-2025-04-16, ölçek ve kapasite açısından GPT-4 gibi amiral gemisi modellerin ve daha büyük o-serisi varyantların altında konumlanırken, operasyonel verimlilik açısından avantajlar sunar. Daha büyük sistemlerin hesaplama yükü olmaksızın akıl yürütme yeteneğine sahip modeller arayan geliştiriciler ve kuruluşlar için bir seçenek olarak konumlandırılmıştır. Model, OpenAI'ın tarihli sürümleme geleneğini izler; zaman damgası, modelin spesifik yayım noktasını ve eğitim verisi kesim tarihi değerlendirmelerini gösterir.

o4-mini-2025-04-16 ile kendi sorularını test et

OpenAI'nin kapsamlı eğitim verisi bu modelin geniş alan bilgisini destekliyor.
— Tokonomix benchmark özeti

Yetenekler

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 100000

o4-mini-2025-04-16: OpenAI'nin hacim katmanı muhakeme modelinin Nisan 2025 üretim anlık görüntüsü

o4-mini'nin Nisan 2025 tarihli takma adı, OpenAI'nin hacim katmanı muhakeme modelinin genel üretim kullanımı için yayınlandığı andaki halini sabitler. Bu, düzenlemeye tabi iş akışları, denetim izi gereksinimleri veya değişken o4-mini takma adının ileri doğru ilerlemesinin tutarlı muhakeme davranışına bağımlı doğrulanmış iş akışlarını bozabileceği üretim dağıtımları için sabitlenecek (pin) sürümdür.

Bu anlık görüntü neyi temsil eder

Nisan anlık görüntüsü, o4-mini'nin genel üretim sürümünün yayınlandığı andır ve kullanımdan kaldırılan o3-mini ailesinin yerini OpenAI'nin hacim katmanı muhakeme seçeneği olarak alır. Yetenek zarfı, değişken o4-mini sayfasında tanımlanan ile aynıdır: mini katmanda muhakeme öncelikli üretim, kullanımdan kaldırılan o3-mini modeline kıyasla daha iyi doğruluk, hacimli iş yüklerine ölçeklenebilen maliyet profili ve refleks modelleri ile tam o3 arasında konumlanan gecikme profili.

Bu, o4-mini üzerinde çalışan çoğu üretim dağıtımının fiilen sabitlendiği tarihli anlık görüntüdür; özellikle de aynı dönemde o3-mini'den geçiş yapmış olanlar. Uygulamanız o4-mini üzerinde kararlı bir üretimdeyse ve sorunsuz çalışıyorsa, büyük olasılıkla üzerinde çalıştığı anlık görüntü budur.

Sabitleme, muhakeme modelleri için refleks modellerine kıyasla daha fazla önem taşır. Muhakeme adımı, kesin ağırlıklara ve eğitim sırasında muhakeme bütçesinin nasıl tahsis edileceğine ilişkin kararlara duyarlıdır. Anlık görüntüler arasındaki düşünce zinciri (chain-of-thought) dağılımında meydana gelen ince bir kayma, ortalama doğruluk sabit kalsa veya iyileşse bile, modelin hangi problemleri doğru çözdüğünü değiştirebilir. o4-mini'nin sizin özel probleminizi başarıyla çözdüğünü ampirik olarak doğruladığınız iş akışları için tarihli anlık görüntü, doğrulanmış o davranışı koruyan sözleşmedir.

Bu anlık görüntüye sabitlemenin mantıklı olduğu durumlar

Denetim izlerinin uzun zaman dilimleri boyunca model çıktılarının tam olarak yeniden üretilebilirliğini gerektirdiği düzenlemeye tabi iş akışları. Muhakeme adımlarının aşağı yöndeki inceleme veya metodolojik yeniden üretilebilirlik için önemli olduğu hukuk teknolojisi, finansal hizmetler ve bilimsel uygulamalar. Yüksek trafik hacimleriyle çalışan ve temeldeki modeldeki davranışsal bir kaymanın siz fark etmeden on binlerce kullanıcıyı etkileyebileceği üretim dağıtımları.

Keşif niteliğindeki çalışmalar ve prototip yapımları için değişken o4-mini doğru seçimdir. Sabitlemeyi yalnızca üretim kararlılığı veya uyumluluk gereksinimleri, anlık görüntü geçişlerini bir zaman çizelgesine göre yeniden doğrulamanın bakım yükünü haklı kıldığında uygulayın.

Bu anlık görüntüden gelecekteki daha yeni bir muhakeme modeline geçiş sorusu önemsiz değildir. Muhakeme davranışı, modelin hangi problemleri çözdüğünü etkileyecek şekilde kayabilir. Tak-çıkar bir yükseltme değil, yeniden doğrulama çalışması planlayın. Aylardır bu anlık görüntüde olan ve şimdi nihai bir halef model sürümüyle karşılaşan iş akışları için operasyonel kalıp, paralel değerlendirmeyi hemen kurmak ve kullanımdan kaldırma baskısı geçişi zorlamadan önce farkları belgelemektir.

Yetersiz kaldığı yerler

Değişken o4-mini için geçerli olan sınırlar burada da geçerlidir. Muhakeme sınırındaki mutlak en zor problemler tam o3-2025-04-16 veya daha yüksek katmanları gerektirir. Gerçek zamanlı etkileşimli uygulamalar muhakeme gecikmesiyle uyumsuzdur. Basit özetleme ve çıkarım, muhakeme hesaplamasını boşa harcar. Yaratıcı yazım, muhakeme modellerinin tipik düz, temkinli düzyazısını üretir.

Bu anlık görüntü, temel yetenek zarfını değiştirmez. Bir kararlılık çıpasıdır; Nisan 2025'te var olduğu haliyle değişken takma addan bir performans farklılaştırıcısı değildir. Değişken o4-mini o zamandan beri farklı özelliklere sahip yeni ağırlıklara geçtiyse, bu anlık görüntü ile bugünkü değişken ad arasındaki karşılaştırma, geçiş planlaması için anlamlıdır.

Pratik notlar ve dikkate alınacak diğer hususlar

Mini katmanın sunduğundan daha yüksek doğruluk gerektiren iş yükleri için o3 ve o3-2025-04-16 tam katman yükseltmesidir. Maliyetten bağımsız olarak maksimum doğruluk istediğiniz en zor problemler için o1-pro ve o1-pro-2025-03-19 hâlâ mevcut olan o1 nesli genişletilmiş muhakeme varyantlarıdır.

Muhakemenin yanı sıra dış kaynak entegrasyonuna ihtiyaç duyan araştırma iş akışları için o4-mini-deep-research ve o4-mini-deep-research-2025-06-26, bu anlık görüntü ile aynı nesildeki özel araştırma modu varyantlarıdır.

o3-mini-2025-01-31 modelinden geçiş yapan iş yükleri için bu anlık görüntü doğal haleftir. Geçiş, API yüzeyinde basittir ve davranış olarak genellikle olumludur; ancak körü körüne bir geçişten ziyade kendi özel test kümeniz üzerinde uygun bir değerlendirme yapılmasını gerektirir.

AB veri ikametgâhı, bu anlık görüntüde veya ilgili OpenAI muhakeme uç noktalarının hiçbirinde varsayılan olarak sağlanmaz. Veri işleme sözleşmeleriyle bölgesel ağ geçidi kalıbı, düzenlemeye tabi Avrupa dağıtımları için pratik geçici çözüm olmaya devam etmektedir. o4-mini anlık görüntüleri için tarihli takma adın kullanımdan kaldırma takvimi ayrıntılı olarak yayınlanmamıştır, ancak en az on iki ayda bir yeniden doğrulama planlamanın operasyonel kalıbı hâlâ geçerlidir. Birden fazla anlık görüntü nesli geride kalmak, nihai kullanımdan kaldırma geldiğinde rutin bakımı daha riskli bir geçişe dönüştürür.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Sağlayıcı karşılaştırmasıLIVE

Sağlayıcı karşılaştırması

Bu modeli sunan her sağlayıcıyı karşılaştırın — maliyet temeli, kalite, gecikme ve çalışma süresi.

Azure OpenAI (EU - Sweden)AB

Girdi maliyeti✓ en iyi$1.10

Çıktı maliyeti$4.40

KaliteHenüz test edilmedi

Gecikme (p50)Henüz test edilmedi

Çalışma süresiHenüz test edilmedi

Maliyetler 1M token başına (maliyet temeli)

OpenAIABDBu sunum

Girdi maliyeti$1.10

Çıktı maliyeti$4.40

Kalite✓ en iyi100.0

Gecikme (p50)✓ en iyi2,161 ms

Çalışma süresiHenüz test edilmedi

Maliyetler 1M token başına (maliyet temeli)

Konsensüs zekâsı

MODEL GENELİPASİF

Konsensüs sinyalleri model geneli — henüz sağlayıcı başına ayrılmadı.

Konsensüs puanlaması bu model için hâlâ veri topluyor — henüz sinyal yok.

Topluluk oylarıLIVE

Topluluk oyları

Gerçek ziyaretçiler ne düşünüyor — sağlayıcı başına.

Azure OpenAI (EU - Sweden)AB

Henüz topluluk oyu yok.

OpenAIABD

Henüz topluluk oyu yok.

Daha fazla sonuç — sağlayıcı başına

Kategoriye göre kalite

Oyun değerlendirmesi

Henüz veri yok.

Jüri kararı

■ Tamam 81%■ Kısmi 0%■ Yanlış 19%

Oyunlar ve arena

Henüz veri yok.

Hız ve sağlık

2,161 ms

Gecikme (p50)

—

Çalışma süresi

Kategoriye göre kalite

Oyun değerlendirmesi

Henüz veri yok.

Jüri kararı

■ Tamam 81%■ Kısmi 0%■ Yanlış 19%

Oyunlar ve arena

Henüz veri yok.

Hız ve sağlık

2,161 ms

Gecikme (p50)

—

Çalışma süresi

Soru & cevap — göz atLIVE

1 / 80

🧠 zekâOpenAImultilingual · 2026-07-26puan: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

Ürünün indirimi: İndirim miktarı = 150 TL × %20 = 150 × 0,20 = 30 TL İndirimli fiyat = 150 TL − 30 TL = 120 TL

Test geçmişi — tüm sağlayıcılarLIVE

Zaman içinde kalite puanıen son 59

Hız — zaman içinde p50 gecikme

Bu model birkaç farklı günde test edildiğinde bir trend görünür.

📝Karar — özetLIVE

o4-mini suffers major quality collapse in factual and reasoning tasks

🖼️Görsel ve açıklamaLIVE

o4-mini-2025-04-16

Yetenekler

Bu anlık görüntü neyi temsil eder

Bu anlık görüntüye sabitlemenin mantıklı olduğu durumlar

Yetersiz kaldığı yerler

Pratik notlar ve dikkate alınacak diğer hususlar

📊Sağlayıcı karşılaştırmasıLIVE

🧠Konsensüs zekâsı

👥Topluluk oylarıLIVE

🔬Daha fazla sonuç — sağlayıcı başına

💬Soru & cevap — göz atLIVE

🗂️Test geçmişi — tüm sağlayıcılarLIVE

Karar — özetLIVE

Görsel ve açıklamaLIVE

Sağlayıcı karşılaştırmasıLIVE

Konsensüs zekâsı

Topluluk oylarıLIVE

Daha fazla sonuç — sağlayıcı başına

Soru & cevap — göz atLIVE

Test geçmişi — tüm sağlayıcılarLIVE