Seviye C — Uzman

Çalıştığı yer:USYapıldığı yer:United States

$60.00

çıktı · 1M token başına (maliyet bazı)

Maliyet

2,530 ms

Yanıt hızı

100 / 100

Zeka

Karar — özetLIVE

● LIVE

şimdi · 2026-07-26

o1 quality drops 44 points with category coverage and latency regression

✗ Quality dropped 44 points✗ Factual accuracy at 2✗ Latency increased 33%✓ Multilingual maintains perfect score

The latest benchmark window shows a significant degradation in o1's performance, with overall quality falling from 99.3 to 55.4 out of 100. The model has lost coverage in its coding category entirely, which previously scored perfectly at 100. Creative performance declined from 98 to 72, while reasoning capabilities dropped to 48 from what was previously strong performance. Most critically, factual accuracy collapsed to just 2 points, representing a severe regression. Multilingual support remains the sole bright spot, maintaining a perfect 100 score across both windows. Latency has also worsened, with median response time increasing 33% from 3899ms to 5173ms. The limited test run sample of 5 runs in each window suggests these results should be interpreted cautiously, but the consistency of degradation across multiple categories indicates a systemic issue rather than random variance. Users relying on o1 for factual information retrieval or coding tasks should exercise particular caution and verify outputs carefully. The dramatic shift from near-perfect performance to mid-range scores warrants investigation into whether model updates, infrastructure changes, or evaluation methodology shifts are responsible.

Quality

55.4

Latency p50

5,173 ms

Test runs

1 / 11

Görsel ve açıklamaLIVE

OpenAI

o1

Seviye C — Uzman · 200K token

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan·Yayınlandı 22 Mayıs 2026·Son inceleme 26 Mayıs 2026

o1 modeli, OpenAI tarafından geliştirilen büyük bir dil modelidir ve şirketin yapay zeka muhakemesine yaklaşımında önemli bir evrim temsil eder. Geleneksel dil modellerinin tek bir ileri geçişte token-token yanıtlar üretmesinin aksine, o1 çıktıları üretmeden önce genişletilmiş bir iç muhakeme sürecini bünyesinde barındırır. Bu model, çok aşamalı problem çözme, mantıksal çıkarım ve dikkatli analiz gerektiren karmaşık görevleri yürütmek üzere tasarlanmıştır, bu da onu matematik, kodlama, bilimsel muhakeme ve diğer analitik uygulamalar gibi alanlara özellikle uygun hale getirir. o1, 200,000 token'lık bağlam penceresi sunarak tek bir etkileşimde önemli miktarda bilgiyi işleyebilir. Modelin mimarisi, yanıt üretmeden önce çözüm yollarını keşfetmek için çıkarım sırasında ek hesaplama kaynakları harcayarak düşünsel muhakemeyi ön plana çıkarır. Bu yaklaşım, zorlu problemler için daha doğru ve iyi muhakeme edilmiş çıktılar sunabilir, ancak standart üretken modellere kıyasla daha uzun işlem süreleri gerektirebilir. Model, muhakeme çerçevesini yanıtlar üretmek için uygularken standart metin üretim yeteneklerini destekler. OpenAI'ın model yelpazesinde o1, GPT-4 ailesiyle yan yana yer alır ancak farklı bir amaca hizmet eder. GPT-4 modelleri hızlı yanıt süreleriyle genel amaçlı dil görevlerinde üstünlük sağlarken, o1 hızdan ziyade muhakeme derinliğinin öncelikli olduğu kullanım senaryoları için konumlandırılmıştır. Düşünme süresini ve sistematik problem çözmeyi önceliklendiren modellere yönelik OpenAI'ın keşfini temsil eder ve kullanıcılara yalnızca konuşma akıcılığından ziyade analitik titizlik için optimize edilmiş alternatif bir mimari sunar.

o1, OpenAI'ın çıktı üretmeden önce dahili akıl yürütme adımları gerçekleştiren ilk üretim modelidir ve geleneksel dil modellerinden temel bir mimari ayrışmayı temsil eder.
— Tokonomix mimari analizi

Yetenekler

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 100000

o1: OpenAI'nin ilk akıl yürütme modeli ve düşünce zincirinin üretim ortamına geçtiği an

o1, uzun süreli akıl yürütmeyi akıllıca bir prompt hilesi olmaktan çıkarıp birinci sınıf bir ürün özelliği haline getiren modeldir. Daha önceki her GPT sınıfı model, yanıtı tek bir geçişte token'ları ileri doğru akıtarak üretirken, o1 cevap vermeden önce gerçek anlamda saat duvarı süresi boyunca düşünür. Bu mimari değişiklik kulağa geldiğinden çok daha önemlidir. Yanlış bir adımın yanlış bir cevaba katlanarak büyüdüğü bir problem sınıfı için, örüntü eşleyen bir model ile gerçekten düşünüp tartan bir model arasındaki fark, yararlı bir araç ile yanıltıcı bir araç arasındaki farktır.

Akıl yürütme modelleri aslında ne yapar

o1'e bir prompt gönderdiğinizde, model görünür çıktıyı üretmeden önce dahili akıl yürütme üretmek için zaman harcar. Akıl yürütme token'larını göremezsiniz. Yalnızca nihai cevabı görürsünüz ve akıl yürütme için harcanan hesaplama yükü, yanıtın bir parçası olarak size faturalandırılır. Bu desen, sohbet modellerinden gelen biri için tanıdık değildir. Bir istek, problemin karmaşıklığına bağlı olarak beş, on veya otuz saniye sürebilir ve bu gecikme bir hata değildir.

Takas oldukça doğrudandır. GPT-4o ve benzeri refleks modellerinin hızlı ilk-token süresinden vazgeçersiniz. Karşılığında, çok adımlı akıl yürütme, biçimsel ispat, karmaşık kod sentezi veya birbiriyle ilişkili birçok kısıtlama üzerinde dikkatli planlama gerektiren problemlerde belirgin biçimde daha yüksek doğruluk elde edersiniz. Matematiksel akıl yürütme, bilimsel problem çözme ve karmaşık kod üretimi, o1'in akıl yürütmeyen modellerin anlamlı ölçüde önüne geçtiği kategorilerdir.

200.000 token'lık bağlam penceresi, o1'i uzun belge akıl yürütmesi için ön cephe seviyesine taşır. Modele karmaşık bir hukuki sözleşme, destekleyici referansları ile birlikte bir araştırma makalesi veya kayda değer bir kod tabanı parçası verip bunların tümü üzerinde akıl yürütmesini isteyebilirsiniz. Akıl yürütme derinliği ile uzun bağlamın birleşimi, daha önceki GPT sürümleri altında çöken iş yüklerinde o1'i amaca uygun kılan şeydir.

Nerede işe yarıyor

Matematik ve biçimsel akıl yürütme. Sembolik cebir, çok adımlı ispatlar, cevabın onlarca ara değişkenin takibini gerektirdiği problemler. o1 bunları, sohbet katmanındaki modellerin yapmadığı bir şekilde ele alır.

Karmaşık kod sentezi. Önemsiz olmayan bir algoritma yazmak, birden çok bağımlılığı olan karmaşık bir fonksiyonu yeniden düzenlemek, kök nedenin belirtiden birkaç katman uzakta olduğu bir sorunu hata ayıklamak. Akıl yürütme adımı, daha hızlı bir modelin gönül rahatlığıyla teslim edeceği hataları sıklıkla yakalar.

Bilimsel akıl yürütme. Cevabın fizik, kimya, biyoloji veya istatistikten gelen bilgileri entegre etmeyi gerektirdiği disiplinler arası problemler. Model, eğitimden en aşina olduğu çerçeveye çökmek yerine birden fazla çerçeveyi aktif akıl yürütmede tutabilir.

Kısıtlamalar altında stratejik planlama. Kaynak tahsisi problemleri, çizelgeleme, çok amaçlı optimizasyon. Bir problemin birçok etkileşimli kısıtlamaya sahip olduğu ve yanlış bir basitleştirmenin size yanlış cevabı verdiği her yer.

Nerede tökezliyor

Gerçek zamanlı etkileşimli uygulamalar. Bir akıl yürütme modelinin gecikme profili, bir saniyenin altında yanıt vermesi gereken bir sohbet arayüzü ile temelden uyumsuzdur. Konuşma ürünleri için GPT-4o sınıfı refleks modelleri kullanın ve o1'i gerçekten zor olan turlar için saklı tutun.

Basit arama ve özetleme. o1'den bir belgeyi özetlemesini veya birkaç alanı çıkarmasını istemek savurganlıktır. Model, gerekmeyen bir göreve akıl yürütme hesaplaması harcayacak ve siz bu hesaplama için ödeme yapacaksınız. Refleks modeller bu görevleri daha hızlı ve daha ucuza halleder.

Akışın önemli olduğu yaratıcı yazım. Akıl yürütme modeli doğru, dikkatli bir düzyazı üretir. Ses tonu, ritim veya üslupsal incelik istediğinizde doğru araç değildir. Yaratıcı çalışmalar için sohbet katmanındaki modeller, akıl yürütme öncelikli üretimle kısıtlanmadıkları için çoğu zaman daha iyi çıktılar verir.

Sıkı döngülerle yoğun araç kullanımı iş akışları. Akıl yürütme adımı her tura gecikme ekler. Her çağrı arasında akıl yürüterek araçları hızla art arda çağırması gereken aracılar için, kümülatif gecikme döngüyü ağırlaştırır. Bazı aracı çerçeveleri buna uyum sağladı; birçoğu sağlamadı.

Bunu seçmek veya daha yeni akıl yürütme modellerine geçmek

o1, ilk üretim akıl yürütme modeliydi. Artık en yetkin olanı değil. o3, daha geniş akıl yürütme yeteneğine sahip anlamlı haleftir ve o4-mini, o1'in kullanıldığı birçok iş yükünü daha düşük bir fiyat noktasında yöneten maliyet açısından verimli orta katman akıl yürütme modelidir.

Bu neslin tarihli takma adı için, o1-2024-12-17, düzenlemeye tabi iş akışları veya tekrarlanabilirlik için sabitlenecek anlık görüntüdür. o1-pro, maksimum doğruluğun ek maliyeti haklı çıkardığı problemler için prompt başına daha fazla akıl yürütme token'ı harcayan, daha yüksek çaba düzeyindeki varyanttır.

Modelin dış kaynaklara göz atması, sentezlemesi ve onlar üzerinde akıl yürütmesi gereken gerçekten derin araştırma görevleri için o4-mini-deep-research, özel araştırma modu varyantıdır. AB veri ikametgâhı, OpenAI akıl yürütme uç noktalarının hiçbirinde varsayılan olarak karşılanmaz. Bölgesel ağ geçidi deseni, düzenlemeye tabi Avrupa dağıtımları için geçici çözümdür.

Zor bir problemde doğruluğun saat duvarı gecikmesinden daha önemli olduğu durumlarda o1'i kullanın. Gecikmenin akıl yürütme derinliğinden daha önemli olduğu durumlarda bir refleks modeli kullanın. Mimari seçim varsayılan değil, kasıtlı olmalıdır.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Sağlayıcı karşılaştırmasıLIVE

Sağlayıcı karşılaştırması

Bu modeli sunan her sağlayıcıyı karşılaştırın — maliyet temeli, kalite, gecikme ve çalışma süresi.

Azure OpenAI (EU - Sweden)AB

Girdi maliyeti$16.50

Çıktı maliyeti$66.00

KaliteHenüz test edilmedi

Gecikme (p50)Henüz test edilmedi

Çalışma süresiHenüz test edilmedi

Maliyetler 1M token başına (maliyet temeli)

OpenAIABDBu sunum

Girdi maliyeti✓ en iyi$15.00

Çıktı maliyeti$60.00

Kalite✓ en iyi100.0

Gecikme (p50)✓ en iyi2,530 ms

Çalışma süresiHenüz test edilmedi

Maliyetler 1M token başına (maliyet temeli)

Konsensüs zekâsı

MODEL GENELİPASİF

Konsensüs sinyalleri model geneli — henüz sağlayıcı başına ayrılmadı.

Konsensüs puanlaması bu model için hâlâ veri topluyor — henüz sinyal yok.

Topluluk oylarıLIVE

Topluluk oyları

Gerçek ziyaretçiler ne düşünüyor — sağlayıcı başına.

Azure OpenAI (EU - Sweden)AB

Henüz topluluk oyu yok.

OpenAIABD

Henüz topluluk oyu yok.

Daha fazla sonuç — sağlayıcı başına

Kategoriye göre kalite

Oyun değerlendirmesi

Henüz veri yok.

Jüri kararı

■ Tamam 81%■ Kısmi 0%■ Yanlış 19%

Oyunlar ve arena

Henüz veri yok.

Hız ve sağlık

2,530 ms

Gecikme (p50)

—

Çalışma süresi

Kategoriye göre kalite

Oyun değerlendirmesi

Henüz veri yok.

Jüri kararı

■ Tamam 81%■ Kısmi 0%■ Yanlış 19%

Oyunlar ve arena

Henüz veri yok.

Hız ve sağlık

2,530 ms

Gecikme (p50)

—

Çalışma süresi

Soru & cevap — göz atLIVE

1 / 80

🧠 zekâOpenAImultilingual · 2026-07-26puan: 100

Bir mağazada %20 indirim uygulanıyor. 150 TL olan bir ürün indirimden sonra kaç TL olur?

150 TL olan bir ürün üzerine %20 indirim uygulandığında, ürünün indirimsiz fiyatının %80’i ödenir. Dolayısıyla 150 TL × 0,80 = 120 TL ödenir.

Test geçmişi — tüm sağlayıcılarLIVE

Zaman içinde kalite puanıen son 59

Hız — zaman içinde p50 gecikme

Bu model birkaç farklı günde test edildiğinde bir trend görünür.

📝Karar — özetLIVE

o1 quality drops 44 points with category coverage and latency regression

🖼️Görsel ve açıklamaLIVE

o1

Yetenekler

Akıl yürütme modelleri aslında ne yapar

Nerede işe yarıyor

Nerede tökezliyor

Bunu seçmek veya daha yeni akıl yürütme modellerine geçmek

📊Sağlayıcı karşılaştırmasıLIVE

🧠Konsensüs zekâsı

👥Topluluk oylarıLIVE

🔬Daha fazla sonuç — sağlayıcı başına

💬Soru & cevap — göz atLIVE

🗂️Test geçmişi — tüm sağlayıcılarLIVE

Karar — özetLIVE

Görsel ve açıklamaLIVE

Sağlayıcı karşılaştırmasıLIVE

Konsensüs zekâsı

Topluluk oylarıLIVE

Daha fazla sonuç — sağlayıcı başına

Soru & cevap — göz atLIVE

Test geçmişi — tüm sağlayıcılarLIVE