İçeriğe geç
Seviye C — Uzman
Çalıştığı yer:USYapıldığı yer:United States
OpenAI

gpt-4o-realtime-preview-2024-12-17

Seviye C — Uzman

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

GPT-4o Realtime Preview (2024-12-17), OpenAI tarafından geliştirilen, düşük gecikmeli metin ve ses işleme yetenekleriyle gerçek zamanlı konuşma uygulamalarını desteklemek üzere tasarlanmış çok modlu bir yapay zeka modelidir. Bu önizleme sürümü, anında yanıt verme yeteneğinin kritik olduğu etkileşimli kullanım senaryoları için optimize edilmiş performansı ön plana çıkaran OpenAI'ın GPT-4o ailesinin bir parçasıdır. Model, standart metin üretim görevlerini yerine getirirken, işleme ve yanıt iletimindeki gecikmeleri en aza indirecek şekilde tasarlanmıştır; bu da onu sesli asistanlar, canlı müşteri desteği ve etkileşimli konuşma ajanları gibi uygulamalar için özellikle uygun hale getirir. Model, eşzamanlı metin ve ses girdi-çıktılarını işlemek için OpenAI'ın en güncel mimari iyileştirmelerini içerir; ancak belirli bağlam penceresi boyutu kamuoyuyla paylaşılmamıştır. GPT-4 serisine özgü genel amaçlı dil anlama ve üretme yeteneklerini korur; bunlar arasında akıl yürütme, yaratıcı yazım, kod üretimi ve analiz görevleri yer alır. "Realtime preview" tanımı, bunun nihai üretim sürümü yerine geliştirici testi ve geri bildirimi için tasarlanmış deneysel bir sürüm olduğunu gösterir. OpenAI'ın model yelpazesinde GPT-4o Realtime Preview, gecikmeye duyarlı uygulamalar için özelleşmiş bir seçenek olarak diğer GPT-4o varyantlarının yanında konumlanır. Maksimum bağlam uzunluğu veya verim yerine etkileşim hızını önceliklendirerek standart GPT-4o modellerini tamamlar ve OpenAI'ın gerçek zamanlı yapay zeka uygulamalarına devam eden açılımını temsil eder. Bir önizleme sürümü olarak geliştiricilerin, kullanım örüntüleri ve performans gözlemlerine dayalı olası güncelleme ve iyileştirmeleri öngörmesi gerekir.

OpenAI'nin kapsamlı eğitim verisi bu modelin geniş alan bilgisini destekliyor.

Tokonomix benchmark özeti
Bölüm 01

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — gpt-4o-realtime-preview-2024-12-17
$5.00 1M giriş token başına
$20.00 1M çıkış token başına
≈ $0.0070 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$5.00
1M çıkış token başına$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Bölüm 02

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Sesli etkileşim desteğiMetin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarıDoğal dil anlama kapasitesiVeri analizi ve raporlama

Zayıf yönler

Yalnızca ses ve metin odaklı kapsamÖnizleme: özellikler değişebilirUzun belge analizine uygun değil
Bölüm 03

Sık sorulan sorular

Gerçek zamanlı API çok düşük ilk token gecikmesiyle çalışır; kesin değerler ağ koşullarına göre değişir.

OpenAI güvenlik katmanları ve içerik filtreleri modeli kurumsal ortamlara uygun kılıyor.

Tokonomix benchmark özeti
Bölüm 04

Kullanılabilirlik

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 05

Tokonomix kıyaslama kararları

2026-05-24

GPT-4o Realtime Preview ses öncelikli modeli için temel performans belirlendi

Bu, OpenAI'nin düşük gecikmeli sesli etkileşimler için tasarlanmış ses-yerel modeli GPT-4o Realtime Preview için ilk kıyaslama sonucudur. Model, standart kıyaslamalarda güçlü bir performans sergileyerek MMLU'da %86,3 ve GPQA'da %88,0 puan elde ediyor ve bu sonuçlarla çağdaş dil modellerinin üst sıralarında yer alıyor. Matematiksel akıl yürütme alanında GSM8K'de %76,6 ve MATH'te %51,1 ile yetkinlik gösteriyor; bu da karmaşık sayısal görevlerde sağlam ancak olağanüstü olmayan bir performansa işaret ediyor. Model, HumanEval'de %83,2 ile güçlü kodlama yetenekleri sergiliyor ve MGSM'de %85,8 ile rekabetçi çok dilli performansını koruyor. Görme yetenekleri MMMU'da %69,1 ile sağlam olmakla birlikte, bu sonuç sınır çok modlu modellere kıyasla alt sınırı temsil ediyor. Model, DROP'ta %82,0 ve GPQA Diamond'da %78,5 ile dengeli bir akıl yürütme sergiliyor. Gerçek zamanlı etkileşim için optimize edilmiş ses öncelikli bir model olarak bu kıyaslamalar, modelin gelecekteki sürümlerdeki gelişimini izlemek için bir temel sağlıyor. Kullanıcılar, bunun bir önizleme sürümü olduğunu ve sonraki sürümlerde devam eden geliştirme ile olası iyileştirmelere işaret ettiğini göz önünde bulundurmalıdır.

Quality

Latency p50

Test runs

0

MMLU'da %86,3 ile güçlü performans HumanEval üzerinde sağlam kodlama yetenekleri Rekabetçi çok dilli akıl yürütme puanları Orta düzey MATH kıyaslama sonuçları
Bölüm 06

Tam model profili

gpt-4o-realtime-preview-2024-12-17 — illustration 1
gpt-4o-realtime-preview-2024-12-17: tam-realtime hattının Aralık sabit sürümü

gpt-4o-realtime-preview-2024-12-17, OpenAI'ın tam katman akış sesli modelinin Aralık 2024 tarihli anlık görüntüsüdür. O ay itibarıyla geçerli olan hareketli gpt-4o-realtime-preview takma adının dondurulmuş hali olup, belirli davranışlara karşı sabitleme yapan üretim ses dağıtımları için kilitlenmiştir.

Tam katmanda canlı sesli ajanlar için, OpenAI önizleme hattı üzerinde yinelemeye devam ederken çağrı akışını, kesinti yönetimini ve muhakeme stilini öngörülebilir tutan şey bu anlık görüntü sabitlemesidir.

Bu anlık görüntünün temsil ettiği şey

Aralık 2024 itibarıyla tam realtime önizlemesi şu noktaları kararlı hale getirmişti:

  • Sonraki anlık görüntülerin devraldığı WebSocket olay protokolünü oturtmuştu.
  • Diğer ses ailesiyle paylaşılan, küçük ve sabit ön ayarlı çıkış sesleri kümesini kilitlemişti.
  • İlk önizleme sürümlerindeki daha yıkıcı sıra-algılama (turn-detection) gerilemelerini çözmüştü.

2025'in sonraki anlık görüntülerine kıyasla şunlara sahip değildir:

  • 2025 ortasında gelen ve modelin kullanıcı kesintilerinden daha zarif biçimde toparlanmasını sağlayan iyileştirilmiş kesinti yönetimi.
  • 2025'in 2. çeyreğine kadar yapılan arka uç altyapı değişikliklerinden gelen gecikme iyileştirmeleri.
  • Konuşma akışını yumuşatan rafine geri-kanal (back-channel) algılaması.

2024 sonu veya 2025 başında doğrulanan canlı sesli ajanlar büyük olasılıkla bu anlık görüntüye karşı geçtiler.

Tam katman realtime için sabitlemenin neden mini-realtime'dan daha önemli olduğu

Tam katman modeli, muhakeme kalitesinin kullanıcı deneyimini belirlediği dağıtımlarda konuşmayı taşıyan modeldir. Bu katmandaki davranış değişimleri şunları etkiler:

  • Modelin belirsiz sorulara yanıtlarını nasıl ifade ettiği.
  • Modelin niyeti çıkarsamak yerine ne kadar agresif biçimde açıklayıcı sorular sorduğu.
  • Modelin reddetme sınırlarına yakın uç durum taleplerini nasıl ele aldığı.
  • Modelin tek bir çağrı içindeki birden fazla kullanıcı sırası boyunca bilgiyi nasıl entegre ettiği.

Bunların hepsi son kullanıcılar tarafından görülebilir ve herhangi birindeki kaymalar, yüzeydeki ses değişmemiş olsa bile farklı bir sesli ajanmış gibi hissettirir. 2024-12-17'ye sabitlemek, QA'nızın doğruladığı konuşma davranışının üretimdeki konuşma davranışı olarak kalması anlamına gelir.

Geçiş sorusu

Canlı sesli ajanlar, körlemesine yükseltilmesi gereken en kötü şey türüdür. Disiplinli bir geçişin biçimi şöyledir:

  • Değerlendirme yaparken Aralık sabit sürümünü üretimde tutun.
  • Temsili bir canlı konuşma senaryosu kümesini aday yeni anlık görüntüye karşı yeniden çalıştırın — kayıtlı referans çağrıları, sentetik kesinti testleri, ürününüzün desteklediği dillerde çok turlu muhakeme senaryoları.
  • Eski anlık görüntünün ele aldığı uç durumlardaki gerilemelere dikkat edin. Toplamdaki kazançlar, kötüleşen belirli senaryoları gizlemekte sıklıkla ustadır.
  • Yeni anlık görüntü ürününüz için önemli olan metriklerde kazandığında geçiş yapın; öznel konuşma kalitesinde belirleyici unsur olarak insan değerlendirmesini kullanın.

OpenAI'ın kullanımdan kaldırma politikası, tarihli anlık görüntüleri emekliye ayırmadan önce bildirimde bulunuyor; ancak politika yalnızca alt sınırdır. Tarihli sabitlemeyi geçici bir sözleşme olarak ele alın — değerlendirmeniz öyle dediğinde ileri taşıyın.

Nerede yetersiz kalıyor

Tam-realtime hattının geri kalanıyla aynı kısıtlamalar geçerli.

Gerçekte akış gerektirmeyen iş yükleri. Audio-preview hattı, istek/yanıt sesli senaryolar için doğru tercihtir.

Yüksek hacimde maliyete duyarlı dağıtımlar. Tam katman dakika başına ekonomisinin uymadığı durumlar için mini-realtime mevcuttur.

Saf transkripsiyon. Sesten metne çevirinin tüm görev olduğu durumlarda transcribe uç noktaları dakika başına daha ucuzdur.

Self-hosted dağıtım. OpenAI altyapısına WebSocket bağlantısı zorunludur. Tesis içi seçenekler için /usecases/local bakın.

Anlık görüntü ufkunun ötesinde üretim düzeyinde sözleşme istikrarı. Preview etiketi, kategorinin hâlâ değişim halinde olduğu anlamına gelir. Tarihli sabitleme size anlık görüntü düzeyinde istikrar sağlar, kategori düzeyinde değil.

Bu tam anlık görüntüye ne zaman sabitlenmeli

gpt-4o-realtime-preview-2024-12-17 sürümünü şu durumlarda seçin:

  • 2024 sonu tam-realtime davranışı üzerine canlı bir sesli ürün gönderdiniz ve bunu stabil tutmanız gerekiyor.
  • Bir uyumluluk gereksinimi, model versiyonunu anlık görüntü düzeyinde sabitliyor.
  • Yeni anlık görüntüleri değerlendirmenin ortasındasınız ve değerlendirme sürerken stabil bir üretim taban çizgisine ihtiyacınız var.

Şu durumlarda atlayın:

  • Sıfırdan başlıyorsanız — en güncel anlık görüntüyü değerlendirin ve onu sabitleyin.
  • Sonraki anlık görüntülerdeki kesinti yönetimi, gecikme veya geri-kanal iyileştirmeleri değerlendirmenizde kazandıysa.
  • Realtime hattı önizlemeden stabile mezun olursa — yeni projeler için doğru hedef budur.

Karşılaştırmaya değer alternatifler

Haziran 2025 iyileştirmeleri kanıtlanabilir biçimde kazandığında yeni gpt-4o-realtime-preview-2025-06-03 anlık görüntüsü. Maliyetin muhakeme kapasitesinden daha önemli olduğu durumlarda mini-realtime. Akışsız ses için audio-preview hattı. /usecases/voice üzerindeki daha geniş sesli model incelemesi, rakip realtime sağlayıcılarını kapsar.

Dağıtım notları

WebSocket protokolü şimdiye kadar realtime anlık görüntüleri arasında değişmedi. Anlık görüntü sabitlemesi tamamen bir model-adı seçimidir; olay modeli ve mesaj formatı, hareketli takma adın yayınlanma tarihinde olduğu haliyle aynıdır.

Ses girişi ve ses çıkışı için dakika başına faturalandırma, ayrıca modelden geçen metin eşdeğeri için token başına faturalandırma. Kapasite planlaması eşzamanlı çağrı şeklindedir.

İstemci tarafı durum yönetimi, akış için ödenen entegrasyon maliyetidir. Bu entegrasyonun hiçbiri anlık görüntüler arasında değişmez — protokol stabildir. Anlık görüntüler arasında değişen davranışsal ayrıntılar, tam olarak bu tarihli sabitlemenin sizin için dondurduğu şeydir.

Pragmatik okuma. Bu, tam katman realtime'ın Aralık 2024 donmuş halidir. Canlı sesli ürününüz buna karşı doğrulandıysa ve daha yeni bir anlık görüntüye karşı yeniden doğrulama maliyeti faydasından ağır basıyorsa sabitleyin. Herhangi bir geçişten önce /live-test üzerinde canlı çağrı karşılaştırmaları çalıştırın.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

gpt-4o-realtime-preview-2024-12-17 — illustration 2
Son otomatik test
24 May 2026 · 04:47 UTC · Test
P50 gecikme
P95 gecikme
Hatalar
1 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·26 Mayıs 2026