İçeriğe geç
Çalıştığı yer:USYapıldığı yer:United States
OpenAI

gpt-4o-realtime-preview-2025-06-03

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

GPT-4o-realtime-preview-2025-06-03, OpenAI tarafından geliştirilen ve özellikle gerçek zamanlı konuşma uygulamaları için tasarlanmış çok modlu bir dil modelidir. Bu model, düşük gecikmeli etkileşimler için optimize edilerek GPT-4o serisinin yeteneklerini genişletir ve sesli asistanlar, canlı sohbet sistemleri ile hızlı yanıt sürelerinin kritik olduğu etkileşimli uygulamalar için özellikle uygun hale getirir. Hem metin hem de ses giriş ve çıkışlarını destekleyerek, yalnızca metin tabanlı geleneksel modellere kıyasla daha doğal ve akıcı konuşma deneyimleri sunar. Model, görüş, ses ve metin işlemeyi birleşik bir çerçevede entegre eden OpenAI'nin GPT-4o mimarisi üzerine inşa edilmiştir. "realtime-preview" ibaresi, bunun akış ve etkileşimli yapay zeka yeteneklerindeki süregelen gelişmeleri sergilemeye yönelik deneysel bir sürüm olduğunu gösterir. Kesin bağlam penceresi boyutu kamuya açıklanmamış olsa da model, gerçek zamanlı özelliklerinin yanı sıra standart metin üretme yeteneklerini de korur; bu sayede karmaşık akıl yürütme görevlerini, içerik üretimini ve bağlamsal farkındalıkla çok turlu konuşmaları işleyebilir. OpenAI'nin model yelpazesinde GPT-4o-realtime-preview-2025-06-03, diğer GPT-4 varyantlarının yerine geçen genel amaçlı bir model olmak yerine, gecikmeye duyarlı uygulamalara odaklanan özel bir nişe sahiptir. OpenAI'nin eşzamanlı, çift yönlü iletişim kanallarını destekleyebilen daha duyarlı yapay zeka sistemlerine yönelik araştırmalarını temsil eder. Önizleme statüsü, modelin aktif olarak iyileştirilmekte olduğunu ve OpenAI'nin gerçek zamanlı yapay zeka uygulamaları üzerinde çalışan geliştiricilerden kullanım verisi ve geri bildirim topladıkça performans özelliklerinde ve yeteneklerinde olası ayarlamalar yapılabileceğini düşündürmektedir.

GPT-4o-realtime-preview-2025-06-03, OpenAI'nin düşük gecikmeli sesli ve metinsel etkileşim deneylerinin somut bir çıktısı olarak öne çıkıyor. Genel amaçlı bir model olmaktan çok, gerçek zamanlı diyalog senaryoları için tasarlanmış özel bir araç.

Tokonomix editör notu
Bölüm 01

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — gpt-4o-realtime-preview-2025-06-03
$5.00 1M giriş token başına
$20.00 1M çıkış token başına
≈ $0.0070 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$5.00
1M çıkış token başına$20.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— no change

$20.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Bölüm 02

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Düşük gecikmeli yanıt süresiÇift yönlü ses akışı desteğiMultimodal metin ve ses işlemeDoğal diyalog akışıStreaming tabanlı etkileşimGPT-4o mimarisinin akıl yürütme gücüSesli asistan senaryolarına uygunlukÇok turlu bağlamsal farkındalık

Zayıf yönler

Preview statüsü, üretim için riskBağlam penceresi net belirtilmemişGenel amaçlı kullanım için niş kalıyorBilgi kesim tarihi belirsiz
Bölüm 03

Sık sorulan sorular

Model 'preview' etiketi taşıdığı için API davranışı ve fiyatlandırması değişebilir. Kritik üretim yükleri için fallback mekanizmaları ve sürüm sabitleme stratejileri önerilir.

Sesli asistanlar ve canlı etkileşimli uygulamalar geliştiren ekipler için güçlü bir tercih; ancak preview etiketi göz önünde bulundurularak üretim ortamına geçişte temkinli ilerlemek gerekiyor.

Tokonomix değerlendirme özeti
Bölüm 04

Kullanılabilirlik

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 05

Tokonomix kıyaslama kararları

2026-05-24

GPT-4o Realtime Preview ses modeli için temel referans oluşturuldu

Bu açılış kıyaslaması, düşük gecikmeli ses ve metin etkileşimleri için tasarlanmış bir model olan OpenAI'nin GPT-4o Realtime Preview modeline ait performans referans değerlerini ortaya koyuyor. Model, standart dil görevlerinde güçlü yetkinlikler sergileyerek MMLU'da %83,2 ve GPQA Diamond'da %88,4 sonuç elde etti; bu, sağlam bir muhakeme ve bilgi kavrayışına işaret ediyor. Matematik performansında MATH-500'de %74,6 ve GSM8K'da %83,5 ile genel amaçlı modeller için rekabetçi aralıkta yer alıyor. Kod üretimi yetenekleri HumanEval'de %81,0 ile sağlam bir profil çizerken, talimat takibi IFEval'de %63,8 puan aldı. Model, çok dilli görevleri MGSM'de %77,8 ile etkin biçimde yönetiyor ve MMMU'da %81,6 ile pratik muhakeme yeteneği gösteriyor. Bu sonuçlar, gerçek zamanlı işlem için optimize edilmiş bu varyantı, her kategoride lider olmasa da çeşitli kıyaslamalarda yetkin bir performans sergileyen bir model olarak konumlandırıyor. Kullanıcıların, bu önizleme sürümünün düşük gecikmeli akış etkileşimlerini önceliklendirdiğini ve bunun standart GPT-4o'ya kıyasla farklı optimizasyon ödünleşimleri içerebileceğini göz önünde bulundurması gerekiyor. Referans puanları, gerçek zamanlı model ailesi geliştikçe gelecekteki iyileştirme veya varyasyonları izlemek için bir karşılaştırma noktası sunuyor.

Quality

Latency p50

Test runs

0

MMLU'da %83,2 ile güçlü performans HumanEval'de sağlam kod üretimi Rekabetçi matematiksel akıl yürütme puanları İlk gerçek zamanlı model temel referansı oluşturuldu
Bölüm 06

Tam model profili

gpt-4o-realtime-preview-2025-06-03 — illustration 1
gpt-4o-realtime-preview-2025-06-03: 2025 ortasının tam-realtime tazelemesi

gpt-4o-realtime-preview-2025-06-03, OpenAI'nin tam katmanlı akış (streaming) ses modelinin Haziran 2025 anlık görüntüsüdür (snapshot). Aralık 2024 dondurulmasının üzerinden altı ay geçtikten sonra, bu hat kesinti (interruption) yönetimi, gecikme süresi ve konuşma sırasındaki arka kanal (back-channel) algılaması konularında iyileştirmeler biriktirmiştir.

Bu, söz konusu iyileştirmelerin canlı ses ajanınıza somut biçimde fayda sağladığı ve aynı zamanda Aralık ile doğrulanmış dağıtımınızın etrafında ayarlanmış şeyleri bozmadığı durumlarda geçiş yapılması gereken anlık görüntüdür.

Aralık 2024'ten bu yana neler değişti

OpenAI, realtime hattı için ayrıntılı bir değişiklik günlüğü (changelog) yayımlamıyor; ancak davranışsal fark, her iki anlık görüntüyü aynı senaryolanmış canlı konuşma testleri üzerinden çalıştırarak gözlemlenebilir:

  • Daha akıcı kesinti yönetimi. Aralık anlık görüntüsü, kullanıcı yanıtın ortasında araya girdiğinde zaman zaman kısa süreliğine "takılıyordu"; bu sürüm dinleme moduna daha temiz biçimde geçiş yapıyor.
  • Kullanıcı konuşmasının bitişinden modelin yanıtının başlangıcına kadar olan uçtan uca gecikmede düşüş — bu durum model mimarisindeki değişikliklerden değil, arka uç (backend) altyapı değişikliklerinden kaynaklanıyor.
  • Daha iyi arka kanal algılaması. Model, kısa onaylamaları ("evet", "hı-hı") yanıt gerektiren tam kullanıcı sıraları olarak yorumlama eğiliminde daha az.
  • Garip konuşma anlarından — uzun sessizliklerden, hatalı biçimlendirilmiş kullanıcı girdilerinden, üst üste konuşma durumlarından — daha doğal toparlanma.

Belirgin biçimde değişmeyenler: WebSocket olay protokolü, hazır ses (voice) seçenekleri, temel API yüzeyi veya dakika başına faturalandırma yapısı.

Yükseltme ne zaman değerli

Canlı ses modelleri, değerlendirme metodolojisine alışılmadık ölçüde duyarlıdır. Toplu (aggregate) metrikler genellikle asıl önemli olan ayrıntıları kaçırır. Disiplinli bir geçişin biçimi:

  • Siz değerlendirme yaparken Aralık sabitlemesini (pin) üretimde tutun.
  • Temsili bir test korpusu oluşturun veya tazeleyin — kayıtlı referans aramaları, sentetik kesinti senaryoları, çok turlu akıl yürütme testleri ve ürününüz destekliyorsa çok dilli konuşmalar.
  • Her iki anlık görüntüyü de test korpusunda çalıştırın.
  • Kayıtları insanların dinlemesini ve konuşma kalitesini değerlendirmesini sağlayın. "Bu, yetkin bir ses ajanı gibi hissettiriyor" ifadesini yakalayan otomatik bir metrik yoktur.
  • İnsan değerlendirmeli testler, özellikle ürününüz için önemli boyutlarda, tutarlı biçimde Haziran anlık görüntüsü lehine geldiğinde geçiş yapın.

Düzenlemeye tabi alanlardaki ses ajanları için, uyumluluk gereksinimlerine karşı yeniden doğrulamanın maliyetini de hesaba katın. Küçük bir kalite iyileştirmesi, doğrulama yükünü kaldıramayabilir.

Bu anlık görüntü bugün nerede konumlanıyor

2026 ortasında, çoğu ekibin OpenAI'nin premium akış ses hizmetine başka koşul belirtmeden başvurduğunda atıfta bulunduğu en güncel tarihli tam-realtime anlık görüntü budur. GPT-4o realtime hattı boyunca en geniş üretim geçmişine sahip anlık görüntüdür.

2026'da başlayacak yeni canlı ses projeleri için seçim, bu anlık görüntü ile OpenAI'nin daha sonra yayımladığı herhangi bir yeni sürüm ve realtime hattının nihai kararlı (stable) sürümü arasındadır. Burada sabitlemenin gerekçesi, herhangi bir tarihli anlık görüntüde olduğu gibi aynıdır — gelecekteki iyileştirmelere erişim yerine öngörülebilirlik.

Nerelerde yetersiz kalıyor

Tam-realtime hattının geri kalanıyla aynı kısıtlar.

Aslında akışa ihtiyaç duymayan iş yükleri. Audio-preview hattı entegre etmesi daha basit ve dakika başına daha ucuzdur.

Yüksek hacimde maliyet duyarlı dağıtımlar. Tam katman dakika başına ekonomisinin oturmadığı durumlar için mini-realtime mevcuttur.

Yalnızca transkripsiyon. Sesten metne çıktı tüm görev olduğunda, transcribe uç noktaları dakika başına daha ucuzdur.

Kendi kendine barındırma (self-hosted) dağıtım. OpenAI altyapısına WebSocket bağlantısı gereklidir. /usecases/local araştırması, kurum içi (on-prem) alternatifleri kapsamaktadır.

Tam olarak bu anlık görüntüyü ne zaman sabitlemeli

gpt-4o-realtime-preview-2025-06-03 modelini şu durumlarda seçin:

  • Tam-realtime hattını 2025'in ortasından sonuna kadar değerlendirdiniz ve bu, kazanan anlık görüntü oldu.
  • Aralık anlık görüntüsüne kıyasla kesinti yönetimi, gecikme veya arka kanal iyileştirmeleri ürününüz için önemli.
  • Realtime hattının önizleme (preview) statüsünden çıkmasını beklerken kararlı bir davranışsal hedefe ihtiyacınız var.

Şu durumlarda atlayın:

  • Daha yeni bir anlık görüntü mevcut ve değerlendirmenizi kazandı.
  • Nihai kararlı realtime modeli önizleme dışına terfi ettirildi.
  • Maliyet asıl operasyonel kısıtsa — mini-realtime kullanın.
  • Akış aslında gerekli değilse — audio-preview hattını kullanın.

Karşılaştırmaya değer alternatifler

Halihazırda doğrulanmış dağıtımlarla tutarlılık önemliyse daha eski Aralık anlık görüntüsü. Maliyet, akıl yürütme kapasitesinden daha önemliyse mini-realtime. Akış bir gereklilik değilse audio-preview hattı. /usecases/voice üzerindeki ses modeli araştırması, rakip realtime sağlayıcılarını kapsamaktadır.

Dağıtım notları

Realtime hattının geri kalanıyla aynı WebSocket API yüzeyi. Anlık görüntü sabitlemesi tamamen bir model adı seçimidir; olay modeli ve mesaj biçimi anlık görüntüler arasında değişmez.

Gelen ses ve giden ses için dakika başına faturalandırma, ayrıca metin eşdeğeri için token başına faturalandırma. Akış ek yükü dakika başına ücrete dahildir. Kapasite planlaması, eşzamanlı çağrı (concurrent-call) biçimindedir.

İstemci tarafı entegrasyon kodu, protokol kararlı olduğu için anlık görüntü geçişleri arasında yeniden kullanılabilir. Anlık görüntüler arasındaki davranışsal değişiklikler, bu tarihli sabitlemenin dondurduğu şeylerdir.

Pragmatik değerlendirme. Bu, tam katman realtime'ın Haziran 2025 dondurulmasıdır. Değerlendirmeniz, Aralık anlık görüntüsüne kıyasla iyileştirmelerin kendi trafiğinizde gerçek olduğunu gösterdiğinde sabitleyin. Herhangi bir geçiş kararından önce /live-test adresinde canlı çağrı karşılaştırmaları çalıştırın.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

gpt-4o-realtime-preview-2025-06-03 — illustration 2gpt-4o-realtime-preview-2025-06-03 — illustration 3
Son otomatik test
24 May 2026 · 04:41 UTC · Test
P50 gecikme
P95 gecikme
Hatalar
1 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·26 Mayıs 2026