
gpt-realtime, ses öncelikli ürün desenini OpenAI yığını üzerinde gerçekten uygulanabilir hâle getiren modeldir. Akışlı sesi girdi olarak kabul eder, akışlı sesi çıktı olarak döndürür ve dinleme, akıl yürütme ile konuşmanın tüm döngüsünü tek bir bağlantı içinde yönetir. Mimari değişiklik kulağa geldiğinden çok daha fazla şey ifade ediyor. Whisper-artı-LLM-artı-TTS şeklinde üst üste yığılmış işlem hatları üzerine kurulan ses ürünleri, her aktarımda bir gecikme tabanı ve bir prozodi kaybı taşıyordu. gpt-realtime ikisini de ortadan kaldırıyor.
Gerçekte ne yapıyor
Model, kalıcı bir WebSocket bağlantısı sürdürür. İstemciniz, kullanıcı konuşurken ses parçacıklarını akış olarak gönderir. Sunucu, model yanıt verirken ses parçacıklarını akış olarak geri gönderir. Fonksiyon çağrıları, araç çağırımları ve yapılandırılmış çıktıların tamamı, ses akışını bozmadan aynı bağlantı içinde kullanılabilir. Zihinsel model, bir istek-yanıt API'sinden çok telefon görüşmesine yakındır.
Sıra alma (turn-taking), kullanıcı açısından en görünür iyileştirmedir. Model, kullanıcının ne zaman konuşmayı bitirdiğine karar vermek için ses-aktivite algılaması ve konuşmaya dair ipuçlarını kullanır. Kullanıcı yanıt ortasında konuşmaya başladığında zarif biçimde araya girer, uzun bir cevabı varken sözü elinde tutar ve bir kesintinin ardından doğal bir şekilde kaldığı yerden devam eder. Yazıya döküldüğünde bu davranışların hiçbiri devrim niteliğinde gelmiyor. Ancak bunlar olmadan bir ses ürünü inşa edip kullanıcıların bot tarafından sözlerinin kesilmesinden dolayı sinirlendiğini ilk gördüğünüzde, hepsinin önemli olduğunu hissediyorsunuz.
Araç kullanımı tarafı ikinci büyük mimari kazanım. gpt-realtime, konuşma sırasında uygulamanızda tanımlı fonksiyonları çağırabilir, sonuçları sözlü yanıta dokuyabilir ve diyaloğu kullanıcı en ufak bir takılma hissetmeden sürdürebilir. Bu özellik, botun bir siparişi sorgulaması, uygunluk kontrolü yapması veya bir insana aktarım yapması gereken gerçek müşteri odaklı işlerde modeli kullanılabilir kılar.
Kaputun altında
OpenAI parametre sayılarını yayımlamadı. Gözlemlenebilir davranışlardan yola çıkarak modelin birleşik bir ses-metin transformatörü olduğu ve önemli bir parametre bütçesine sahip olduğu, kesinlikle mini varyantlardan daha büyük olduğu görülüyor. Bağlam penceresi, başlangıçta söylenenleri kaybetmeden anlamlı uzunluktaki çok turlu konuşmaları taşıyacak kadar büyüktür; ancak kesin rakamlar genel belgelerde yer almamaktadır.
Çok dilli kapsama güçlü. İngilizce, İspanyolca, Fransızca, Almanca, İtalyanca, Portekizce, Felemenkçe, Japonca ve Mandarin'in tümü sentez ve anlama açısından iyi çalışıyor. Cümle ortasında dil değiştirme (code-switching), büyük Avrupa dili çiftleri için makul biçimde ele alınıyor. Ses karakteri, tek bir ses seçimi içinde tüm dillerde tutarlıdır; bu, çok dilli dağıtımlar arasında tutarlı bir kimliğe ihtiyaç duyan markalı ses ürünleri için önemlidir.
Gecikme süresi, manşet metriktir. İlk-sese-kadar-geçen-süre, yığılmış bir işlem hattının başarabileceğinin oldukça altındadır; tipik olarak kullanıcının konuşmasının bitiminden modelin sesinin başlamasına kadar birkaç yüz milisaniye aralığındadır. Bu da konuşmanın yapay değil doğal hissettirdiği bölgeye onu yerleştirir.
Nerede işe yarıyor
Karmaşık çok turlu konuşmaları ve araç çağrılarını yönetmesi gereken müşteri hizmetleri ses ajanları. Teletıp triyaj ve hasta kabul botları. Modelin hem dinlediği hem de konuştuğu canlı çeviri katmanları. Zengin durum bilgisiyle eller serbest etkileşim için araç içi asistanlar. Karmaşık uygulama durumlarını konuşma temelli bir arayüze saran erişilebilirlik araçları.
Düşük gecikme, sağlam araç kullanımı ve doğal sıra alma kombinasyonu, kullanıcının yanıt verme hızı beklediği ve konuşmanın gerçek bir derinliğe sahip olduğu her ses ürünü için onu varsayılan tercih hâline getiriyor. Ses klonlama mevcut değildir. Ses seçimi, OpenAI'nin küratörlüğünü yaptığı settir; bu da taklit riskinin gerçek olduğu müşteri odaklı uygulamalar için doğru bir kısıtlamadır.
Nerede yetersiz kalıyor ve başka neyi göz önünde bulundurmalı
Otuz dakikayı aşan çok uzun konuşmalar, bağlam kaymasını göstermeye başlar. Modelin bir saatlik aramanın açılışındaki yapılandırılmış ayrıntıları hatırlaması gereken iş akışları için, periyodik özet turları enjekte etmeniz veya ayrı bir uzun bağlamlı akıl yürütme modeline sahip yığılmış mimariye geçmeniz gerekir.
İş yükünüz yüksek hacimli ve çağrı başına karmaşıklık mütevazıysa, gpt-realtime-mini aynı şekildeki işi daha düşük maliyetle yöneten bütçe seviyesindeki kardeşidir. Karşılığında mini, bir miktar akıl yürütme derinliğinden ve araç kullanımı inceliğinden ödün verir. Diyalog döngüsü olmadan saf transkripsiyon veya sentez için gpt-audio-mini ve gpt-4o-mini-tts bu daha dar işleri kapsar.
Tarihli anlık görüntüler olan gpt-realtime-2025-08-28 ve daha yeni gpt-realtime-1.5, tekrarlanabilirliğin önemli olduğu düzenlemeye tabi iş akışlarında sabitlenmesi gereken sürümlerdir. Yüzen gpt-realtime adı, OpenAI'nin bundan sonra yayımlayacağı her şeye doğru ilerleyecektir; bu, keşif amaçlı çalışmalar için sorun değildir, ancak üretim kararlılığı için risklidir.
Google-yerel yığınlar için, en yakın eşdeğer ses-konuşma şekli henüz tam olarak karşılanmıyor. Google'ın gemini-2.5-flash-preview-tts gibi TTS modelleri sentezi kapsıyor, ancak birleşik konuşma döngüsünü kapsamıyor. OpenAI realtime uç noktasında AB veri yerleşimi varsayılan olarak karşılanmıyor. Veri işleme sözleşmelerine sahip bölgesel ağ geçitleri, düzenlemeye tabi Avrupa dağıtımları için pratik bir geçici çözümdür.
Son teknik inceleme: 2026-05-22 — Tokonomix.ai
