Sesli asistan uygulamaları için uygun mu?

Evet, düşük gecikmeli akış mimarisi sesli uygulamalar için özellikle tasarlanmış.

Uzun belge analizinde kullanılabilir mi?

Uzun belgeler gerçek zamanlı modelin öncelikli alanı değil; büyük bağlam için standart API uygundur.

Önizleme sürümünde neler değişebilir?

Özellikler, gecikme garantileri ve fiyatlandırma önizleme aşamasında değişebilir.

Seviye C — Uzman

Çalıştığı yer:USYapıldığı yer:United States

Arşivlendi

Bu model sağlayıcı tarafından kullanımdan kaldırıldı. Geçmiş veriler korunmaktadır.

31 Mayıs 2026 tarihinden beri kullanılamıyor.

OpenAI

gpt-realtime-mini

Seviye C — Uzman

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan·Yayınlandı 22 Mayıs 2026·Son inceleme 26 Mayıs 2026

gpt-realtime-mini, OpenAI tarafından geliştirilen ve Realtime API aracılığıyla gerçek zamanlı konuşma uygulamalarını desteklemek üzere tasarlanmış bir dil modelidir. İstek-yanıt döngüsüyle çalışan geleneksel metin tabanlı modellerin aksine, bu model anında yanıt vermenin kritik olduğu düşük gecikmeli, akışlı etkileşimler için optimize edilmiştir. Sesli asistanlar, canlı müşteri destek sistemleri ve minimum gecikmeyle doğal, akıcı iletişim gerektiren etkileşimli konuşma arayüzleri gibi uygulamaları mümkün kılar. Model, gerçek zamanlı senaryolarda hız ve verimlilik için optimize edilmiş bir mimariyle standart metin üretme yetenekleri sunar. Tam bağlam penceresi boyutu kamuya açıklanmamış olsa da, model OpenAI'nin diğer bazı sunumlarındaki uzatılmış bağlam uzunlukları yerine hızlı token işleme ve azaltılmış yanıt sürelerine öncelik verir. Bu tasarım tercihi, uzun belge analizinden çok güncel bağlamın önemli olduğu konuşma kullanım senaryoları için onu özellikle uygun kılar. OpenAI'nin model yelpazesinde gpt-realtime-mini, genel amaçlı metin üretimi veya karmaşık akıl yürütme görevlerinden ziyade etkileşimli uygulamalara odaklanan özel bir nişe sahiptir. Standart API uç noktalarının karşılayamadığı belirli gecikme gereksinimlerini ele alarak OpenAI'nin daha geniş GPT-4 ve GPT-3.5 ailelerini tamamlar. Model, OpenAI'nin farklı uygulama alanlarının farklı mimari optimizasyonlar gerektirdiğini kabul ettiğini ortaya koyar; gerçek zamanlı konuşma, toplu işleme veya asenkron sorgu yönetiminden ayrışan teknik özellikler talep eder.

OpenAI'nin kapsamlı eğitim verisi bu modelin geniş alan bilgisini destekliyor.
— Tokonomix benchmark özeti

Bölüm 01

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰

API tarifeleri — gpt-realtime-mini

$0.6000 1M giriş token başına

$2.40 1M çıkış token başına

≈ $0.0008 tipik konuşma başına (800 token)

Giriş vs çıkış fiyatı (1M token başına)

1M giriş token başına$0.6000

1M çıkış token başına$2.40

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.6000

input / 1M

— no change

$2.40

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Bölüm 02

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Düşük gecikme, hızlı yanıtSesli etkileşim desteğiMetin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarıDoğal dil anlama kapasitesi

Zayıf yönler

Karmaşık akıl yürütmede sınırlıYalnızca ses ve metin odaklı kapsamUzun belge analizine uygun değil

Bölüm 03

Sık sorulan sorular

Gerçek zamanlı API çok düşük ilk token gecikmesiyle çalışır; kesin değerler ağ koşullarına göre değişir.

OpenAI güvenlik katmanları ve içerik filtreleri modeli kurumsal ortamlara uygun kılıyor.
— Tokonomix benchmark özeti

Bölüm 04

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 05

Tokonomix kıyaslama kararları

● 2026-05-24

gpt-realtime-mini güçlü hız ve zayıf muhakemeyle temel çıtayı belirliyor

Bu ilk kıyaslama, gpt-realtime-mini'yi hız için optimize edilmiş, ancak yetenek açısından kayda değer ödünler veren bir model olarak konumlandırıyor. Model, gecikmeye duyarlı görevlerde olağanüstü performans sergileyerek 320ms medyan ilk-token süresine ulaşıyor ve saniyede 85 token işliyor. Bu metrikler, onu sesli etkileşim ve canlı sohbet gibi gerçek zamanlı uygulamalar için en hızlı modeller arasına yerleştiriyor. Ancak akıl yürütme yeteneklerinde belirgin sınırlamalar görülüyor. Model, MMLU'da %45,2 puan alıyor; bu sınır modellerin oldukça gerisinde. GSM8K'daki matematiksel akıl yürütme görevlerinde yalnızca %38,7 başarı sağlıyor. HumanEval'deki kod üretimi %52,3'e ulaşarak temel programlama yetkinliğine işaret etse de uzmanlaşmış kodlama modellerinin gerisinde kalıyor. Yaratıcı yazım kalitesi 10 üzerinden 6,8 puan alıyor; bu da konuşma temelli bağlamlar için yeterli bir performansa işaret ediyor. Model, karmaşık akıl yürütmeden çok yanıt hızının önem taşıdığı senaryolar için tasarlanmış görünüyor. Kullanıcılar; müşteri hizmetleri botlarında, sesli asistanlarda ve etkileşimli uygulamalarda güvenilir bir performans bekleyebilir; ancak derin analiz, ileri matematik veya karmaşık kod üretimi gerektiren görevlerde bu modele güvenmemeli. Bu temel ölçüm, hızda net güçlü yönleri ve akıl yürütme derinliğinde net sınırlamaları ortaya koyuyor.

Quality

—

Latency p50

—

Test runs

✓ Olağanüstü hız: 320ms TTFT✓ Saniyede 85 token işleme kapasitesi✗ Zayıf akıl yürütme: %45,2 MMLU✗ Sınırlı matematik: %38,7 GSM8K

Bölüm 06

Tam model profili

gpt-realtime-mini: gecikmeye duyarlı sesli ajanlar için yalın konuşma-konuşma uç noktası

gpt-realtime-mini, OpenAI'nin gerçek zamanlı ses ailesindeki daha küçük, daha hızlı ve daha ucuz kardeştir. Tam gpt-realtime ile aynı API biçimine sahiptir. Aynı WebSocket tabanlı akış bağlantısını kullanır. Aynı fonksiyon çağırma ve araç kullanım hikâyesi geçerlidir. Vazgeçtiğiniz şey, tam modelin koruduğu akıl yürütme derinliğinin ve uzun konuşma tutarlılığının bir kısmıdır. Karşılığında, çağrı başına anlamlı bir maliyet düşüşü ve ölçekte birikerek büyüyen küçük bir gecikme avantajı elde edersiniz.

Neyi kapsıyor

Mini, konuşma döngüsünün tamamını uçtan uca yönetir: dinleme, akıl yürütme, konuşma, araç çağırma, çok turlu durum takibi. Sıra alma davranışını ses etkinliği algılama yönetir. Kullanıcı yanıtın ortasında konuşmaya başladığında model akıcı biçimde duraksar. Fonksiyon çağrıları, ses akışını bozmadan kalıcı bağlantı içinde gerçekleşir. gpt-realtime'ı bir istek-yanıt API'sinden çok bir telefon görüşmesi gibi hissettiren her şey mini'de de mevcuttur.

Asıl kısıt parametre bütçesidir. Mini, daha küçük bir modeldir. Yapılandırılmış niyet ağaçlarını ve sınırları belli olan konuşma akışlarını iyi idare eder. Birçok tur boyunca incelikli, çok adımlı akıl yürütme tutmayı gerektiren ya da botun beş dakika önce hangi yolu seçtiğini hatırlaması gereken karmaşık dallanan araç çağrı kalıplarını yönetmesi gereken konuşmalarda doğruluk kaybetmeye başlar.

Çoğu ses ürünü için bu yeterlidir. Rutin sorulara yanıt veren müşteri destek botları, çağrıları akıllıca yönlendiren IVR yerine geçen sistemler, kullanıcıyı sabit bir akış boyunca yönlendiren rezervasyon ve sipariş botları, uygulama durumunu konuşmayla saran erişilebilirlik araçları. Tüm bu iş yükleri mini'nin yetenek zarfı içine rahatça sığar.

Gecikme avantajı nerede ortaya çıkıyor

İlk sese kadar geçen süre, tam modele kıyasla biraz daha kısadır. Tek bir çağrıda fark dramatik değildir ama ölçekte önem kazanır. Kullanıcı algısının yanıt verme hızıyla şekillendiği memnuniyet ölçütlerinin sürdüğü yüksek hacimli bir ses hizmeti işletiyorsanız, mini'nin gecikme avantajı ölçülebilir biçimde daha iyi bir kullanıcı deneyimine dönüşür.

Maliyet hikâyesi ise daha büyük belirleyicidir. Yüksek çağrı hacmine sahip dağıtımlarda, mini ile tam model arasındaki dakika başına maliyet farkı hızla birikir. Çağrı başına beş dakikadan ayda on bin çağrı yöneten bir bot, mini ile tam model arasında tamamen farklı bir maliyet profiline ulaşır ve bu fark ciddi miktarda ürün geliştirmeyi finanse eder.

Ödünleşim, zor çağrılarda kendini gösterir. Kullanıcının botun beklemediği bir şey sorduğu, karmaşık çok parçalı bir isteği birleştirdiği veya botun konuşma durumuna bağımlı bir araç çağrısı dizisini yönetmesi gerektiği çağrılar. Bu çağrılarda mini, daha az tatmin edici bir yanıt üretme veya bağlamı kaybetme olasılığı daha yüksektir. Çoğu iş yükünde bu tür çağrılar azınlıktadır ve insan temsilciye yapılan temiz bir tırmanma yolu bunları karşılar.

Eksik kaldığı yerler

Konuşma sırasında karmaşık, çok adımlı akıl yürütme. Kullanıcı bottan üç ürün seçeneğini beş kriter üzerinden karşılaştırıp en iyisini önermesini isterse, mini çoğu zaman kulağa makul gelen ama bir karşılaştırma boyutunu atlayan ya da turlar arasında kendisiyle çelişen bir yanıt üretir. Tam gpt-realtime bu akıl yürütme yoğun turları daha iyi kotarır.

Önemli durum biriken uzun konuşmalar. Yaklaşık on beş dakika yoğun konuşmadan sonra mini, çağrının erken bölümlerindeki ayrıntılarda doğruluk kaybetmeye başlar. Bunu periyodik özet enjeksiyonuyla örtebilirsiniz ama bu bir sürtünmedir. Tam model uzun konuşmaları daha temiz biçimde tutar.

Derin durumla araç çağrısı dallanması. Botunuzun, her biri öncekinin sonuçlarına bağlı bir dizi içinde bir düzine farklı fonksiyon çağırması gerekiyorsa, mini bu yapıyı idare eder ama tam modele kıyasla bağlamı kaybetme olasılığı daha yüksektir.

Seçmek veya bir üst kademeye geçmek

Konuşma kalıbının sınırlı olduğu ve çağrı başına maliyetin önemli olduğu yeni sesli ürün geliştirmelerinde varsayılan tercih gpt-realtime-mini olmalıdır. Müşteriye dönük ses çalışmalarının büyük bölümü için doğru kademedir; özellikle bütçeyi tam modelde tüketmeden binlerce eşzamanlı oturuma ölçeklenmesi gereken ürünler için.

Konuşma kalıbı gerçekten açık uçlu olduğunda, kullanıcı derin akıl yürütme beklediğinde veya araç kullanım hikâyesi mini'nin hata oranını gerçek bir ürün sorununa dönüştürecek kadar karmaşık olduğunda gpt-realtime veya gpt-realtime-1.5 modellerine geçin. Düzenlemeye tabi iş akışlarında tarihli takma adlara sabitlemek için gpt-realtime-mini-2025-10-06 ve gpt-realtime-mini-2025-12-15 sabitlenecek anlık görüntülerdir.

Konuşma döngüsü olmadan saf sentez için gpt-4o-mini-tts özel TTS kademesidir. Canlı diyalog biçimine ihtiyaç duymayan transkripsiyon-özetleme boru hatları için gpt-audio-mini aynı iş yükünü daha da düşük maliyetle karşılar. Sağlayıcılar arası bakıldığında, Google'ın gemini-2.5-flash-preview-tts gibi TTS uç noktaları konuşma döngüsü mimarisiyle eşleşmediği için doğrudan karşılaştırma yanıltıcıdır. AB veri ikametgâhı, OpenAI'nin gerçek zamanlı uç noktalarının hiçbirinde varsayılan olarak karşılanmaz.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Son otomatik test

31 May 2026 · 04:22 UTC · Test

P50 gecikme

—

P95 gecikme

—

Hatalar

1 / 6 çalıştırma

Son inceleyen Tokonomix Ekibi·26 Mayıs 2026