
gpt-4o-audio-preview, OpenAI'ın GPT-4o ailesinin önizleme anlık görüntüsüdür; ses girişi alır ve her zamanki metnin yanı sıra ses çıkışı da döndürebilir. Whisper-sonra-GPT zinciri yok. Tek model, tek ileri geçiş, her iki uçta da ses.
Bu, realtime uç noktası değildir. Bu, istek/yanıt biçimindeki varyanttır. Tam bir ses klibi ve bir prompt gönderirsiniz; karşılığında metin, ses ya da her ikisini alırsınız. Realtime API'nin akış karmaşıklığına girmeden tek modelden gelen ses kalitesini istediğinizde işe yarar.
Ses-yerel yolun size gerçekten ne kazandırdığı
Geleneksel ses yığını üç kutudan oluşur: önce konuşmadan metne (speech-to-text), sonra bir LLM, ardından metinden konuşmaya (text-to-speech). Her kutunun bir gecikmesi var, her kutu bilgi düşürüyor ve prozodi Whisper ile TTS motoru arasında bir yerde ölüyor. gpt-4o-audio-preview tüm bunları, dalga formunu doğrudan gören tek bir modele indirgiyor.
Uçtan uca hayatta kalanlar:
- Ton ve vurgu. Model, sinirli, aceleci ya da iğneleyici bir tonda konuştuğunuzu duyar. Bir transkripsiyon işlem hattı, dil modeli bu konuda akıl yürütmeye başlamadan önce bunu ayıklayıp atıyor.
- Konuşmacı kekemelikleri. Duraklamalar, yeniden başlangıçlar, dolgu sözcükleri — model bunları sistem prompt'una bağlı olarak yansıtmayı, düzeltmeyi veya bunlar hakkında yorum yapmayı seçebilir.
- Arka plan bağlamı. Müzik, ortam gürültüsü, cümlenin ortasındaki öksürük. Bunların hepsi mutlaka faydalı değildir, ancak modelin bunları hesaba katma seçeneği vardır.
Çıktı tarafı simetriktir. Ses yanıtı istediğinizde model, metni ayrı bir TTS motoruna devretmek yerine konuşmayı doğrudan iç temsilinden üretir. Ses, aşağı akıştaki TTS devrine göre daha doğal bir tempoya sahiptir çünkü model, prozodiyi üretim sürecinin bir parçası olarak kontrol eder.
Mimari notlar
GPT-4o, GPT-4'ün metni, görüntüyü ve sesi modaliteye özgü kodlayıcılar aracılığıyla paylaşımlı bir transformer çekirdeğine besleyerek doğal biçimde işleyen "omni" kuşağıdır. Ses kodlayıcısı, dalga formlarını metin tokenlarıyla aynı dikkat (attention) uzayını paylaşan sürekli gömme vektörlerine dönüştürür. Çözücü, isteğe bağlı olarak metin tokenları veya ses tokenları üretebilir.
OpenAI; bu önizleme için parametre sayılarını, eğitim derlem boyutunu veya ayrıntılı ses örnekleme özelliklerini yayımlamadı. API davranışından gözlemlenebilenler: model WAV ve MP3 girdilerini kabul eder, İngilizceyi ve geniş bir Avrupa ile Asya dilleri kümesini destekler ve önceden tanımlı küçük bir ses kümesinde çıktı üretir.
Önizleme etiketi dürüst. Belgeler geride kalıyor. Davranış, anlık görüntüler arasında değişiyor. Tarihli varyantlar (2024-12-17, 2025-06-03) tam da bu yüzden var: OpenAI; prozodi, gecikme ve reddetme tutumunu, "ses önizlemesine" sabitlenmiş dağıtımları bozabilecek biçimlerde etkileyen artımlı düzeltmeleri sürekli yayımlamaya devam ediyor.
Bugün nereye oturuyor
İki net kazanım.
Birincisi, modelin yalnızca kullanıcının ne söylediğine değil, nasıl söylediğine de gerçek anlamda tepki vermesi gereken sesli ajanlar. Stresli bir arayanın sakin bir arayandan farklı bir yanıt yoluna yönlendirilmesi gereken müşteri hizmetleri triyajı. Modelin sunumu hakkında yorum yapması gereken koçluk araçları. Kullanıcıyı yanlış duymanın, sözcükleri yanlış duymaktan daha önemli olduğu erişilebilirlik arayüzleri.
İkincisi, sentezlenen konuşmanın yalnızca sözcükleri değil, anlamı da taşıması gereken ses çıkışı. Bir sağlık uygulamasının ilaç talimatlarını uygun ciddiyetle okuması. Karakterleri belirgin biçimde seslendiren bir çocuk masalı anlatıcısı. Düz TTS'in yanlış hissettireceği her şey.
Model ayrıca karışık modlu görevleri de zarif biçimde ele alır: ses girişi, yapılandırılmış JSON çıkışı; metin girişi, ses çıkışı; ses girişi artı görüntü girişi, ses çıkışı. Bu kombinasyonlar üç kutulu bir işlem hattında hantaldır; burada doğaldır.
Nerede sınıfta kalıyor
Gerçek zamanlı çift yönlü konuşma. Bunun için gpt-4o-realtime-preview kullanın — canlı sıra değişimi için tasarlanmış akış kardeşidir. audio-preview uç noktası istek/yanıt biçimindedir; yani kullanıcı konuşmayı bitirir, model işler, model yanıtlar. Bu, telefon-görüşmesi tarzı bir etkileşim için yanlış bir şekildir.
Yüksek hacimli transkripsiyon. Transkripsiyona özel varyantlar (gpt-4o-transcribe, gpt-4o-mini-transcribe) bu tek görev için optimize edilmiştir ve dakika başına ses maliyeti daha düşüktür. Tek ihtiyacınız ses girişinden metin çıkışı almaksa, transkripsiyon uç noktaları kazanır.
Kararlı sözleşmeler. Bu bir önizleme. API şekli, ses seçenekleri ve ses spesifikasyonları anlık görüntüler arasında değişti. Uzun vadeli API kararlılığına ihtiyacınız varsa, tarihli bir anlık görüntüye sabitleyin ve sonunda taşınmanız gerekeceğini kabul edin.
Kendi-barındırılan veya hava-boşluklu dağıtım. Mevcut değil. Ses verileri ağınızdan çıkar ve OpenAI'ın altyapısına gider. Buna tolerans gösteremeyen düzenlemeye tabi ses iş yükleri için /usecases/local sayfasındaki inceleme doğru başlangıç noktasıdır.
Alternatiflere karşı tercih etmek
Şu durumlarda gpt-4o-audio-preview'a yönelin:
- Tek bir modelde gerçek anlamda çift yönlü ses işleme gerekiyor ve istek/yanıt zamanlaması kabul edilebilir.
- Ses çıkışı kalitesi, modelin yerel sentezinin aşağı akıştaki bir TTS adımını geçmesini gerektirecek kadar önemli.
- Uygulama, modelin akıl yürütmenin bir parçası olarak ton ve duyguyu okumasından fayda görüyor.
Şu durumlarda atlayın:
- Canlı akış sesine ihtiyacınız var — bunun yerine realtime preview'ı kullanın.
- Tek ihtiyacınız transkripsiyon — transkripsiyon uç noktalarını kullanın.
- Üretim kararlılığı, erken ses yeteneklerine erişimden daha önemli.
- Dağıtımın yerinde (on-premise) ya da OpenAI API'nin hizmet vermediği bir bölgede olması gerekiyor.
/usecases/voice sayfasındaki diğer ses yollarıyla ve /benchmarks/leaderboard sayfasındaki diğer sağlayıcıların aynı tarihli alternatifleriyle karşılaştırın.
Dağıtım notları
Standart OpenAI Chat Completions API. Ses, base64 olarak kodlanmış içerik biçiminde satır içi olarak veya bir URL olarak iletilir. Çıktı modalitesi modalities parametresi aracılığıyla istenir (["text", "audio"] ya da yalnızca ["audio"]). Ses seçimi, küçük sabit bir seçenek kümesine sahip voice parametresi aracılığıyla yapılır.
Token faturalandırması ayrıdır: ses giriş tokenları, ses çıkış tokenları ve metin tokenları ayrı ayrı ölçülür. Maliyet davranışı yalnızca-metin kullanımına eşdeğer değildir — ses tokenları, bilgi birimi başına metin tokenlarından daha fazla faturalandırma birimi tüketir. Kapasiteyi buna göre planlayın.
Loglar standart OpenAI saklama kurallarını izler. Sıfır-saklama bir kurumsal sözleşme gerektirir.
Pragmatik okuma. Bu önizleme; uçtan uca ses sadakati esas olduğunda doğru model, transkripsiyon, gerçek zamanlı akış veya üretim kararlılığı esas olduğunda yanlış modeldir. Bağlanmadan önce gerçek prompt'larınızla /live-test üzerinde çalıştırın.
Son teknik inceleme: 2026-05-22 — Tokonomix.ai

