İçeriğe geç
Çalıştığı yer:USYapıldığı yer:United States
OpenAI

gpt-4o-audio-preview

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

GPT-4o-audio-preview, OpenAI tarafından geliştirilen ve GPT-4o serisinin yeteneklerini yerel ses işleme özelliğini içerecek şekilde genişleten çok modlu bir dil modelidir. Bu model, doğrudan ses girişi ve çıkışına olanak tanıyan deneysel bir sürümü temsil eder; geleneksel metin üretiminin yanı sıra daha doğal sesli etkileşimleri mümkün kılar. GPT-4o'nun metin ve görüntü yeteneklerinin temelini koruyarak gerçek zamanlı ses anlama ve sentezleme ekler. Model; konuşmaya dayalı yapay zeka asistanları, erişilebilirlik araçları ve etkileşimli sesli yanıt sistemleri dahil olmak üzere sesli etkileşim gerektiren uygulamalar için tasarlanmıştır. Konuşulan dili ayrı bir konuşmadan metne dönüştürme aşamasına ihtiyaç duymadan doğrudan işleyebilir; bu sayede gecikmeyi azaltırken ton ve vurgu gibi akustik bilgileri de koruyabilir. Audio preview ifadesi, bunun tam üretim dağıtımı yerine geliştirici denemeleri ve geri bildirimleri için tasarlanmış erken erişim sürümü olduğunu belirtir. OpenAI'nin model yelpazesinde GPT-4o-audio-preview, ses modalitelerine odaklanan özelleşmiş bir uygulama olarak diğer GPT-4o varyantlarıyla yan yana yer alır. GPT-4o ailesinden beklenen temel metin üretme yeteneklerini korurken ayırt edici özelliği entegre ses işleme hattıdır. "Preview" statüsü, özellik ve performans karakteristiklerinin kullanım biçimleri ve kullanıcı geri bildirimlerine göre değişebileceğini gösterir. GPT-4o serisindeki diğer modellerde olduğu gibi, yetenek ile pratik dağıtım gereksinimleri arasında denge kurmak üzere tasarlanmıştır; ancak kesin bağlam penceresi boyutu gibi belirli teknik parametreler OpenAI tarafından kamuya açıklanmamıştır.

OpenAI'nin kapsamlı eğitim verisi bu modelin geniş alan bilgisini destekliyor.

Tokonomix benchmark özeti
Bölüm 01

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — gpt-4o-audio-preview
$2.50 1M giriş token başına
$10.00 1M çıkış token başına
≈ $0.0035 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$2.50
1M çıkış token başına$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Bölüm 02

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Metin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarıDoğal dil anlama kapasitesiVeri analizi ve raporlamaİçerik oluşturma ve düzenleme

Zayıf yönler

Yalnızca ses ve metin odaklı kapsamÖnizleme: özellikler değişebilirİnternet erişimi bulunmuyor
Bölüm 03

Sık sorulan sorular

Metin üretimi, içerik oluşturma, soru-cevap ve özetleme görevlerini destekleyen geniş bir uygulama yelpazesi sunuyor.

OpenAI güvenlik katmanları ve içerik filtreleri modeli kurumsal ortamlara uygun kılıyor.

Tokonomix benchmark özeti
Bölüm 04

Kullanılabilirlik

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 05

Tokonomix kıyaslama kararları

2026-05-24

gpt-4o-audio-preview, güçlü çok modlu performansıyla referans noktasını belirliyor

OpenAI'ın gpt-4o-audio-preview modeli, metin ve kodlama görevlerinde sağlam bir performansla kıyaslama sahnesine giriyor. MMLU'da %86,6 puan alarak güçlü genel bilgi yetkinliği sergiliyor; GPQA Diamond'da ise %88,5 puanla lisansüstü düzey bilim sorularında ileri düzey akıl yürütme gösteriyor. Model, matematikte özellikle güçlü bir performans sunuyor: MATH-500'de %74,6 ve GSM8K'da %90,7 puan alarak nicel problem çözme görevlerinde rekabetçi bir konumda yer alıyor. Kodlamada HumanEval'de %78,4 ve MultiPL-E'de %88,0 puanla yetkin yazılım mühendisliği becerileri ortaya koyuyor. MGSM çok dilli kıyaslamada %85,6 ile orta düzey bir performans gösteriyor; bu, İngilizce dışındaki matematiksel akıl yürütmede iyileştirme alanı olduğuna işaret ediyor. Görsel yetkinlikler MMMU'da %69,1 puanla güçlü olup etkili çok modlu anlayışa işaret ediyor. Model, çeşitli değerlendirme kriterleri genelinde kapsamlı bir referans çizgisi belirliyor; özellikle matematik ve kodlama görevlerinde öne çıkıyor. Kullanıcılar teknik ve analitik iş yüklerinde güvenilir bir performans bekleyebilir; ancak modelin sese özgü yetkinlikleri, bu standart kıyaslamaların ötesinde uzmanlaşmış bir değerlendirme gerektiriyor.

Quality

Latency p50

Test runs

0

Güçlü GPQA Diamond muhakemesi Sağlam matematik ve kodlama puanları Etkili çok modlu görsel performans Orta düzey çok dilli matematik yetenekleri
Bölüm 06

Tam model profili

gpt-4o-audio-preview — illustration 1
gpt-4o-audio-preview: ses girişi ve ses çıkışıyla GPT-4o

gpt-4o-audio-preview, OpenAI'ın GPT-4o ailesinin önizleme anlık görüntüsüdür; ses girişi alır ve her zamanki metnin yanı sıra ses çıkışı da döndürebilir. Whisper-sonra-GPT zinciri yok. Tek model, tek ileri geçiş, her iki uçta da ses.

Bu, realtime uç noktası değildir. Bu, istek/yanıt biçimindeki varyanttır. Tam bir ses klibi ve bir prompt gönderirsiniz; karşılığında metin, ses ya da her ikisini alırsınız. Realtime API'nin akış karmaşıklığına girmeden tek modelden gelen ses kalitesini istediğinizde işe yarar.

Ses-yerel yolun size gerçekten ne kazandırdığı

Geleneksel ses yığını üç kutudan oluşur: önce konuşmadan metne (speech-to-text), sonra bir LLM, ardından metinden konuşmaya (text-to-speech). Her kutunun bir gecikmesi var, her kutu bilgi düşürüyor ve prozodi Whisper ile TTS motoru arasında bir yerde ölüyor. gpt-4o-audio-preview tüm bunları, dalga formunu doğrudan gören tek bir modele indirgiyor.

Uçtan uca hayatta kalanlar:

  • Ton ve vurgu. Model, sinirli, aceleci ya da iğneleyici bir tonda konuştuğunuzu duyar. Bir transkripsiyon işlem hattı, dil modeli bu konuda akıl yürütmeye başlamadan önce bunu ayıklayıp atıyor.
  • Konuşmacı kekemelikleri. Duraklamalar, yeniden başlangıçlar, dolgu sözcükleri — model bunları sistem prompt'una bağlı olarak yansıtmayı, düzeltmeyi veya bunlar hakkında yorum yapmayı seçebilir.
  • Arka plan bağlamı. Müzik, ortam gürültüsü, cümlenin ortasındaki öksürük. Bunların hepsi mutlaka faydalı değildir, ancak modelin bunları hesaba katma seçeneği vardır.

Çıktı tarafı simetriktir. Ses yanıtı istediğinizde model, metni ayrı bir TTS motoruna devretmek yerine konuşmayı doğrudan iç temsilinden üretir. Ses, aşağı akıştaki TTS devrine göre daha doğal bir tempoya sahiptir çünkü model, prozodiyi üretim sürecinin bir parçası olarak kontrol eder.

Mimari notlar

GPT-4o, GPT-4'ün metni, görüntüyü ve sesi modaliteye özgü kodlayıcılar aracılığıyla paylaşımlı bir transformer çekirdeğine besleyerek doğal biçimde işleyen "omni" kuşağıdır. Ses kodlayıcısı, dalga formlarını metin tokenlarıyla aynı dikkat (attention) uzayını paylaşan sürekli gömme vektörlerine dönüştürür. Çözücü, isteğe bağlı olarak metin tokenları veya ses tokenları üretebilir.

OpenAI; bu önizleme için parametre sayılarını, eğitim derlem boyutunu veya ayrıntılı ses örnekleme özelliklerini yayımlamadı. API davranışından gözlemlenebilenler: model WAV ve MP3 girdilerini kabul eder, İngilizceyi ve geniş bir Avrupa ile Asya dilleri kümesini destekler ve önceden tanımlı küçük bir ses kümesinde çıktı üretir.

Önizleme etiketi dürüst. Belgeler geride kalıyor. Davranış, anlık görüntüler arasında değişiyor. Tarihli varyantlar (2024-12-17, 2025-06-03) tam da bu yüzden var: OpenAI; prozodi, gecikme ve reddetme tutumunu, "ses önizlemesine" sabitlenmiş dağıtımları bozabilecek biçimlerde etkileyen artımlı düzeltmeleri sürekli yayımlamaya devam ediyor.

Bugün nereye oturuyor

İki net kazanım.

Birincisi, modelin yalnızca kullanıcının ne söylediğine değil, nasıl söylediğine de gerçek anlamda tepki vermesi gereken sesli ajanlar. Stresli bir arayanın sakin bir arayandan farklı bir yanıt yoluna yönlendirilmesi gereken müşteri hizmetleri triyajı. Modelin sunumu hakkında yorum yapması gereken koçluk araçları. Kullanıcıyı yanlış duymanın, sözcükleri yanlış duymaktan daha önemli olduğu erişilebilirlik arayüzleri.

İkincisi, sentezlenen konuşmanın yalnızca sözcükleri değil, anlamı da taşıması gereken ses çıkışı. Bir sağlık uygulamasının ilaç talimatlarını uygun ciddiyetle okuması. Karakterleri belirgin biçimde seslendiren bir çocuk masalı anlatıcısı. Düz TTS'in yanlış hissettireceği her şey.

Model ayrıca karışık modlu görevleri de zarif biçimde ele alır: ses girişi, yapılandırılmış JSON çıkışı; metin girişi, ses çıkışı; ses girişi artı görüntü girişi, ses çıkışı. Bu kombinasyonlar üç kutulu bir işlem hattında hantaldır; burada doğaldır.

Nerede sınıfta kalıyor

Gerçek zamanlı çift yönlü konuşma. Bunun için gpt-4o-realtime-preview kullanın — canlı sıra değişimi için tasarlanmış akış kardeşidir. audio-preview uç noktası istek/yanıt biçimindedir; yani kullanıcı konuşmayı bitirir, model işler, model yanıtlar. Bu, telefon-görüşmesi tarzı bir etkileşim için yanlış bir şekildir.

Yüksek hacimli transkripsiyon. Transkripsiyona özel varyantlar (gpt-4o-transcribe, gpt-4o-mini-transcribe) bu tek görev için optimize edilmiştir ve dakika başına ses maliyeti daha düşüktür. Tek ihtiyacınız ses girişinden metin çıkışı almaksa, transkripsiyon uç noktaları kazanır.

Kararlı sözleşmeler. Bu bir önizleme. API şekli, ses seçenekleri ve ses spesifikasyonları anlık görüntüler arasında değişti. Uzun vadeli API kararlılığına ihtiyacınız varsa, tarihli bir anlık görüntüye sabitleyin ve sonunda taşınmanız gerekeceğini kabul edin.

Kendi-barındırılan veya hava-boşluklu dağıtım. Mevcut değil. Ses verileri ağınızdan çıkar ve OpenAI'ın altyapısına gider. Buna tolerans gösteremeyen düzenlemeye tabi ses iş yükleri için /usecases/local sayfasındaki inceleme doğru başlangıç noktasıdır.

Alternatiflere karşı tercih etmek

Şu durumlarda gpt-4o-audio-preview'a yönelin:

  • Tek bir modelde gerçek anlamda çift yönlü ses işleme gerekiyor ve istek/yanıt zamanlaması kabul edilebilir.
  • Ses çıkışı kalitesi, modelin yerel sentezinin aşağı akıştaki bir TTS adımını geçmesini gerektirecek kadar önemli.
  • Uygulama, modelin akıl yürütmenin bir parçası olarak ton ve duyguyu okumasından fayda görüyor.

Şu durumlarda atlayın:

  • Canlı akış sesine ihtiyacınız var — bunun yerine realtime preview'ı kullanın.
  • Tek ihtiyacınız transkripsiyon — transkripsiyon uç noktalarını kullanın.
  • Üretim kararlılığı, erken ses yeteneklerine erişimden daha önemli.
  • Dağıtımın yerinde (on-premise) ya da OpenAI API'nin hizmet vermediği bir bölgede olması gerekiyor.

/usecases/voice sayfasındaki diğer ses yollarıyla ve /benchmarks/leaderboard sayfasındaki diğer sağlayıcıların aynı tarihli alternatifleriyle karşılaştırın.

Dağıtım notları

Standart OpenAI Chat Completions API. Ses, base64 olarak kodlanmış içerik biçiminde satır içi olarak veya bir URL olarak iletilir. Çıktı modalitesi modalities parametresi aracılığıyla istenir (["text", "audio"] ya da yalnızca ["audio"]). Ses seçimi, küçük sabit bir seçenek kümesine sahip voice parametresi aracılığıyla yapılır.

Token faturalandırması ayrıdır: ses giriş tokenları, ses çıkış tokenları ve metin tokenları ayrı ayrı ölçülür. Maliyet davranışı yalnızca-metin kullanımına eşdeğer değildir — ses tokenları, bilgi birimi başına metin tokenlarından daha fazla faturalandırma birimi tüketir. Kapasiteyi buna göre planlayın.

Loglar standart OpenAI saklama kurallarını izler. Sıfır-saklama bir kurumsal sözleşme gerektirir.

Pragmatik okuma. Bu önizleme; uçtan uca ses sadakati esas olduğunda doğru model, transkripsiyon, gerçek zamanlı akış veya üretim kararlılığı esas olduğunda yanlış modeldir. Bağlanmadan önce gerçek prompt'larınızla /live-test üzerinde çalıştırın.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

gpt-4o-audio-preview — illustration 2gpt-4o-audio-preview — illustration 3
Son otomatik test
24 May 2026 · 04:40 UTC · Test
P50 gecikme
P95 gecikme
Hatalar
1 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·26 Mayıs 2026