İçeriğe geç
Çalıştığı yer:USYapıldığı yer:United States
OpenAI

gpt-4o-audio-preview-2025-06-03

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

GPT-4o-audio-preview-2025-06-03, OpenAI tarafından geliştirilen çok modlu bir dil modelidir ve GPT-4 ailesinin gelişmiş ses işleme yetenekleriyle donatılmış bir evrimini temsil eder. Bu model, standart metin üretiminin ötesine geçerek yerel ses girişi ve çıkışını destekler; konuşma dilini, çevresel sesleri işleyebilir ve doğal konuşma yanıtları üretebilir. "Preview" ibaresi, bunun kararlı bir sürüm öncesinde test ve değerlendirme amaçlı bir geliştirme sürümü olduğunu, tarih eki ise OpenAI'nin yayın hattındaki anlık konumunu gösterir. Model; sesli asistanlar, gerçek zamanlı konuşma sistemleri, bağlam anlayışı içeren ses transkripsiyonu ve erişilebilirlik araçları gibi metin ve ses modalitelerinin sorunsuz entegrasyonunu gerektiren uygulamalar için tasarlanmıştır. Mimarisi, GPT-4 temelini esas alırken ses kodlama ve çözme için özel bileşenler içerir; bu sayede hem yazılı hem sözlü etkileşimlerde konuşma bağlamını koruyabilir. Model, standart metin üretim görevlerini desteklerken vokal nüansları, ton ve konuşma dışı ses öğelerini anlama yeteneği ekler. OpenAI'nin model yelpazesinde bu varyant, ses işlevselliğine odaklanan özel bir önizleme sürümü olarak diğer GPT-4o yinelemelerinin yanında yer alır. OpenAI'nin omni-modal modeller —birden fazla giriş türünü ayrı ön işleme adımları yerine yerel olarak işleyebilen sistemler— üzerindeki sürdürülen geliştirme çabasını temsil eder. Önizleme durumu, OpenAI'nin kullanım geri bildirimleri ve ek eğitime dayanarak modeli iyileştirmesiyle yeteneklerin ve performans özelliklerinin değişebileceği anlamına gelir.

OpenAI'nin kapsamlı eğitim verisi bu modelin geniş alan bilgisini destekliyor.

Tokonomix benchmark özeti
Bölüm 01

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — gpt-4o-audio-preview-2025-06-03
$2.50 1M giriş token başına
$10.00 1M çıkış token başına
≈ $0.0035 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$2.50
1M çıkış token başına$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Bölüm 02

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Metin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarıDoğal dil anlama kapasitesiVeri analizi ve raporlamaİçerik oluşturma ve düzenleme

Zayıf yönler

Yalnızca ses ve metin odaklı kapsamÖnizleme: özellikler değişebilirİnternet erişimi bulunmuyor
Bölüm 03

Sık sorulan sorular

Metin üretimi, içerik oluşturma, soru-cevap ve özetleme görevlerini destekleyen geniş bir uygulama yelpazesi sunuyor.

OpenAI güvenlik katmanları ve içerik filtreleri modeli kurumsal ortamlara uygun kılıyor.

Tokonomix benchmark özeti
Bölüm 04

Kullanılabilirlik

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 05

Tokonomix kıyaslama kararları

2026-05-24

İlk kıyaslama, temel yetenekler genelinde referans performansı belirliyor

Bu ilk değerlendirme, GPT-4o Audio Preview için temel performans ölçütlerini belirlemektedir. Model, matematiksel akıl yürütmede güçlü yetenekler sergileyerek MATH-500'de %83,6 ve GSM8K'da %90,8 elde etmiştir; bu da hem zorlu yarışma seviyesindeki problemlerde hem de ilkokul matematiğinde sağlam bir performansa işaret etmektedir. Kodlama yeteneklerinde HumanEval'de %80,8 ve MBPP'de %85,4 ile yetkinlik göstererek yaygın programlama görevlerinde güvenilir kod üretimi sunmaktadır. Çok dilli performans MMMLU'da %75,9 ile sağlam görünürken, genel bilgi yetkinlikleri MMLU'da %88,7'ye ulaşmaktadır. Model, çok kipli görevleri MMMU'da %66,9 ile ele almakta ve özellikle zorlu bir bilimsel akıl yürütme değerlendirmesi olan GPQA Diamond'da %52,3'e ulaşmaktadır. Talimat takibi IFEval'de %73,0, yaratıcı yazım ise CreativeWriting'de %71,0 puan almaktadır. Bu ilk değerlendirme dönemi olduğundan, söz konusu metrikler gelecekteki performans değişikliklerinin takibinde referans noktası işlevi görmektedir. Kullanıcılar; matematik, kodlama, bilgi erişimi ve yaratıcı uygulamalar dahil çeşitli görevlerde yetkin bir performans bekleyebilir; matematiksel akıl yürütme ve genel bilgi alanlarında özellikle güçlü yönler öne çıkmaktadır.

Quality

Latency p50

Test runs

0

Güçlü matematik akıl yürütme temel referansı Sağlam kodlama performansı oluşturuldu Sağlam çok dilli yetenekler İlk kıyaslama temel referansı belirlendi
Bölüm 06

Tam model profili

gpt-4o-audio-preview-2025-06-03 — illustration 1
gpt-4o-audio-preview-2025-06-03: 2025 ortası ses yenilemesi

gpt-4o-audio-preview-2025-06-03, OpenAI'nin ses-multimodal önizlemesinin Haziran 2025 anlık görüntüsüdür. Aralık 2024 dondurmasından altı ay sonra, ses yolu olgunlaşmıştı — daha sakin bir prosodi, daha iyi sessizlik işleme ve yalnızca anlık görüntüleri yan yana karşılaştırdığınızda ortaya çıkan türden küçük iyileştirmeler.

Bu hâlâ önizleme etiketli. Bu etiket bir sözleşmedir: API biçimi değişebilir, davranış değişebilir ve hat bir bütün olarak hâlâ kararlı bir sürüme doğru yolda. Tarihli etiket ise, OpenAI çalışmaya devam ederken bu tam davranışı yerinde tutmak için sabitlediğiniz şeydir.

Aralık anlık görüntüsünden bu yana neler değişti

OpenAI ayrıntılı bir ses-pist değişiklik günlüğü yayımlamıyor, ancak aynı betiklenmiş istemlere karşı yan yana çalıştırmalardan davranışsal fark gözlemlenebilir. Haziran 2025 anlık görüntüsü şunlarla geliyor:

  • Daha sıkı sessizlik-sonu algılaması. Model artık kullanıcı cümle ortasında duraksadığında onun sözünü o kadar hevesle kesmiyor.
  • Çok cümleli ses çıkışında daha akıcı prosodi geçişleri. Aralık anlık görüntüsü zaman zaman cümleler arasında düz devirler üretiyordu; bu anlık görüntü ise paragraf sonları arasında tonlamayı taşıyor.
  • Sentezlenen sesin uzun bir üretim boyunca yavaş yavaş tını değiştirdiği uzun ses çıkışlarında azalmış "ses kayması".
  • Daha sohbete dayalı okunan, daha az şablonlaşmış reddetme dili.

Belirgin bir şekilde değişmeyenler: giriş dili kapsamı, küçük sabit çıkış sesleri kümesi, temel API yüzeyi ve token başına faturalama yapısı.

Yükseltmenin ne zaman yapmaya değer olduğu

Dürüst cevap "değerlendirmeniz öyle söylediğinde" şeklindedir. Ses modeli yükseltmeleri, değişiklik günlüğüne dayalı inanç sıçramaları yapmak için yanlış bir yerdir. Eyleme dönük biçim:

  • Değerlendirme yaparken Aralık anlık görüntüsünü üretimde tutun.
  • Aynı istemler üzerinde 2025-06-03'e karşı tam ses senaryosu paketini çalıştırın.
  • Eski anlık görüntünün başardığı uç durumlarda gerilemelere dikkat edin — iyileşen ortalamalar bile kötüleşen belirli senaryoları maskeleyebilir.
  • Yeni anlık görüntü, OpenAI'nin sürüm notlarında vurguladığı metriklerde değil, ürününüz için önemli olan metriklerde kazandığında geçiş yapın.

Prosodiye yaslanan sesli ürünler için — koçluk araçları, erişilebilirlik anlatıcıları, modelin sadece konuşmak yerine performans sergilediği her şey — Haziran 2025 anlık görüntüsü genel olarak daha iyi bir varsayılandır.

Bu anlık görüntü bugün nerede duruyor

2026'nın ortasında, bu anlık görüntü, ekiplerin daha fazla niteleme olmaksızın "GPT-4o ses modeli" dediğinde alıntıladıkları en güncel dondurma. Aynı zamanda, davranışsal tuhaflıkların topluluk forumlarında iyi belgelenmesi için yeterince uzun süredir üretimde olan anlık görüntüdür.

2026'da başlayan yeni sesli projeler için seçim, bu anlık görüntü, OpenAI'nin o zamandan beri sevk ettiği daha yeni herhangi bir şey ve ses hattının nihai kararlı sürümü arasındadır. Burada sabitleme gerekçesi, herhangi bir tarihli anlık görüntüyü sabitleme gerekçesiyle aynıdır: iyileştirmelere erişimi davranışsal kararlılıkla takas edersiniz.

Nerede yetersiz kalıyor

Ses-önizleme hattının geri kalanından miras alınan kısıtlamalar hâlâ geçerlidir.

Bir akış uç noktası değil. Realtime önizlemesi, canlı çift yönlü konuşma için doğru seçimdir; bu istek/yanıt'tır.

Bir transkripsiyon uzmanı değil. Ses-girdiden metin-çıktıya görev tümüyle buysa, özel transcribe uç noktaları dakika başına daha az maliyetlidir.

OpenAI API dışında dağıtılabilir değil. Şirket içi seçeneği yok, hava boşluğu yolu yok. /usecases/local anketi, bu kısıtlamalar bağladığında neyin mevcut olduğunu kapsar.

Bu anlık görüntüyü ne zaman sabitlemeli

gpt-4o-audio-preview-2025-06-03'ü şu durumlarda sabitleyin:

  • Ses hattını 2025'in ortası ile sonu arasında değerlendirdiniz ve geçen anlık görüntü budur.
  • Prosodi kalitesi, Aralık anlık görüntüsüne göre iyileştirmelerin geçiş maliyetini haklı kılacak kadar önemlidir.
  • Ses hattının önizleme statüsünden çıkmasını beklerken kararlı bir davranışsal hedefe ihtiyacınız var.

Şu durumlarda atlayın:

  • Daha yeni bir anlık görüntü mevcut ve değerlendirmenizi kazandı.
  • Nihai kararlı ses modeli önizlemeden çıkarılıp tanıtıldı.
  • Yalnızca transkripsiyona ya da yalnızca gerçek zamanlı akışa ihtiyacınız var — özelleşmiş uç noktalar daha iyi uyum sağlar.

Dağıtım notları

GPT-4o ailesinin geri kalanıyla aynı Chat Completions API'si. Model adı, geçiş birimidir. Ses giriş formatı, çıkış kipinin seçimi ve ses parametreleri Aralık anlık görüntüsünden değişmemiştir.

Token faturalandırması; ses giriş, ses çıkış ve metni ayırır. Ses tokenleri, metin tokenlerine kıyasla bilgi birimi başına anlamlı şekilde daha yüksek maliyet taşır. Sesli ürünler için kapasite planlaması "değişilen mesajlar"dan çok "işlenen ses dakikası"na daha yakındır.

Pragmatik okuma. Bu, Aralık anlık görüntüsünün daha iyi davranan kardeşidir. Sesli ürününüz buna karşı doğrulandıysa sabitleyin, değerlendirmeniz prosodi kazançlarının almaya değer olduğunu gösterdiğinde Aralık sabitlemesinden buna geçin ve OpenAI'nin bir sonraki olarak kararlıya yükselttiği şey için değişiklik günlüğünü izleyin. Karar vermeden önce /live-test adresinde yan yana bir karşılaştırma çalıştırın.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

gpt-4o-audio-preview-2025-06-03 — illustration 2gpt-4o-audio-preview-2025-06-03 — illustration 3
Son otomatik test
24 May 2026 · 04:46 UTC · Test
P50 gecikme
P95 gecikme
Hatalar
1 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·26 Mayıs 2026