İçeriğe geç
Seviye C — Uzman
Çalıştığı yer:USYapıldığı yer:United States
OpenAI

gpt-4o-transcribe-diarize

Seviye C — Uzman

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan··

GPT-4O-Transcribe-Diarize, OpenAI'nin GPT-4O model mimarisinin özel bir varyantı olup, konuşmacı ayrıştırma (diarization) yetenekleriyle birlikte ses transkripsiyon görevleri için optimize edilmiştir. Bu model, ses girdilerini işleyerek doğru metin transkripsiyonları üretirken, konuşma boyunca farklı konuşmacıları tanımlar ve etiketler. OpenAI'nin çok modlu temel model teknolojisi üzerine inşa edilen model, standart metin üretme yeteneklerini karmaşık ses analizi iş akışlarını ele alacak şekilde genişletir. Model, toplantı transkripsiyonu, görüşme analizi, podcast işleme ve çok taraflı konuşma belgelemesi gibi hem konuşmadan metne dönüştürme hem de konuşmacı ayrımı gerektiren uygulamalar için tasarlanmıştır. Diarization işlevi, bir ses akışındaki farklı konuşmacıları ses özelliklerine göre ayırt ederek transkripsiyon metnindeki bölümlere etiketler veya tanımlayıcılar atar. Bu sayede kullanıcılar, ayrıştırılmamış tek bir transkript yerine bir kayıt sırasında kimin ne söylediğini gösteren yapılandırılmış çıktılar alabilir. OpenAI'nin model serisi içinde GPT-4O-Transcribe-Diarize, genel amaçlı bir sohbet modeli değil, göreve özgü bir uygulamayı temsil eder. Transkripsiyon çıktılarını biçimlendirmek ve yapılandırmak için standart metin üretme yeteneklerini korusa da birincil işlevi, açık uçlu diyalog veya akıl yürütme görevleri yerine ses işlemedir. Modelin bağlam penceresi özellikleri kamuoyuyla paylaşılmamış olsa da hedeflenen kullanım senaryoları göz önüne alındığında önemli ölçüde uzun ses süresini işleyebileceği öngörülmektedir. Bu model, OpenAI'nin daha geniş dil ve çok modlu model yelpazesini tamamlayarak konuşmacı tanımlamayla birlikte güvenilir otomatik transkripsiyona ihtiyaç duyan kuruluşlara ve geliştiricilere hizmet eder.

OpenAI'nin kapsamlı eğitim verisi bu modelin geniş alan bilgisini destekliyor.

Tokonomix benchmark özeti
Bölüm 01

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰
API tarifeleri — gpt-4o-transcribe-diarize
$2.50 1M giriş token başına
$10.00 1M çıkış token başına
≈ $0.0035 tipik konuşma başına (800 token)
Giriş vs çıkış fiyatı (1M token başına)
1M giriş token başına$2.50
1M çıkış token başına$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— no change

$10.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Bölüm 02

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Ses transkripsiyon desteğiKonuşmacı tanımlamaMetin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarıDoğal dil anlama kapasitesi

Zayıf yönler

Yalnızca ses ve metin odaklı kapsamİnternet erişimi bulunmuyorGörsel işleme desteği yok
Bölüm 03

Yetenekler

source: litellmmax output tokens: 2000
Bölüm 04

Sık sorulan sorular

Diarizasyon özelliği kayıttaki farklı sesleri etiketliyor; desteklenen konuşmacı sayısı API belgelerinde belirtiliyor.

OpenAI güvenlik katmanları ve içerik filtreleri modeli kurumsal ortamlara uygun kılıyor.

Tokonomix benchmark özeti
Bölüm 05

Kullanılabilirlik

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 06

Tokonomix kıyaslama kararları

2026-05-24

Diarizasyon özellikli transkripsiyon modeli için temel referans oluşturuldu

Bu karar, OpenAI'nin konuşmacı ayrıştırma destekli özel transkripsiyon modeli gpt-4o-transcribe-diarize için temel performans referansını oluşturur. İlk değerlendirme olduğundan, eğilim veya değişiklikleri değerlendirmek için henüz karşılaştırmalı veri bulunmamaktadır. Model, ses akışındaki farklı konuşmacıların tanımlanması ve ayrıştırılmasını gerektiren ses transkripsiyon görevleri için tasarlanmıştır. Gelecekteki kararlar; transkripsiyon doğruluğu, diarizasyon hassasiyeti, işlem hızı ve örtüşen konuşma, arka plan gürültüsü ve çoklu konuşmacılar gibi çeşitli ses koşullarının ele alınması dahil olmak üzere performans metriklerini takip edecektir. Kullanıcılar bunun bir başlangıç kıyaslama penceresi olduğunu ve modelin gerçek dünyadaki performans özelliklerinin, farklı kullanım senaryoları ve ses koşulları genelinde daha fazla veri biriktikçe netleşeceğini göz önünde bulundurmalıdır. Sonraki değerlendirmeler; tutarlılık, performans dalgalanmaları ve modelin konuşmadan metne dönüştürme ile konuşmacı ayrıştırma görevlerindeki gelişen standartlarla nasıl karşılaştırıldığına dair içgörüler sunacaktır. Bu modeli üretim iş akışları için değerlendiren kuruluşlar, kararlılık örüntüleri ve performans eğilimleri açısından önümüzdeki kararları takip etmelidir.

Quality

Latency p50

Test runs

0

İlk temel referans oluşturuldu
Bölüm 07

Tam model profili

gpt-4o-transcribe-diarize — illustration 1
gpt-4o-transcribe-diarize: konuşmacı etiketli, tam katman transkripsiyon

gpt-4o-transcribe-diarize, OpenAI'ın tam katman transkripsiyon modelinin konuşmacı ayrıştırma (diarization) varyantıdır. Ses girer, metin çıkar — her segmente konuşmacı etiketi iliştirilmiş olarak. Temel gpt-4o-transcribe uç noktası, konuşmacı atfı içermeyen yazıya geçirilmiş metni döndürür; bu varyant ise konuşma analizi hatlarının ihtiyaç duyduğu "hangi sözü kim söyledi" katmanını ekler.

Konuşmacı kimliğinin alt akış görevinin bir parçası olduğu çok konuşmacılı seslerde, temel transkripsiyonun üzerine ayrı bir diarization modeli yığmak yerine doğrudan diarize uç noktasını tercih etmek doğru olur.

Diarization neyi ekliyor

Standart transkripsiyon çıktısı, zaman damgalarıyla birlikte bir metin segmentleri dizisidir. Altyazılama, indeksleme ve temel arama için yararlıdır. Ancak kimin neyi söylediği üzerine akıl yürütmesi gereken herhangi bir görev için yetersizdir.

Diarize varyantı, aynı yazıya geçirilmiş metni artı segment başına bir konuşmacı etiketi döndürür. Etiketler anonim tanımlayıcılardır (Konuşmacı 1, Konuşmacı 2, vb.) — model konuşmacıların kim olduğunu bilmez, yalnızca ayırt edilebilir sesler olduğunu ve hangi segmentlerin her birine ait olduğunu bilir. Konuşmacı sayıları sesten otomatik olarak tespit edilir.

Bu, alt akış hatlarında neyi mümkün kılar:

  • Belirli ifadeleri belirli katılımcılara atfeden konuşma analizi.
  • Müşteri temsilcisi ve arayanın ifadelerinin ayrı ayrı analiz edilmesi gereken müşteri hizmetleri kalite izleme.
  • Düz bir liste yerine konuşmacı başına eylem maddeleri üreten toplantı özetleme.
  • Okuyucu deneyiminin kimin konuştuğunu bilmeye bağlı olduğu çok konuşmacılı podcast ve yayın transkriptleri.
  • Atfın denetim gereksiniminin bir parçası olduğu uyumluluk kayıtları.

Entegre yaklaşım nerede kazanıyor

Diarize edilmiş transkripsiyon için geleneksel yığın iki aşamalıdır: bir transkripsiyon modeli metin ve zaman damgaları üretir, ayrı bir diarization modeli konuşmacı sınırlarını üretir ve bir son işleme adımı bunları hizalar.

Bu çalışır ama zayıflıkları vardır. Transkripsiyon ve diarization modelleri ses bağlamını paylaşmaz. Transkripsiyon modeli bir kelime hakkında belirsizlik yaşadığında, belirsizliği gidermek için konuşmacı değişikliği bilgisini kullanamaz. Diarization modeli bir konuşmacı sınırı hakkında belirsizlik yaşadığında, iyileştirmek için yazıya geçirilmiş içeriği kullanamaz.

Entegre diarize varyantı her iki sinyale de tek bir modelde sahiptir. Konuşmacı değişiklikleri transkripsiyon kararlarını bilgilendirir ve yazıya geçirilmiş içerik konuşmacı sınırı kararlarını bilgilendirir. Örtüşen konuşma ve hızlı konuşmacı geçişleri için entegre yaklaşım, iki aşamalı hattın gözden kaçırdığı uç durumları ele alır.

Mimari notlar

Temel transcribe modeli ile aynı temel GPT-4o "omni" mimarisi. Diarize varyantı, hem metin token'larını hem de konuşmacı etiketi token'larını tek bir çıktı akışında yayan genişletilmiş bir kod çözücüye sahiptir.

OpenAI varyant başına parametre ayrıntılarını yayımlamadı. Gözlemlenebilir davranış:

  • Makul bir konuşma sınırına kadar olan konuşmacı sayıları iyi şekilde ele alınır — iki taraflı çağrılar, küçük toplantı kayıtları, çok sunuculu podcast'ler.
  • Konuşmacı etiketleri tek bir ses dosyası içinde tutarlıdır ama dosyalar arasında değildir. İki ayrı kayıttaki aynı konuşmacı bağımsız etiketler alır.
  • Model, kayıtlar arası ses parmak izi tanımlama veya konuşmacı tanıma girişiminde bulunmaz. Bu, farklı gizlilik ve doğruluk hususlarına sahip farklı bir görevdir.
  • Çapraz konuşma ve örtüşen konuşma iki aşamalı hatlardan daha iyi ele alınır, ancak yoğun örtüşme yine de doğruluğu düşürür.

Nerede tökezliyor

Kayıtlar arası konuşmacı tanımlama. Diarize etiketleri dosya başınadır. Kayıtlar arası konuşmacı eşleştirme için üstüne bir ses parmak izi modeli katmanlamanız gerekir.

Yoğun kalabalık sesleri. Birçok konuşmacının, hızlı söz değişiminin ve önemli arka plan gürültüsünün bulunduğu konferans kayıtları modeli zorlar. Konuşma açısından tatlı nokta, kabaca orta düzey ses kalitesinde 2-6 farklı konuşmacıdır.

Gecikme açısından kritik iş yükleri. Diarize işleme, temel transkripsiyondan dakika başına daha yavaştır. Gerçek zamanlı veya gerçek zamana yakın altyazılama için gecikme maliyeti kabul edilebilir olmayabilir.

Kendi kendine barındırılan dağıtım. Yalnızca OpenAI API. /usecases/local anketi, kendi kendine barındırılan Whisper ile birlikte açık ağırlıklı diarization modelleri dahil olmak üzere şirket içi alternatifleri kapsar.

Konuşmacıların öncelik olmadığı maliyet duyarlı toplu transkripsiyon. Temel transcribe veya mini-transcribe kullanın — konuşmacı etiketlerine ihtiyaç duyulmadığında diarize prim maliyetini karşılamaz.

Ne zaman tercih edilmeli

gpt-4o-transcribe-diarize'ı şu durumlarda seçin:

  • Alt akış görevi konuşmacı atfına ihtiyaç duyuyor ve aksi takdirde iki aşamalı bir hat kuracaktınız.
  • Ses karışımı, orta sayıda konuşmacı içeren konuşma niteliğindedir — çağrılar, toplantılar, röportajlar, podcast'ler.
  • Entegre transkripsiyon-artı-diarization doğruluğu, sizin trafiğinizde iki aşamalı hat doğruluğuna tercih edilmektedir.

Şu durumlarda atlayın:

  • Konuşmacı etiketleri gerekli değil — temel transcribe modelini kullanın.
  • Maliyet duyarlı yüksek hacimli transkripsiyon iş yüküdür — mini-transcribe kullanın.
  • Kayıtlar arası konuşmacı tanımlama gereklidir — bir ses parmak izi modeli katmanlayın.
  • Canlı altyazılama gecikmesi kısıttır — diarize işleme süresi çok uzun olabilir.

Karşılaştırmaya değer alternatifler

Aşamaları bağımsız olarak yönetmek istediğinizde temel gpt-4o-transcribe artı ayrı bir diarization modeli. Maliyet konuşmacı etiketlerinden daha önemliyse diarizasyonsuz mini-transcribe. Şirket içi operasyon gerektiğinde kendi kendine barındırılan Whisper artı açık diarization (Pyannote ve benzerleri). /usecases/voice sayfasındaki daha geniş transkripsiyon modeli incelemesi rakip satıcıları kapsar.

Dağıtım notları

Diarize'a özgü istek formatıyla OpenAI Audio API. Çıktı, yazıya geçirilmiş metni, zaman damgalarını ve segment başına konuşmacı etiketlerini içerir. Yanıt formatı, alt akış tüketim ihtiyaçlarına göre yapılandırılabilir.

Konuşmacı etiketleri üretmek için ek model çalışmasını yansıtan, temel transcribe'a kıyasla daha yüksek bir oranda işlenen ses için dakika başına faturalama. Kapasite planlaması, işlenen toplam ses dakikası çarpı diarize dakika başına oranıdır.

Pragmatik okuma. Diarize, konuşmacı atfı görevin parçası olduğunda ve entegre doğruluk sizin sesinizde iki aşamalı hatları geride bıraktığında doğru modeldir. Konuşmacılar gerekli olmadığında, maliyet duyarlı toplu transkripsiyon iş yükü olduğunda veya canlı gecikme kısıt olduğunda yanlış modeldir. Onu gerçek çok konuşmacılı sesinize karşı /live-test sayfasında deneyin.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

gpt-4o-transcribe-diarize — illustration 2
Son otomatik test
14 Haz 2026 · 04:19 UTC · Test
P50 gecikme
P95 gecikme
Hatalar
1 / 6 çalıştırma
Son inceleyen Tokonomix Ekibi·26 Mayıs 2026