Transkripsiyon doğruluğu gürültülü ortamlarda nasıl?

Model çeşitli ses kalitelerini destekliyor ancak arka plan gürültüsü doğruluğu olumsuz etkileyebilir.

Farklı aksanlar ve diller destekleniyor mu?

Birden fazla dil ve aksan destekleniyor; tam dil listesi için güncel API dokümantasyonuna bakın.

Çıktı hangi formatta geliyor?

Konuşmacı etiketli yapılandırılmış metin çıktısı üretiyor; biçimlendirme seçenekleri mevcuttur.

Çalıştığı yer:USYapıldığı yer:United States

Arşivlendi

Bu model sağlayıcı tarafından kullanımdan kaldırıldı. Geçmiş veriler korunmaktadır.

31 Mayıs 2026 tarihinden beri kullanılamıyor.

OpenAI

gpt-4o-mini-transcribe-2025-03-20

Tokonomix Editöryel Ekibi·İnceleyen Mes Kalkan·Yayınlandı 22 Mayıs 2026·Son inceleme 26 Mayıs 2026

GPT-4o-mini-transcribe-2025-03-20, OpenAI'ın GPT-4o mini modelinin özellikle transkripsiyon görevleri için optimize edilmiş özel bir varyantıdır. Mart 2025'te piyasaya sürülen bu model, OpenAI'ın ses-metin dönüşümüne yönelik hedefli yaklaşımını temsil eder ve GPT-4o mini temel modelinin verimli mimarisi üzerine inşa edilirken konuşulan dili işlemek için geliştirmeler içerir. Model, çeşitli ses girdilerini işleyip bunları doğru yazılı metne dönüştürmek üzere tasarlanmıştır ve toplantı transkripsiyonu, podcast altyazılama, görüşme dokümantasyonu ve erişilebilirlik özellikleri gibi uygulamalar için uygundur. Bu modelin teknik özellikleri, transkripsiyon doğruluğu ve verimlilik için optimizasyonu yansıtır. Metin çıktıları üretmek için ses girdilerini işler, çeşitli ses kalitelerini, aksanları ve konuşma stillerini ele alır. Tam bağlam penceresi özellikleri kamuya açıklanmamış olsa da, model güvenilir transkripsiyon performansı sunarken mini varyantla ilişkili hesaplama verimliliğini korur. Birincil transkripsiyon işlevinin yanı sıra standart metin üretim yeteneklerini destekler, bu da transkript edilen içeriğin potansiyel işlenmesi veya biçimlendirilmesine olanak tanır. OpenAI'ın model yelpazesi içinde GPT-4o-mini-transcribe-2025-03-20, genel amaçlı dil modelleri ile göreve özgü araçlar arasında özel bir niş kaplar. Daha büyük, daha genel modellerin yükü olmaksızın özel transkripsiyon yetenekleri gerektiren kullanıcılar için odaklanmış bir çözüm sunarak daha geniş GPT-4o ailesini tamamlar. Bu konumlandırma, transkripsiyon doğruluğu ve işleme verimliliğinin öncelik olduğu uygulamalar için uygun hale getirir.

OpenAI'nin kapsamlı eğitim verisi bu modelin geniş alan bilgisini destekliyor.
— Tokonomix benchmark özeti

Bölüm 01

Fiyat geçmişi

Milyon token başına doğrudan sağlayıcı tarifeleri, artı tipik bir konuşma maliyet tahmini.

💰

API tarifeleri — gpt-4o-mini-transcribe-2025-03-20

$1.25 1M giriş token başına

$5.00 1M çıkış token başına

≈ $0.0017 tipik konuşma başına (800 token)

Giriş vs çıkış fiyatı (1M token başına)

1M giriş token başına$1.25

1M çıkış token başına$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— no change

$5.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Bölüm 02

Güçlü & zayıf yönler

Benchmark sonuçları ve gerçek kullanım senaryolarına dair toplu topluluk geri bildirimine dayanır.

Güçlü yönler

Düşük gecikme, hızlı yanıtSes transkripsiyon desteğiMetin üretimi ve özetlemeÇok turlu sohbet desteğiTalimat takibinde yüksek başarıDoğal dil anlama kapasitesi

Zayıf yönler

Karmaşık akıl yürütmede sınırlıYalnızca ses ve metin odaklı kapsamİnternet erişimi bulunmuyor

Bölüm 03

Sık sorulan sorular

Diarizasyon özelliği kayıttaki farklı sesleri etiketliyor; desteklenen konuşmacı sayısı API belgelerinde belirtiliyor.

OpenAI güvenlik katmanları ve içerik filtreleri modeli kurumsal ortamlara uygun kılıyor.
— Tokonomix benchmark özeti

Bölüm 04

Kullanılabilirlik

Henüz ölçüm verisi yok

Bu model için kullanılabilirlik istatistiklerini göstermek için yeterli API çağrısı henüz kaydedilmedi. Veri, model canlı trafik almaya başlayınca görünür.

Bölüm 05

Tokonomix kıyaslama kararları

● 2026-05-24

Ses transkripsiyon modeli için temel performans belirlendi

Bu değerlendirme, OpenAI'nin ses transkripsiyon modeli gpt-4o-mini-transcribe-2025-03-20 için ilk performans referans noktasını oluşturur. İlk değerlendirme olduğundan, analiz edilecek karşılaştırmalı metrik veya geçmiş eğilim bulunmamaktadır. Model, genel metin üretiminden ziyade transkripsiyon görevleri için özel olarak optimize edilmiş, GPT-4o mini mimarisinin uzmanlaşmış bir varyantı olarak konumlandırılmıştır. Mevcut pencerede kıyaslama verisi olmadan; doğruluk, hız, dil desteği veya ses kalitesi varyasyonlarının ele alınışı değerlendirilemez. Kullanıcılar, bu modelin genel dil görevleri yerine konuşmayı metne dönüştürmeye odaklanmasını beklemelidir. Sonraki değerlendirmeler; diller arası transkripsiyon doğruluğu, işleme hızı, aksan ve ses koşullarının ele alınışı ile kalite iyileştirmeleri veya gerilemeleri dahil performans metriklerini takip edecektir. Mevcut kıyaslama verisinin yokluğu, bu modeli benimseyen kullanıcıların bağımsız performans doğrulaması olmadan hareket ettiği anlamına gelir. Sonraki değerlendirmeler, bu modelin transkripsiyon alanındaki alternatiflerle nasıl karşılaştırıldığına ve zaman içinde tutarlı kalite sağlayıp sağlamadığına dair somut metrikler sunacaktır.

Quality

—

Latency p50

—

Test runs

✓ İlk sürüm temel referansı belirlendi✗ Performans verisi mevcut değil

Bölüm 06

Tam model profili

gpt-4o-mini-transcribe-2025-03-20: Mart ayının mini-transcribe sabitlemesi

gpt-4o-mini-transcribe-2025-03-20, OpenAI'nin küçük, özel transkripsiyon modelinin Mart 2025 tarihli anlık görüntüsüdür. Girdi olarak ses, çıktı olarak metin. Whisper ile aynı görev, ancak eski Whisper hattının değil GPT-4o mimarisinin üzerine inşa edilmiş ve OpenAI'nin tanımladığına göre konuşma sesi ile düşük kaynaklı dillerde iyileştirilmiş doğrulukla sunuluyor.

Bu, belirli bir transkripsiyon davranışına sabitlenen üretim hatları için tarihli dondurulmuş sürümdür. Diğer hattaki ses modelleri (audio-preview, realtime-preview) çift yönlü sesi kapsar; mini-transcribe ise ucuz, uzmanlaşmış, tek yönlü seçenektir.

Mini-transcribe ne işe yarar

Whisper hattı yıllardır OpenAI'nin varsayılan transkripsiyon çözümü olmuştur. Rekabetçi, iyi anlaşılmış ve sahada sınanmış bir modeldir. Mini-transcribe hattı, OpenAI'nin aynı soruna GPT-4o mimarisi ile verdiği yanıttır ve farklı bir maliyet-kalite dengesine sahiptir:

Belirli konuşma dili ve aksanlı konuşma kategorilerinde Whisper'dan daha iyi doğruluk.
Farklı maliyet profili — Whisper-token eşdeğeri yerine ses dakikası başına ücretlendirme.
Aynı transkripsiyon-için-tasarlanmış yapı — ses çıkışı yok, akıl yürütme döngüsü yok, sohbet semantiği yok.

Yüksek hacimli transkripsiyon hatları için mini-transcribe, maliyet katmanına uygun seçimdir. Dakika başına doğruluk iyileştirmeleri dakika başına ekonomiden daha önemliyse, tam gpt-4o-transcribe doğru tercihtir.

Mart anlık görüntüsünü neden sabitlemeli

Transkripsiyon modeli yükseltmeleri, dil ve aksan kategorileri arasında Kelime Hata Oranı (WER) dağılımlarını değiştirir; bu değişiklikler değişiklik notlarından öngörmesi güç olur. ABD İngilizce haber sesinde doğruluğu artıran aynı yükseltme, Brezilya Portekizcesi müşteri hizmetleri çağrılarında gerileme yaratabilir.

2025-03-20 sürümüne sabitlemek şu anlama gelir:

Aralık 2025 anlık görüntüsünde ve sonraki sürümlerde gelen doğruluk iyileştirmelerine erişimden vazgeçersiniz.
Mart 2025 değerlendirmenizin geçtiği tam WER profilini korursunuz.

Aşağı akış NLP'yi besleyen hatlar için — varlık çıkarımı, duygu analizi, özetleme — transkripsiyon WER kayması her şeyin yukarı akışındadır. Transkripsiyondaki küçük bir doğruluk gerilemesi, aşağı akış metriklerinde büyük bir gerilemeye dönüşebilir. Sabitleme, aşağı akışa duyarlı hatlar için ihtiyatlı varsayılan tercihtir.

Bu anlık görüntü neyi temsil ediyor

Mart 2025 itibarıyla mini-transcribe hattı:

Transkripsiyon çıktısı ve zaman damgası meta verisi için yanıt formatını oturtmuştu.
Daha yeni anlık görüntülerin devraldığı dakika başına faturalama yapısını sabitlemişti.
Daha geniş Avrupa dil setinde dil algılamayı kararlı hale getirmişti.

Sonraki anlık görüntülere göre sahip olmadıkları:

Konuşma sesinde örtüşen konuşmaların iyileştirilmiş işlenmesi.
2025 sonunda gelen düşük kaynaklı diller üzerindeki doğruluk iyileştirmeleri.
Arka uç altyapı değişikliklerinden gelen gecikme iyileştirmeleri.

Nerede başarısız oluyor

Konuşmacı ayrımı (diarization). Mini-transcribe, konuşmacı etiketleri olmadan transkribe edilmiş metin üretir. "Kim ne söyledi" önemliyse, gpt-4o-transcribe-diarize hattı doğru yükseltmedir.

Transkribe edilmiş içerik üzerinde ağır akıl yürütme. Mini-transcribe yalnızca transkripsiyon yapar. Ses-farkındalıklı akıl yürütme için audio-preview hattı, bir sohbet modelinin parçası olarak ses-girişi-metin-çıkışını yönetir. Zincirlenmiş transkribe-sonra-akıl-yürüt hatları için mini-transcribe, aşağı akış bir LLM'yi besler.

Kendi sunucusunda dağıtım. Yalnızca OpenAI API. Yerinde veya hava-boşluklu çalışma gerekiyorsa /usecases/local incelemesi doğru referanstır.

Gerçek zamanlı akış transkripsiyonu. Mini-transcribe istek/yanıt yapısındadır. Kısmi sonuçların geri akış halinde gönderilmesini gerektiren canlı altyazılama için, saf transkripsiyon iş yükleri için yanlış şekle sahip olsa da realtime preview ilgili alternatiftir.

Bu tam anlık görüntüyü ne zaman sabitlemeli

gpt-4o-mini-transcribe-2025-03-20 seçin, eğer:

Mart 2025 mini-transcribe davranışı üzerine bir transkripsiyon hattı yayınladıysanız ve onu kararlı tutmanız gerekiyorsa.
Aşağı akış NLP, transkripsiyon WER kaymasına duyarlıysa ve anlık görüntü sabitlemesi ihtiyatlı tercihse.
Bir uyumluluk gereksinimi, denetim amaçları için model sürümünü anlık görüntü düzeyinde sabitliyorsa.

Atlayın, eğer:

Sıfırdan başlıyorsanız — en güncel mini-transcribe anlık görüntüsünü sabitleyin.
Sonraki anlık görüntülerdeki doğruluk iyileştirmeleri, kendi trafik karışımınızda kanıtlanabilir biçimde üstün geldiyse.
Konuşmacı ayrımına ihtiyacınız varsa — tam transcribe hattının diarize varyantını kullanın.
Dağıtım yerinde çalışmayı gerektiriyorsa.

Karşılaştırmaya değer alternatifler

Aralık doğruluk iyileştirmeleri önemli olduğunda daha yeni gpt-4o-mini-transcribe-2025-12-15 anlık görüntüsü. Dakika başına doğruluk iyileştirmeleri dakika başına ekonomiyi geçtiğinde tam gpt-4o-transcribe. Konuşmacı etiketleri gerekli olduğunda diarize varyantı. Daha geniş transkripsiyon-modeli incelemesi /usecases/voice sayfasında Whisper'ı ve rakip sağlayıcıları kapsar.

Dağıtım notları

Standart OpenAI Audio API. Dosya yükleme veya URL aracılığıyla ses girdisi. Çıktı, response-format parametresine bağlı olarak isteğe bağlı zaman damgası meta verisi içeren düz metindir.

İşlenen ses için dakika başına faturalama. Ücret, mini-transcribe anlık görüntüleri arasında şimdiye dek kararlı kalmıştır, ancak OpenAI ücret değişikliklerini anlık görüntü sürümleriyle birlikte yayımlar.

Pragmatik özet. Bu, mini-transcribe'in Mart 2025 dondurulmuş sürümüdür. Transkripsiyon hattınız buna karşı doğrulandıysa ve aşağı akış NLP, WER kayması nedeniyle bozulacaksa sabitleyin. Kendi değerlendirmeniz daha yeni anlık görüntünün doğru hamle olduğunu söylediğinde geçiş yapın. Taahhütte bulunmadan önce /live-test sayfasında kendi gerçek sesinize karşı test edin.

Son teknik inceleme: 2026-05-22 — Tokonomix.ai

Son otomatik test

31 May 2026 · 04:27 UTC · Test

P50 gecikme

—

P95 gecikme

—

Hatalar

1 / 6 çalıştırma

Son inceleyen Tokonomix Ekibi·26 Mayıs 2026