
gpt-4o-mini-transcribe, OpenAI'nin daha küçük, daha hızlı konuşmadan metne dönüştürme uç noktasıdır. Tek bir şey yapar: sesi içeri alır, metni dışarı çıkarır. Görüntü girişi yok, sohbet tamamlama yok, araç kullanımı yok. Buraya çok modlu bir mini model arıyorsanız, bu o değildir. Transkripsiyon iş yükleri için özel olarak tasarlanmıştır.
Tam soy ağacı şöyle görünüyor. gpt-4o-transcribe (daha büyük, daha doğru kardeş model), gpt-4o-transcribe-diarize (aynı aileden ancak yerel konuşmacı etiketlemeli) ve doğruluğu verim ile maliyet için takas eden bu mini yapı var. gpt-4o-mini-transcribe olarak çağırdığınız versiyon dönen takma addır; belirli tarihli yapılar (gpt-4o-mini-transcribe-2025-03-20, gpt-4o-mini-transcribe-2025-12-15), boru hattınız model kaymasına duyarlıysa davranışı sabitlemenize olanak tanır.
Neyi iyi yapar
Kısa süreli ses ideal noktadır. Sesli notlar, müşteri destek çağrısı parçacıkları, on beş dakikanın altındaki podcast segmentleri, sesli mesaj. Model, kullanıcıların hissetmeden bir kullanıcı arayüzüne satır içi koyabileceğiniz kadar hızlı temiz metin döndürür. Küçük bir ses dosyası için gidiş-dönüş, son kullanıcının "anında" diyeceği şeyin içinde rahatça kalır.
Geniş bir ses kalitesi yelpazesini idare eder. Telefon kalitesinde 8 kHz ses, tarayıcıda kaydedilmiş WebRTC akışları, üç tur sosyal medya yeniden kodlamasından geçmiş kayıplı sıkıştırma. Bunların hiçbiri ideal değildir, ancak model tamamen başarısız olmak yerine zarif bir şekilde bozulur. Dağınık sesten aldığınız transkript triyaj için kullanılabilirdir; inceleme yapılmadan yayınlamazsınız.
Dil kapsamı geniştir. Model, büyük Avrupa dillerini iyi idare eder: İngilizce, İspanyolca, Fransızca, Almanca, İtalyanca, Portekizce, Hollandaca, Lehçe. Asya dili performansı dengesizdir; Mandarin ve Japonca transkriptler iyidir, daha az kaynaklı diller gözle görülür derecede daha az iyidir. Tek bir söyleyiş içindeki kod değiştirme (İngilizce teknik terimler bırakan İspanyolca konuşan biri), çoğu zaman temiz bir şekilde ele alınır.
Neyi yapmaz
Konuşmacı ayrıştırması yok. Çıktıda "kim ne söyledi" etiketine ihtiyacınız varsa, bunun yerine gpt-4o-transcribe-diarize istersiniz veya ham transkriptin üstüne bir işlem sonrası ayrıştırma geçişi. Mini yapı, tek bir sürekli metin bloğu döndürür.
Kısmi sonuçların gerçek zamanlı akışı yok. Ses, tam bir dosya (veya bitmiş bir parça) olarak girer, metin çıkar. Birkaç yüz milisaniyede bir kısmi hipotez güncellemelerine ihtiyaç duyduğunuz canlı altyazı için bu yanlış araçtır. Akış öncelikli bir ASR sistemi öyledir.
Varsayılan olarak kelime düzeyinde zaman damgası yok. Segment düzeyinde zaman damgaları mevcuttur; kelime başına zamanlama yoktur. Altyazı dosyaları oluşturuyorsanız veya düzenleme için sıkı ses-metin hizalaması yapıyorsanız, bu önemlidir.
Yerel ses üretimi yok. Bu model yalnızca sesi okur. Ses sentezi için aynı ailedeki TTS etiketli modellerden birini istersiniz.
Doğruluk beklentileri
Kelime hata oranı, verdiğiniz sese büyük ölçüde bağlıdır. Temiz, stüdyo kalitesinde İngilizce anlatımda mini yapı, daha büyük kardeşine yaklaşır. Gürültülü saha kayıtlarında boşluk açılır: tam gpt-4o-transcribe, arka plan gürültüsüne, aksana ve örtüşen konuşmaya anlamlı ölçüde daha güçlüdür.
İçselleştirmeye değer temel kural: yüksek hacim, öngörülebilir ses kalitesi ve toleranslı akış aşağı kullanım durumları için mini yapıyı seçin. Ses zor olduğunda, riskler yüksek olduğunda veya transkript insanlar tarafından olduğu gibi okunacaksa tam transkripsiyon modelini seçin. Sağlayıcılar ve ses koşulları arasında elma ile elma WER karşılaştırması için, dönen /benchmarks/leaderboard kaynaktır.
Gerçek zamanlı faktör (modelin sesi gerçek zamandan ne kadar hızlı işlediği), standart girdilerde rahatça 1,0'ın altında oturur, bu da onu ölçekte çalıştırmayı ucuz yapan şeydir. Bir saatlik kayıt, bir saatten çok daha kısa duvar saati süresinde transkribe edilir. Ses modelleri arasında maliyet-hız görünümü için /benchmarks/speed konusuna bakın.
Dosya formatları ve entegrasyon
Uç nokta, beklediğiniz dosya formatlarını kabul eder: mp3, mp4, mpeg, mpga, m4a, wav, webm, artı birkaç tane daha. Maksimum dosya boyutu, standart API aracılığıyla istek başına 25 MB'de oturur. Daha uzun ses için parçalayın. Bunu yapmanın doğal yolu, sabit zaman aralıkları yerine sessizlik sınırlarındadır; kelimenin ortasında kesmek, halüsinasyonlu devamlarla transkriptler üretir.
Entegrasyon REST artı çok parçalı yüklemedir. Bu uç noktada akış girişli varyant yoktur; dosya bir kerede yüklenir, işleme bittiğinde transkript geri döner. Konuşmacı konuşmayı bitirmeden önce metin göstermeye başlaması gereken bir şey oluşturuyorsanız, aynı ailedeki ses önizleme modellerine (gpt-4o-audio-preview) veya özel bir akış ASR sağlayıcısına bakın.
Bir boru hattına nereye oturur
Üretimde gördüğümüz yaygın desenler:
- Müşteri destek araçlarında sesli mesajdan metne. Arayan bir mesaj bırakır, mini-transcribe çalıştırır, metin acentenin sırasına iner. Ses dosyası gerektiğinde tekrar için kalır. Hacimde yeterince ucuzdur, böylece her çağrı için yapabilirsiniz, sadece yükseltilmiş olanlar için değil.
- Mesajlaşma uygulamalarında sesli not transkripsiyonu. Kullanıcı mikrofonu tutar, bırakır, transkribe edilmiş metin sesin yanında görünür. Mini yapı, beklemenin doğal hissettirecek kadar hızlıdır.
- İlk geçiş podcast ve toplantı transkriptleri. Ham transkript mini modelden geçer, bir insan editörü temizler. Bunu ayrı bir ayrıştırma geçişi ve küçük bir LLM aracılığıyla metin temizleme geçişi ile eşleştirmek, tam olarak yönetilen bir transkripsiyon hizmetinin maliyetinin çok küçük bir kısmında yayınlanabilir transkriptler üretir.
- Dikte kabul eden form alanları. Bir sonraki adımın yapılandırılmış veri çıkarma modeli olduğu daha uzun bir boru hattının ses-metin ayağı olarak kullanışlıdır.
Ses odaklı ürün yüzeyleri üzerinde daha geniş manzara için /usecases/voice konusuna bakın. ASR'yi akış aşağı veri çıkarma ile birleştiren boru hatları için /usecases/data-extraction ilgili genel bakıştır.
Seçmek
İşlediğiniz ses makul derecede temiz olduğunda ve fiyat-hız eğrisinin ucuz ucunda OpenAI'nin transkripsiyon yığınını istediğinizde gpt-4o-mini-transcribe kullanın. Doğruluk, çoğu tüketiciye yönelik transkripsiyon kullanım durumu için yeterince iyidir. Gecikme, bir kullanıcı arayüzüne satır içi koymak için yeterince düşüktür.
Ayrıştırmaya, gerçek zamanlı kısmi sonuçlara, kelime düzeyinde zaman damgalarına veya gerçekten zor ses üzerinde sağlamlığa ihtiyacınız olduğunda atlayın. Tam gpt-4o-transcribe veya gpt-4o-transcribe-diarize'a yükseltin veya işi genel amaçlı model API'leri yerine transkripsiyon olan uzman bir ASR sağlayıcısı seçin.
İşaretlemeye değer gizli sorun: dil algılama otomatiktir. Girdiniz karışık dilli ise veya uzun bir duraklamayla başlıyorsa, model bazen sesin hangi dilde olduğu hakkında yanlış tahmin eder ve yanlış hedefte bir transkript üretir. İstekte dil ipucunu açıkça geçirmek bundan tamamen kaçınır. Ücretsiz bir düzeltmedir ve dili önceden bildiğiniz her çağrıda yapmaya değer.
/live-test adresinde kendi sesinizde deneyin.
Son teknik inceleme: 2026-05-22 — Tokonomix.ai
