¿Maneja diferentes acentos y dialectos?

Como parte de la familia GPT-4o, el soporte multilingüe es amplio; la precisión varía según el idioma y la calidad del audio.

¿Puede transcribir y resumir simultáneamente?

Sí, puede transcribir y procesar el contenido en una sola llamada, reduciendo pasos en el pipeline.

¿Qué formatos de audio acepta?

Consulta la documentación de OpenAI para formatos soportados; los estándar como MP3, WAV y MP4 suelen ser compatibles.

Se ejecuta en:USCreado en:United States

Archivado

Este modelo ha sido descontinuado por el proveedor. Los datos históricos se conservan.

Ya no está disponible desde el 31 de mayo de 2026.

OpenAI

gpt-4o-mini-transcribe-2025-03-20

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

GPT-4o-mini-transcribe-2025-03-20 es una variante especializada del modelo GPT-4o mini de OpenAI, específicamente optimizada para tareas de transcripción. Lanzado en marzo de 2025, este modelo representa el enfoque dirigido de OpenAI para la conversión de audio a texto, construyendo sobre la arquitectura eficiente del modelo base GPT-4o mini mientras incorpora mejoras para procesar lenguaje hablado. El modelo está diseñado para manejar diversas entradas de audio y convertirlas en texto escrito preciso, haciéndolo adecuado para aplicaciones como transcripción de reuniones, subtitulado de podcasts, documentación de entrevistas y funciones de accesibilidad. Las características técnicas de este modelo reflejan optimización para precisión y eficiencia en transcripción. Procesa entradas de audio para generar salidas de texto, manejando diversas calidades de audio, acentos y estilos de habla. Aunque las especificaciones exactas de la ventana de contexto no se han revelado públicamente, el modelo mantiene la eficiencia computacional asociada con la variante mini mientras ofrece rendimiento confiable en transcripción. Soporta capacidades estándar de generación de texto junto con su función principal de transcripción, permitiendo potencial post-procesamiento o formato del contenido transcrito. Dentro de la alineación de modelos de OpenAI, GPT-4o-mini-transcribe-2025-03-20 ocupa un nicho especializado entre modelos de lenguaje de propósito general y herramientas específicas para tareas. Complementa la familia más amplia GPT-4o al ofrecer una solución enfocada para usuarios que requieren capacidades dedicadas de transcripción sin la sobrecarga de modelos más grandes y generales. Este posicionamiento lo hace apropiado para aplicaciones donde la precisión en transcripción y la eficiencia de procesamiento son prioridades.

GPT-4o Mini Transcribe está optimizado específicamente para conversión de audio a texto, combinando la eficiencia mini con precisión en transcripción.
— Resumen de benchmark Tokonomix

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — gpt-4o-mini-transcribe-2025-03-20

$1.25 por 1M de tokens de entrada

$5.00 por 1M de tokens de salida

≈ $0.0017 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$1.25

por 1M de tokens de salida$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— no change

$5.00

output / 1M

— no change

2026-05-242026-05-242026-05-24

Input

Output

Price change

⟳ synced weekly

Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Optimizado para transcripción precisaCosto eficiente para procesamiento de audioSalida de texto estructurado desde audioSoporte multilingüe en transcripciónTranscripción de entrevistas y reunionesVelocidad del modelo mini

Debilidades

Razonamiento general limitado por tamaño miniCalidad puede variar con audio de baja calidadContexto no documentado públicamenteFoco estrecho en transcripción

Sección 03

Preguntas frecuentes

Combina transcripción con comprensión contextual del modelo GPT-4o, permitiendo post-procesamiento inteligente del texto transcrito.

Una opción eficiente y especializada para equipos que necesitan transcripción automática de calidad sin el costo de modelos de transcripción premium.
— Resumen de benchmark Tokonomix

Sección 04

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

● 2026-05-24

Línea base establecida para el modelo de transcripción de audio

Este veredicto establece la línea base inicial de rendimiento para gpt-4o-mini-transcribe-2025-03-20, el modelo de transcripción de audio de OpenAI. Al tratarse de una primera evaluación, no existen métricas comparativas ni tendencias históricas que analizar. El modelo se posiciona como una variante especializada de la arquitectura GPT-4o mini, optimizada específicamente para tareas de transcripción en lugar de generación de texto general. Sin datos de benchmark en la ventana actual, no podemos evaluar precisión, velocidad, soporte de idiomas ni el manejo de variaciones en la calidad del audio. Los usuarios deben esperar que este modelo se centre en convertir voz a texto en lugar de realizar tareas lingüísticas generales. Los próximos veredictos harán seguimiento a métricas de rendimiento que incluyen la precisión de transcripción entre idiomas, la velocidad de procesamiento, el manejo de acentos y condiciones de audio, así como cualquier mejora o regresión en la calidad. La ausencia de datos de benchmark actuales implica que quienes adopten este modelo lo hacen sin verificación independiente de rendimiento. Las evaluaciones posteriores proporcionarán métricas concretas sobre cómo se compara este modelo con alternativas en el ámbito de la transcripción y si mantiene una calidad consistente en el tiempo.

Quality

—

Latency p50

—

Test runs

✓ Línea base de la versión inicial establecida✗ No hay datos de rendimiento disponibles

Sección 06

Perfil completo del modelo

gpt-4o-mini-transcribe-2025-03-20: el pin mini-transcribe de marzo

gpt-4o-mini-transcribe-2025-03-20 es la instantánea fechada de marzo de 2025 del modelo pequeño y dedicado de transcripción de OpenAI. Audio de entrada, texto de salida. La misma tarea que Whisper, pero construido sobre la arquitectura GPT-4o en lugar de la línea Whisper más antigua, con lo que OpenAI describe como una precisión mejorada en audio conversacional y en idiomas con menos recursos disponibles.

Este es el congelado fechado para pipelines de producción que fijan un comportamiento específico de transcripción. Otros modelos de audio de línea diferente (audio-preview, realtime-preview) cubren voz bidireccional; mini-transcribe es la opción económica, especializada y unidireccional.

Para qué sirve mini-transcribe

La línea Whisper ha sido la opción predeterminada de transcripción de OpenAI durante años. Es competitiva, bien comprendida y probada en batalla. La línea mini-transcribe es la respuesta de OpenAI basada en la arquitectura GPT-4o para el mismo problema, con una relación costo-calidad diferente:

Precisión superior a Whisper en ciertas categorías de habla conversacional y acentuada.
Perfil de costos diferente: por minuto de audio en lugar del equivalente por token de Whisper.
La misma forma diseñada específicamente para transcripción: sin salida de audio, sin bucle de razonamiento, sin semántica de chat.

Para pipelines de transcripción de alto volumen, mini-transcribe es la elección apropiada para el nivel de costo. El gpt-4o-transcribe completo es la opción correcta cuando las mejoras de precisión por minuto importan más que la economía por minuto.

Por qué fijar la instantánea de marzo

Las actualizaciones del modelo de transcripción cambian las distribuciones de tasa de error de palabras (Word Error Rate, WER) en categorías de idioma y acento de formas difíciles de predecir a partir de los registros de cambios. La misma actualización que mejora la precisión en audio de noticias en inglés estadounidense podría retroceder en llamadas de servicio al cliente en portugués brasileño.

Fijar a 2025-03-20 significa:

Renuncias al acceso a las mejoras de precisión que llegaron en la instantánea de diciembre de 2025 y versiones posteriores.
Mantienes el perfil exacto de WER contra el cual pasó tu evaluación de marzo de 2025.

Para pipelines que alimentan NLP posterior (extracción de entidades, análisis de sentimiento, resumen), la deriva del WER de transcripción está aguas arriba de todo lo demás. Una pequeña regresión de precisión en la transcripción puede escalar en una gran regresión en métricas posteriores. Fijar es la opción predeterminada conservadora para pipelines sensibles a procesos posteriores.

Qué representa esta instantánea

Para marzo de 2025, la línea mini-transcribe había:

Establecido el formato de respuesta para la salida de transcripción y los metadatos de marca temporal.
Bloqueado la estructura de facturación por minuto que las instantáneas más nuevas heredaron.
Estabilizado la detección de idioma para el conjunto más amplio de idiomas europeos.

Lo que no tiene, en relación con instantáneas posteriores:

El manejo mejorado del habla superpuesta en audio conversacional.
Los refinamientos de precisión en idiomas con menos recursos que llegaron a finales de 2025.
Las mejoras de latencia derivadas de cambios en la infraestructura del backend.

Dónde falla

Diarización. Mini-transcribe produce texto transcrito sin etiquetas de hablante. Si importa "quién dijo qué", la línea gpt-4o-transcribe-diarize es la escalada correcta.

Razonamiento pesado sobre contenido transcrito. Mini-transcribe es puramente transcripción. Para razonamiento consciente del audio, la línea audio-preview maneja entrada de voz y salida de texto como parte de un modelo de chat. Para pipelines en cadena de transcribir-luego-razonar, mini-transcribe alimenta un LLM posterior.

Despliegue autohospedado. Solo API de OpenAI. La encuesta /usecases/local es la referencia correcta cuando se requiere operación on-premise o con espacio de aire (air-gapped).

Transcripción en streaming en tiempo real. Mini-transcribe es petición/respuesta. Para subtítulos en vivo que necesitan resultados parciales transmitidos de vuelta, la vista previa en tiempo real es la alternativa relevante aunque tenga la forma incorrecta para cargas de trabajo de transcripción pura.

Cuándo fijar esta instantánea exacta

Elige gpt-4o-mini-transcribe-2025-03-20 cuando:

Desplegaste un pipeline de transcripción con el comportamiento de mini-transcribe de marzo de 2025 y necesitas mantenerlo estable.
El NLP posterior es sensible a la deriva del WER de transcripción y una fijación de instantánea es la elección conservadora.
Un requisito de cumplimiento normativo fija la versión del modelo a nivel de instantánea para propósitos de auditoría.

Omítelo cuando:

Estás empezando de cero: fija la instantánea de mini-transcribe más reciente.
Las mejoras de precisión en instantáneas posteriores han ganado demostrablemente en tu mezcla de tráfico.
Necesitas diarización: usa la variante diarize de la línea de transcripción completa.
El despliegue requiere operación on-premise.

Alternativas que vale la pena comparar

La instantánea más nueva gpt-4o-mini-transcribe-2025-12-15 cuando las mejoras de precisión de diciembre importan. El gpt-4o-transcribe completo cuando las mejoras de precisión por minuto superan la economía por minuto. La variante diarize cuando se requieren etiquetas de hablante. La encuesta más amplia de modelos de transcripción en /usecases/voice cubre Whisper y proveedores competidores.

Notas de despliegue

API de Audio estándar de OpenAI. Entrada de audio mediante carga de archivo o URL. La salida es texto plano con metadatos de marca temporal opcionales según el parámetro response-format.

Facturación por minuto de audio procesado. La tarifa se ha mantenido estable en las instantáneas de mini-transcribe hasta ahora, aunque OpenAI publica cualquier cambio de tarifa junto con las versiones de instantánea.

La lectura pragmática. Este es el congelado de marzo de 2025 de mini-transcribe. Fíjalo cuando tu pipeline de transcripción fue validado contra él y el NLP posterior se vería interrumpido por la deriva del WER. Migra cuando tu propia evaluación diga que la instantánea más nueva es el movimiento correcto. Prueba contra tu audio real en /live-test antes de comprometerte.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

31 may 2026 · 04:27 UTC · Benchmark

Latencia P50

—

Latencia P95

—

Errores

1 / 6 ejecuciones

Última revisión por Equipo Tokonomix·26 de mayo de 2026