
gpt-4o-mini-transcribe es el endpoint de conversión de voz a texto más pequeño y rápido de OpenAI. Hace una sola cosa: recibe audio como entrada, produce texto como salida. Sin entrada de visión, sin completado de chat, sin uso de herramientas. Si llegaste aquí buscando un modelo mini multimodal, este no es. Está diseñado específicamente para cargas de trabajo de transcripción.
El linaje completo se ve así. Existe gpt-4o-transcribe (el hermano mayor y más preciso), gpt-4o-transcribe-diarize (de la misma familia pero con etiquetado nativo de hablantes), y esta versión mini que intercambia precisión por rendimiento y coste. La versión que llamas como gpt-4o-mini-transcribe es el alias móvil; las compilaciones específicas con fecha (gpt-4o-mini-transcribe-2025-03-20, gpt-4o-mini-transcribe-2025-12-15) te permiten fijar el comportamiento si tu pipeline es sensible a la deriva del modelo.
En qué destaca
El audio de corta duración es su punto fuerte. Notas de voz, fragmentos de llamadas de atención al cliente, segmentos de podcast de menos de quince minutos, mensajes de voz. El modelo devuelve texto limpio lo suficientemente rápido como para que puedas insertarlo en línea en una interfaz de usuario sin que los usuarios lo sientan. Para un archivo de audio pequeño, el recorrido completo se sitúa bien dentro de lo que un usuario final llamaría "instantáneo".
Maneja una amplia gama de calidades de audio. Audio de calidad telefónica de 8 kHz, transmisiones WebRTC grabadas en navegador, compresión con pérdida que ha pasado por tres rondas de recodificación en redes sociales. Ninguno de estos casos es ideal, pero el modelo se degrada gradualmente en lugar de fallar por completo. La transcripción que obtienes de audio problemático es utilizable para clasificación; no la publicarías sin revisión.
La cobertura de idiomas es amplia. El modelo maneja bien los principales idiomas europeos: inglés, español, francés, alemán, italiano, portugués, neerlandés, polaco. El rendimiento en idiomas asiáticos es desigual; las transcripciones en mandarín y japonés son buenas, los idiomas con menos recursos notablemente menos. El cambio de código dentro de una sola emisión (alguien hablando español que intercala términos técnicos en inglés) se maneja limpiamente más a menudo que no.
Lo que no hace
Sin diarización de hablantes. Si necesitas que se etiquete "quién dijo qué" en la salida, quieres gpt-4o-transcribe-diarize en su lugar, o un paso de diarización posterior sobre la transcripción en bruto. La versión mini devuelve un bloque continuo de texto.
Sin transmisión en tiempo real de resultados parciales. El audio entra como un archivo completo (o un fragmento terminado), el texto sale. Para subtitulado en vivo donde necesitas actualizaciones de hipótesis parciales cada pocos cientos de milisegundos, esta es la herramienta equivocada. Un sistema ASR enfocado en streaming lo es.
Sin marcas de tiempo a nivel de palabra por defecto. Las marcas de tiempo a nivel de segmento están disponibles; el tiempo por palabra no. Si estás construyendo archivos de subtítulos o haciendo una alineación precisa de audio-texto para edición, esto importa.
Sin generación de audio nativa. Este modelo solo lee audio. Para síntesis de voz quieres uno de los modelos etiquetados TTS de la misma familia.
Expectativas de precisión
La tasa de error de palabra depende en gran medida del audio que le proporciones. En narración en inglés limpia y de calidad de estudio, la versión mini se acerca a su hermano mayor. En grabaciones de campo ruidosas, la brecha se abre: el gpt-4o-transcribe completo es significativamente más robusto ante ruido de fondo, acento y habla superpuesta.
La regla general que vale la pena interiorizar: elige la versión mini para alto volumen, calidad de audio predecible y casos de uso posteriores tolerantes. Elige el modelo de transcripción completo cuando el audio es difícil, las apuestas son altas o la transcripción será leída tal cual por humanos. Para una comparación WER de manzanas con manzanas entre proveedores y condiciones de audio, la tabla de clasificación continua es la fuente.
El factor de tiempo real (cuánto más rápido que el tiempo real el modelo procesa audio) se sitúa cómodamente por debajo de 1.0 en entradas estándar, lo que hace que sea barato ejecutarlo a escala. Una grabación de una hora se transcribe en mucho menos de una hora de tiempo de reloj. Para la vista de coste frente a velocidad entre modelos de audio, consulta /benchmarks/speed.
Formatos de archivo e integración
El endpoint acepta los formatos de archivo que esperarías: mp3, mp4, mpeg, mpga, m4a, wav, webm, además de algunos más. El tamaño máximo de archivo se sitúa en 25 MB por solicitud a través de la API estándar. Para audio más largo, divídelo en fragmentos. La forma natural de hacerlo es en límites de silencio en lugar de intervalos de tiempo fijos; cortar a mitad de palabra produce transcripciones con continuaciones alucinadas.
La integración es REST más carga multiparte. No hay variante de entrada en streaming en este endpoint; el archivo se carga de una vez, la transcripción regresa cuando termina el procesamiento. Si estás construyendo algo que necesita empezar a mostrar texto antes de que el hablante haya terminado de hablar, mira los modelos de vista previa de audio de la misma familia (gpt-4o-audio-preview), o a un proveedor ASR dedicado de streaming.
Dónde encaja en un pipeline
Los patrones comunes que vemos en producción:
- Buzón de voz a texto en herramientas de atención al cliente. El llamante deja un mensaje, mini-transcribe lo procesa, el texto llega a la cola del agente. El archivo de voz permanece para reproducción si es necesario. Lo suficientemente económico en volumen como para hacerlo con cada llamada, no solo las escaladas.
- Transcripción de notas de voz dentro de aplicaciones de mensajería. El usuario mantiene presionado el micrófono, lo suelta, el texto transcrito aparece junto al audio. La versión mini es lo suficientemente rápida como para que la espera se sienta natural.
- Transcripciones de primera pasada de podcasts y reuniones. La transcripción en bruto pasa por el modelo mini, un editor humano la limpia. Emparejar esto con un paso de diarización separado y un paso de limpieza de texto a través de un LLM pequeño produce transcripciones publicables a una fracción del coste de un servicio de transcripción totalmente gestionado.
- Campos de formulario que aceptan dictado. Útil como la etapa de audio a texto de un pipeline más largo donde el siguiente paso es un modelo de extracción de datos estructurados.
Para el panorama más amplio sobre superficies de productos impulsadas por voz, consulta /usecases/voice. Para pipelines que combinan ASR con extracción de datos posterior, /usecases/data-extraction es la descripción general relevante.
Cómo elegirlo
Usa gpt-4o-mini-transcribe cuando quieras la pila de transcripción de OpenAI en el extremo económico de la curva precio-velocidad, y el audio que estás procesando sea razonablemente limpio. La precisión es lo suficientemente buena para la mayoría de los casos de uso de transcripción orientados al consumidor. La latencia es lo suficientemente baja como para ponerlo en línea en una interfaz de usuario.
Omítelo cuando necesites diarización, resultados parciales en tiempo real, marcas de tiempo a nivel de palabra o robustez en audio genuinamente difícil. Sube al gpt-4o-transcribe completo o gpt-4o-transcribe-diarize, o elige un proveedor ASR especialista cuyo negocio sea la transcripción en lugar de APIs de modelos de propósito general.
El escollo oculto que vale la pena señalar: la detección de idioma es automática. Si tu entrada es multilingüe o comienza con una pausa larga, el modelo ocasionalmente adivina incorrectamente en qué idioma está el audio y produce una transcripción en el objetivo equivocado. Pasar la pista de idioma explícitamente en la solicitud evita esto por completo. Es una solución gratuita y vale la pena hacerlo en cada llamada donde conozcas el idioma de antemano.
Pruébalo con tu propio audio en /live-test.
Última revisión técnica: 2026-05-22 — Tokonomix.ai
