Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
OpenAI

gpt-4o

Tier C — Especialista · 128K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-4o es un modelo de lenguaje grande multimodal desarrollado por OpenAI, lanzado en mayo de 2024 como parte de la familia GPT-4. La designación "o" se refiere a sus capacidades "omni", indicando soporte nativo para procesar y generar texto, imágenes y audio dentro de una arquitectura de modelo unificada. Este modelo representa el esfuerzo de OpenAI por crear sistemas de IA más integrados que puedan manejar múltiples modalidades simultáneamente en lugar de depender de modelos especializados separados. El modelo cuenta con una ventana de contexto de 128,000 tokens, permitiéndole procesar aproximadamente 96,000 palabras o 300 páginas de texto en una única solicitud. GPT-4o está diseñado para tareas de generación de texto de propósito general incluyendo creación de contenido, análisis, asistencia en programación y aplicaciones conversacionales. Demuestra un rendimiento mejorado sobre variantes anteriores de GPT-4 en tareas de razonamiento, capacidades multilingües y comprensión visual, mientras ofrece tiempos de respuesta más rápidos y mayor eficiencia. Dentro de la línea de modelos de OpenAI, GPT-4o se posiciona como una oferta insignia que equilibra capacidad con accesibilidad. Está posicionado como una alternativa más eficiente a los modelos originales GPT-4 y GPT-4 Turbo, ofreciendo rendimiento comparable o superior en la mayoría de los benchmarks mientras requiere menos recursos computacionales por solicitud. El modelo está disponible a través de la API de OpenAI y sirve como base para el nivel de servicio estándar de ChatGPT, convirtiéndolo en uno de los modelos más ampliamente desplegados de la familia GPT-4.

GPT-4o es el modelo omnimodal insignia de OpenAI: procesa texto, imágenes y audio de forma nativa con 128K tokens de contexto y mejor eficiencia que GPT-4 Turbo.

Resumen de benchmark Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9597 runs
30950869863146401941705-2206-15ms
Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
99
Multilingüe
100
Razonamiento
Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-4o
$2.50 por 1M de tokens de entrada
$10.00 por 1M de tokens de salida
≈ $0.0035 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$2.50
por 1M de tokens de salida$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)400 / avg 391
640113

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Arquitectura omnimodal nativa128K tokens de contextoComprensión integrada de texto e imagenMás eficiente que GPT-4 TurboRazonamiento avanzado multi-dominioCapacidades multilingües mejoradasCodificación asistida de alta calidad

Debilidades

Audio solo en variantes especializadasContexto inferior a modelos con 1M tokensArquitectura omni aún en evoluciónTareas de ultra-razonamiento: usar o-series
Sección 06

Capacidades

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 16384
Sección 07

Preguntas frecuentes

Hace referencia a omni: la capacidad de procesar texto, imágenes y audio de forma integrada en un único modelo.

GPT-4o redefine el balance entre capacidad multimodal, velocidad y accesibilidad en la familia GPT-4 de OpenAI.

Resumen de benchmark Tokonomix
Sección 08

Disponibilidad

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

100.0%

n=28

Últimos 30 días

100.0%

n=28

Tiempo de respuesta mediano

2,854ms

n=28

Basado en 96 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

28

Respuestas OK (30d)

28

Total de llamadas (7d)

28

Respuestas OK (7d)

28

Piloto de calidad de imagen (2026-06-10)

Recall

66.9%

n=300

Falsa alarma

15.7%

n=300

Sección 09

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-595/100 · 75 runs
69 correct6 partial0 wrong92% accuracy
🏟️
Actividad de la arena
Arena de modelos diaria — evaluada cara a cara
Este mes
Como concursante
1Partidas jugadas
0 / 1Ganadas / perdidas
3Votos ▲
Como juez
5Rondas como juez
Puntos ciegos detectados
Histórico
Como concursante
1Partidas jugadas
0 / 1Ganadas / perdidas
3Votos ▲
Como juez
5Rondas como juez
Puntos ciegos detectados

La detección de puntos ciegos se activa cuando los jueces señalan omisiones en las próximas rondas de la arena.

Historial mensual (1)
MesPartidas jugadasGanadas / perdidasVotos ▲Rondas como juez
2026-0610 / 135
2026-06-14

Capability expansion: tools, vision, multimodal and structured outputs added

GPT-4o has undergone significant capability expansion in this benchmark window. The model now supports tool calling, vision processing, PDF input handling, and structured output modes including JSON mode, JSON schema validation, and parallel tool execution. Prompt caching has also been introduced for improved efficiency. These additions transform GPT-4o from a text-only model into a comprehensive multimodal system capable of handling diverse input types and output formats. The tool calling capabilities enable function execution and structured workflows, while vision support allows image analysis alongside text processing. PDF input support expands document handling capabilities. The addition of JSON schema validation and parallel tool execution provides developers with more precise control over model outputs and improved efficiency for complex workflows. Prompt caching can reduce latency and costs for repeated operations. These changes position GPT-4o as a versatile foundation model suitable for production applications requiring multimodal understanding, structured outputs, and programmatic integration. Users should note that while capabilities have expanded considerably, benchmark performance metrics for these new features will require evaluation in subsequent windows to assess quality and reliability.

Quality

Latency p50

Test runs

0

Tool calling enabled Vision and PDF support added Structured output modes available Prompt caching introduced
Sección 10

Perfil completo del modelo

gpt-4o — illustration 1
GPT-4o: el modelo que convirtió lo multimodal en el valor predeterminado

GPT-4o fue el primer intento de OpenAI de que un modelo gestionara texto, visión y audio en el mismo paso hacia adelante en lugar de conectar modelos separados detrás de una API común. Acepta entrada de texto e imagen con una ventana de contexto de 128k tokens, y a través de las superficies de audio dedicadas también gestiona voz de entrada y salida. La mayor parte de la superficie de producto de la familia GPT-4 que los equipos europeos lanzaron en 2024 y 2025 corría sobre este modelo, a menudo sin que nadie notara el linaje.

No es el modelo más nuevo en el stack de OpenAI y ya no es el valor predeterminado recomendado para nuevas construcciones, pero sigue siendo uno de los modelos más desplegados en producción hoy.

Qué cambió 4o

La generación anterior —GPT-4 y GPT-4 Turbo— eran modelos de texto sólidos con visión y uso de herramientas añadidos encima. 4o fue construido de forma diferente. El pipeline de entrenamiento apuntaba a la capacidad multimodal desde el principio, lo que se manifiesta más claramente en dos lugares.

Primero, entrada y salida de audio. 4o soporta conversaciones de voz a través de la API en tiempo real con una latencia notablemente más baja que el antiguo enfoque de "transcribir con Whisper, generar con GPT-4, sintetizar con un modelo TTS". Los turnos de conversación se sienten naturales de una forma que la configuración de cadena de modelos nunca logró del todo.

Segundo, comprensión de imágenes. 4o lee capturas de pantalla de paneles de control, extrae tablas de páginas PDF renderizadas, describe diagramas y gestiona gráficos de forma más fiable que la superficie de visión GPT-4 anterior. El modelo no es infalible en gráficos densos con etiquetas de ejes pequeñas y sigue leyendo mal la escritura manuscrita con suficiente frecuencia como para necesitar revisión humana en cualquier bucle, pero para la entrada de visión de propósito general estableció el estándar al que el resto del sector tuvo que ponerse al día.

La velocidad fue el tercer cambio. 4o se lanza con una latencia notablemente más baja que GPT-4 Turbo a calidad comparable. Para los casos de uso interactivos, la diferencia se sintió inmediatamente y sigue sintiéndose hoy.

Dónde se sitúa ahora

La línea actual de OpenAI posiciona a GPT-4.1 y la familia GPT-5 por encima de 4o en la mayoría de los benchmarks. El encuadre honesto es que 4o se sitúa en el medio del stack: claramente superado en el razonamiento más difícil por los modelos frontier más nuevos, cómodamente por delante de la generación GPT-3.5, comparable a GPT-4.1 mini en muchas cargas de trabajo diarias.

La ventana de contexto de 128k es la parte que envejece de forma más visible. Después de un año en que los contextos de un millón de tokens se han convertido en el estándar en el tier frontier, 128k se siente corto para cualquier carga de trabajo que implique un procesamiento serio de documentos o prompts de base de código completa. Para el tráfico con forma de chat sigue siendo suficiente.

La variante 4o-mini sigue siendo popular para el trabajo sensible al coste, aunque la generación 4.1 mini es la mejor opción para nuevas construcciones. La superficie de audio es el único lugar donde 4o todavía se prefiere rutinariamente: gpt-4o-audio y la API en tiempo real tienen una historia de despliegue que los modelos más nuevos no han replicado completamente.

La comparación actualizada entre categorías está en /benchmarks/leaderboard. Los desgloces de velocidad e inteligencia están en /benchmarks/speed y /benchmarks/intelligence.

Dónde falla hoy

Trabajo de contexto largo. 128k ya no es competitivo en el frontier. Migre a GPT-4.1 o suba a GPT-5 para cargas de trabajo intensivas en documentos.

Razonamiento frontier. Los prompts de planificación, matemáticas y síntesis de código más difíciles van a GPT-5 o Claude Opus 4.7. 4o los gestiona pero añade precauciones visiblemente y produce una salida menos pulida.

Generación de imágenes nativa. 4o es solo entrada de texto e imagen, no texto a imagen. Para las rutas de generación, use uno de los modelos de imagen dedicados.

Residencia de datos europea. La API directa de OpenAI corre en infraestructura de Azure sin anclaje de región. El Servicio Azure OpenAI ofrece despliegues regionales bajo un contrato separado. Para los equipos con requisitos estrictos de residencia en la UE, una instancia de Mistral o Llama 3 alojada en OVH es una conversación diferente; consulte /usecases/local.

Notas de despliegue

La API es la familiar superficie de Chat Completions y Responses. Streaming, llamadas a herramientas, modo JSON, salidas estructuradas: todo funciona como se espera. La API en tiempo real para voz corre a través de una superficie WebSocket que se comporta de forma diferente a los endpoints de solicitud-respuesta y necesita su propio enfoque de pruebas de carga.

El caché de prompts es compatible y vale la pena configurarlo si tiene prompts de sistema estables o prefijos de recuperación aumentada. El beneficio de coste se manifiesta inmediatamente en cualquier despliegue con contexto reutilizado.

Los logs se conservan treinta días por defecto para el monitoreo de abusos. Las entradas a la API no se usan para entrenamiento salvo que se acepte explícitamente. La retención cero está disponible bajo contratos Enterprise.

Para los equipos que construyeron sobre 4o y están evaluando una actualización, el objetivo práctico de migración depende de la forma de la carga de trabajo. El trabajo intensivo en texto con contexto largo va a GPT-4.1. El trabajo intensivo en razonamiento va a GPT-5. El trabajo intensivo en audio permanece en la superficie en tiempo real de 4o hasta que OpenAI lance un sucesor que iguale su historia de despliegue. Para el enrutamiento de voz en detalle, consulte /usecases/voice.

Cuándo elegirlo

Use GPT-4o hoy cuando necesite:

  • Entrada multimodal con una historia de despliegue bien entendida y bien documentada.
  • Menor latencia que GPT-4 Turbo a calidad comparable.
  • Entrada o salida de audio a través de la API en tiempo real.
  • Una opción de tier medio pragmática en un pipeline basado en OpenAI existente que no necesita la capacidad frontier.

Omítalo para nuevas construcciones que apuntan a trabajo de texto con contexto largo: GPT-4.1 es el mejor valor predeterminado. Omítalo para razonamiento frontier donde GPT-5 o Claude Opus 4.7 están claramente por delante.

Pruébelo lado a lado con las opciones más nuevas en /live-test. Para mucho tráfico de producción la diferencia de calidad es más pequeña de lo que los números de versión implican y el punto de precio más bajo de 4o es lo que inclina la elección.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-4o — illustration 2gpt-4o — illustration 3
Última prueba automática
15 jun 2026 · 08:00 UTC · Benchmark de velocidad
Latencia P50
500 ms
Latencia P95
667 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·10 de junio de 2026