Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
OpenAI

gpt-4

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-4 es un modelo de lenguaje multimodal a gran escala desarrollado por OpenAI, lanzado en marzo de 2023. Representa la cuarta generación en la serie GPT (Generative Pre-trained Transformer) de OpenAI y acepta entradas tanto de texto como de imágenes mientras produce salidas de texto. El modelo está construido sobre arquitectura transformer y entrenado con diversos textos de internet y otras fuentes de datos, aunque OpenAI no ha revelado detalles específicos sobre el tamaño de su conjunto de datos de entrenamiento, parámetros de arquitectura o metodología exacta de entrenamiento. El modelo está diseñado para una amplia gama de tareas de procesamiento de lenguaje natural incluyendo generación de texto, respuesta a preguntas, resumen, traducción y razonamiento complejo. GPT-4 demuestra un rendimiento mejorado sobre su predecesor GPT-3.5 en áreas como precisión factual, capacidades de razonamiento y seguimiento de instrucciones complejas. Muestra una capacidad mejorada para manejar indicaciones matizadas y mantener contexto coherente durante conversaciones más largas. El modelo también exhibe mejor rendimiento en pruebas profesionales y académicas, incluyendo exámenes estandarizados y desafíos de programación. Dentro de la línea de modelos de OpenAI, GPT-4 se sitúa en el nivel superior como la oferta más capaz, sucediendo a GPT-3.5 y las variantes anteriores de GPT-3. Está disponible a través de la API de OpenAI y alimenta el servicio de suscripción ChatGPT Plus. El modelo tiene una ventana de contexto que varía según la versión, con implementaciones estándar manejando varios miles de tokens. OpenAI ha lanzado múltiples variantes de GPT-4 con diferentes capacidades y longitudes de contexto desde el lanzamiento inicial.

GPT-4 marcó un hito en la industria al lanzarse en 2023: la primera IA de OpenAI con capacidades multimodales y razonamiento notablemente superior a GPT-3.5.

Resumen de benchmark Tokonomix
Sección 01

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
95
Multilingüe
100
Razonamiento
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-4
$30.00 por 1M de tokens de entrada
$60.00 por 1M de tokens de salida
≈ $0.0300 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$30.00
por 1M de tokens de salida$60.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$30.00

input / 1M

— stable

$60.00

output / 1M

— stable

2026-05-242026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 03

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Razonamiento avanzado sobre GPT-3.5Capacidades multimodales de texto e imagenRendimiento sólido en codificaciónBuen desempeño en benchmarks académicosAmplia compatibilidad de integracionesAmplia base de conocimiento general

Debilidades

Más lento que variantes TurboSuperado por versiones GPT-4o y posterioresVentana de contexto menor que modelos actualesMayor costo operativo que alternativas recientes
Sección 04

Capacidades

toolssource: litellmprompt cachingmax output tokens: 4096
Sección 05

Preguntas frecuentes

Para integraciones establecidas y casos donde la compatibilidad es clave; para nuevos proyectos existen opciones más eficientes.

Aunque ha sido superado por versiones posteriores, GPT-4 sigue siendo un modelo de referencia robusto con amplio soporte de herramientas e integraciones.

Resumen de benchmark Tokonomix
Sección 06

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-589/100 · 75 runs
59 correct13 partial3 wrong79% accuracy
2026-06-14

GPT-4 adds tools and caching while maintaining stable core performance

GPT-4 introduces two significant new capabilities in this benchmark window: tools support and prompt caching. These additions expand the model's practical utility for developers building integrated applications and managing token costs for repeated contexts. Core performance metrics remain largely stable across the board. The model continues to deliver consistent results in reasoning, coding, and general language tasks without significant regression or improvement in baseline capabilities. Response times and output quality show minimal variance from the previous window, suggesting a focus on feature expansion rather than fundamental model refinement. The new tools capability enables function calling and structured interactions, while prompt caching offers efficiency gains for applications with repeated prompts. Users can expect the same reliable performance they've come to associate with GPT-4, now with enhanced integration options. For production deployments, these new features provide meaningful workflow improvements without introducing instability to existing use cases. The model's established strengths in nuanced reasoning and code generation persist unchanged.

Quality

Latency p50

Test runs

0

Tools support added Prompt caching capability introduced Stable core performance maintained
Sección 08

Perfil completo del modelo

gpt-4 — illustration 1
GPT-4: el modelo que estableció el estándar

GPT-4 es el lanzamiento frontier original de la familia GPT-4 de OpenAI: el modelo que, cuando llegó en marzo de 2023, se convirtió en el punto de referencia contra el que se midió cada modelo de lenguaje grande posterior. Los detalles de la arquitectura se mantuvieron ocultos entonces y siguen ocultos ahora. El conjunto de capacidades, el perfil de coste y la historia de despliegue están todos bien documentados a través de años de uso en producción.

Ya no es el valor predeterminado recomendado para nuevas construcciones. Tampoco está retirado. El punto intermedio es el encuadre correcto.

Por qué importó este modelo

La llegada de GPT-4 reajustó lo que los equipos esperaban de un modelo de lenguaje desplegable en producción. Tres cambios específicos.

Razonamiento. GPT-4 podía encadenar inferencias de múltiples pasos de una forma que la generación 3.5 no podía. El análisis de contratos legales, la síntesis de múltiples documentos, la generación de código novedoso a partir de especificaciones vagas: todo esto pasó de "demostración interesante, salida frágil" a "desplegable en producción con capas de revisión apropiadas". La brecha cualitativa respecto a 3.5 era del tipo que se sentía en los resultados de evaluación dentro de la primera hora de pruebas.

Multilingüismo. La cobertura de múltiples idiomas fue un cambio de escala. La prosa administrativa europea, la terminología médica, el lenguaje legal en múltiples jurisdicciones: todo se gestionaba notablemente mejor que en la generación anterior. Para los equipos de empresa europeos en particular, este fue el desbloqueo que hizo desplegables las características de producto transfronterizas.

Uso de herramientas. Las llamadas a funciones maduraron hasta convertirse en algo sobre lo que los equipos de producción podían realmente construir bucles de agentes. La disciplina del esquema no era tan ajustada como lo que las generaciones posteriores lanzarían, pero era suficientemente ajustada como para que la primera ola de frameworks de agentes pudiera envolverse alrededor de ella.

Lo que siguió a lo largo de 2024 y 2025 —GPT-4 Turbo, GPT-4o, GPT-4.1, GPT-5— fueron refinamientos y expansiones de capacidades que GPT-4 estableció primero.

Qué le falta frente a los modelos actuales

La ventana de contexto de 8 192 tokens es la limitación más visible. Después de un año en que los contextos de un millón de tokens se han convertido en el estándar en el tier frontier, 8k es suficiente para el tráfico de chat pero no para ninguna carga de trabajo intensiva en documentos. El procesamiento de documentos en este modelo típicamente implicaba estrategias de división en fragmentos que los modelos actuales hacen redundantes.

Sin entrada de visión. Las variantes con capacidad de visión llegaron después. El modelo GPT-4 base es solo texto.

Sin superficie de audio. La misma historia. Las capacidades de audio llegaron con la generación 4o.

Profundidad de razonamiento. Los prompts de planificación y síntesis más difíciles que los modelos frontier actuales manejan con soltura —GPT-5, Claude Opus 4.7, las variantes de investigación profunda— están visiblemente fuera de la zona de confort de GPT-4. El modelo los maneja pero la calidad de la salida cae notablemente.

Velocidad. Las mejoras en el stack de inferencia durante los últimos dos años han situado el perfil de latencia de los modelos más recientes muy por debajo del GPT-4 original. Para los casos de uso interactivos, la diferencia se siente inmediatamente.

Por qué los equipos siguen ejecutándolo

Dos razones además de la inercia histórica.

Primera, regímenes de cumplimiento que aprobaron este identificador específico. GPT-4 es el modelo que pasó por la mayoría de los ciclos de auditoría a lo largo de 2023 y 2024 porque era la opción frontier disponible durante ese período. Algunos flujos de trabajo regulados siguen ejecutando GPT-4 porque el coste de re-auditoría en un modelo más reciente es significativo y la carga de trabajo aún no necesita nada más nuevo.

Segunda, estabilidad de evaluación para los pipelines posteriores. Los equipos que han construido parsers, clasificadores o suites de pruebas ajustados estrechamente al estilo de salida específico de GPT-4 a veces anclan para estabilidad mientras migran las herramientas posteriores a su propio ritmo.

Ambas razones tienen una vida útil. Los nuevos ciclos de auditoría tienen como valor predeterminado los modelos actuales; los nuevos pipelines no se construyen contra GPT-4.

Rutas de migración

El objetivo de migración correcto depende de la forma de la carga de trabajo.

Para las cargas de trabajo donde GPT-4 era la elección frontier y la capacidad frontier actual importa, GPT-4.1 o GPT-5 es la actualización natural. Ambos traen contexto mucho más largo, razonamiento notablemente más sólido y un comportamiento de salida estructurada más ajustado. El coste es más bajo, no más alto.

Para las cargas de trabajo que corrían en GPT-4 porque nada más barato era suficientemente bueno en ese momento, gpt-4.1-mini es a menudo el destino correcto. La calidad en la mayoría de los prompts de producción es comparable; el perfil de coste y latencia es notablemente mejor.

Para las cargas de trabajo multimodales que precedían a la generación 4o y actualmente trabajan alrededor de la falta de visión o audio a través de servicios externos, el paso natural es consolidarse en GPT-4o o GPT-4.1 con soporte multimodal nativo. La simplificación arquitectónica sola generalmente vale el coste de migración.

Notas de despliegue

La superficie de la API es Chat Completions, la misma forma que usa cada modelo OpenAI posterior. Streaming, llamadas a funciones, salida JSON en modo estructurado donde el esquema es razonable: todo se comporta aproximadamente de la misma forma que en los modelos más recientes.

El caché de prompts no está tan desarrollado en GPT-4 como en los modelos más recientes. Las ganancias de eficiencia de reutilización que se pagan solas en GPT-4.1 con prefijos estables de contexto largo son menores aquí.

La residencia regional es la misma historia de OpenAI: la API directa corre en infraestructura de Azure sin anclaje de región, el Servicio Azure OpenAI ofrece despliegues regionales bajo un contrato separado. Para los equipos con requisitos estrictos de residencia en la UE, una instancia de Mistral o Llama 3 alojada en OVH es una conversación diferente; consulte /usecases/local.

Cuándo elegirlo

Use GPT-4 hoy cuando:

  • Un régimen de cumplimiento aprobó este identificador específico y el ciclo de re-auditoría está en marcha.
  • Un pipeline posterior ha sido ajustado suficientemente estrechamente al estilo de salida del modelo como para que el coste de migración supere el beneficio de actualización, y el equipo tiene un plan para solucionarlo.
  • El trabajo de comparación histórica requiere el punto de referencia GPT-4 original.

Para nuevas construcciones, apunte a GPT-4.1, GPT-4.1 mini o uno de los modelos de la familia GPT-5 según la forma de la carga de trabajo. La generación 4 estableció el estándar. Ya no es el estándar.

Para la comparación entre categorías, consulte /benchmarks/leaderboard. Para la dirección de la línea OpenAI más amplia, consulte GPT-4.1.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-4 — illustration 2gpt-4 — illustration 3
Última prueba automática
14 jun 2026 · 04:56 UTC · Benchmark
Latencia P50
7408 ms
Latencia P95
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026