¿Cuántos tokens de contexto admite?

La versión estándar soporta varios miles de tokens; las variantes Turbo amplían esta capacidad significativamente.

¿Qué lo diferencia de GPT-3.5?

Mayor precisión en razonamiento, mejor seguimiento de instrucciones complejas y capacidades de comprensión visual.

¿Puede analizar imágenes?

Sí, GPT-4 fue el primer modelo de OpenAI en soportar entradas de imagen junto con texto de forma nativa.

Tier C — Especialista

Se ejecuta en:USCreado en:United States

OpenAI

gpt-4

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

GPT-4 es un modelo de lenguaje multimodal a gran escala desarrollado por OpenAI, lanzado en marzo de 2023. Representa la cuarta generación en la serie GPT (Generative Pre-trained Transformer) de OpenAI y acepta entradas tanto de texto como de imágenes mientras produce salidas de texto. El modelo está construido sobre arquitectura transformer y entrenado con diversos textos de internet y otras fuentes de datos, aunque OpenAI no ha revelado detalles específicos sobre el tamaño de su conjunto de datos de entrenamiento, parámetros de arquitectura o metodología exacta de entrenamiento. El modelo está diseñado para una amplia gama de tareas de procesamiento de lenguaje natural incluyendo generación de texto, respuesta a preguntas, resumen, traducción y razonamiento complejo. GPT-4 demuestra un rendimiento mejorado sobre su predecesor GPT-3.5 en áreas como precisión factual, capacidades de razonamiento y seguimiento de instrucciones complejas. Muestra una capacidad mejorada para manejar indicaciones matizadas y mantener contexto coherente durante conversaciones más largas. El modelo también exhibe mejor rendimiento en pruebas profesionales y académicas, incluyendo exámenes estandarizados y desafíos de programación. Dentro de la línea de modelos de OpenAI, GPT-4 se sitúa en el nivel superior como la oferta más capaz, sucediendo a GPT-3.5 y las variantes anteriores de GPT-3. Está disponible a través de la API de OpenAI y alimenta el servicio de suscripción ChatGPT Plus. El modelo tiene una ventana de contexto que varía según la versión, con implementaciones estándar manejando varios miles de tokens. OpenAI ha lanzado múltiples variantes de GPT-4 con diferentes capacidades y longitudes de contexto desde el lanzamiento inicial.

GPT-4 marcó un hito en la industria al lanzarse en 2023: la primera IA de OpenAI con capacidades multimodales y razonamiento notablemente superior a GPT-3.5.
— Resumen de benchmark Tokonomix

Sección 01

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

100

Multilingüe

Razonamiento

Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — gpt-4

$30.00 por 1M de tokens de entrada

$60.00 por 1M de tokens de salida

≈ $0.0300 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$30.00

por 1M de tokens de salida$60.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$30.00

input / 1M

— stable

$60.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 03

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Razonamiento avanzado sobre GPT-3.5Capacidades multimodales de texto e imagenRendimiento sólido en codificaciónBuen desempeño en benchmarks académicosAmplia compatibilidad de integracionesAmplia base de conocimiento general

Debilidades

Más lento que variantes TurboSuperado por versiones GPT-4o y posterioresVentana de contexto menor que modelos actualesMayor costo operativo que alternativas recientes

Sección 04

Capacidades

toolssource: litellmprompt cachingmax output tokens: 4096

Sección 05

Preguntas frecuentes

Para integraciones establecidas y casos donde la compatibilidad es clave; para nuevos proyectos existen opciones más eficientes.

Aunque ha sido superado por versiones posteriores, GPT-4 sigue siendo un modelo de referencia robusto con amplio soporte de herramientas e integraciones.
— Resumen de benchmark Tokonomix

Sección 06

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-590/100 · 110 runs

91 correct15 partial4 wrong83% accuracy

● 2026-07-26

GPT-4 shows significant quality decline despite latency improvements

GPT-4 has experienced a substantial performance degradation in this benchmark window, with overall quality dropping 24.4 points from 97.4 to 73.0. The decline is particularly severe in reasoning capabilities, which scored only 40 out of 100, and factual accuracy at 57. These represent critical weaknesses in fundamental model competencies. Creative tasks remain a strong point at 95, and multilingual performance maintains its perfect score of 100, continuing the consistency seen in previous testing. The model has achieved a notable 36% latency improvement, reducing median response time from 5566ms to 3565ms, which enhances user experience. However, this speed gain comes alongside the marked quality deterioration. The shift in category coverage between windows makes direct comparison challenging, as coding performance from the previous window is not present in current results. Users should be aware that while GPT-4 responds faster, current performance on reasoning and factual tasks has weakened considerably. The multilingual excellence and creative capabilities remain reliable strengths that users can continue to depend on for those specific use cases.

Quality

73.0

Latency p50

3,565 ms

Test runs

✗ Quality dropped 24.4 points✗ Reasoning score only 40✓ Latency improved 36%✓ Multilingual remains perfect 100

Sección 08

Perfil completo del modelo

GPT-4: el modelo que estableció el estándar

GPT-4 es el lanzamiento frontier original de la familia GPT-4 de OpenAI: el modelo que, cuando llegó en marzo de 2023, se convirtió en el punto de referencia contra el que se midió cada modelo de lenguaje grande posterior. Los detalles de la arquitectura se mantuvieron ocultos entonces y siguen ocultos ahora. El conjunto de capacidades, el perfil de coste y la historia de despliegue están todos bien documentados a través de años de uso en producción.

Ya no es el valor predeterminado recomendado para nuevas construcciones. Tampoco está retirado. El punto intermedio es el encuadre correcto.

Por qué importó este modelo

La llegada de GPT-4 reajustó lo que los equipos esperaban de un modelo de lenguaje desplegable en producción. Tres cambios específicos.

Razonamiento. GPT-4 podía encadenar inferencias de múltiples pasos de una forma que la generación 3.5 no podía. El análisis de contratos legales, la síntesis de múltiples documentos, la generación de código novedoso a partir de especificaciones vagas: todo esto pasó de "demostración interesante, salida frágil" a "desplegable en producción con capas de revisión apropiadas". La brecha cualitativa respecto a 3.5 era del tipo que se sentía en los resultados de evaluación dentro de la primera hora de pruebas.

Multilingüismo. La cobertura de múltiples idiomas fue un cambio de escala. La prosa administrativa europea, la terminología médica, el lenguaje legal en múltiples jurisdicciones: todo se gestionaba notablemente mejor que en la generación anterior. Para los equipos de empresa europeos en particular, este fue el desbloqueo que hizo desplegables las características de producto transfronterizas.

Uso de herramientas. Las llamadas a funciones maduraron hasta convertirse en algo sobre lo que los equipos de producción podían realmente construir bucles de agentes. La disciplina del esquema no era tan ajustada como lo que las generaciones posteriores lanzarían, pero era suficientemente ajustada como para que la primera ola de frameworks de agentes pudiera envolverse alrededor de ella.

Lo que siguió a lo largo de 2024 y 2025 —GPT-4 Turbo, GPT-4o, GPT-4.1, GPT-5— fueron refinamientos y expansiones de capacidades que GPT-4 estableció primero.

Qué le falta frente a los modelos actuales

La ventana de contexto de 8 192 tokens es la limitación más visible. Después de un año en que los contextos de un millón de tokens se han convertido en el estándar en el tier frontier, 8k es suficiente para el tráfico de chat pero no para ninguna carga de trabajo intensiva en documentos. El procesamiento de documentos en este modelo típicamente implicaba estrategias de división en fragmentos que los modelos actuales hacen redundantes.

Sin entrada de visión. Las variantes con capacidad de visión llegaron después. El modelo GPT-4 base es solo texto.

Sin superficie de audio. La misma historia. Las capacidades de audio llegaron con la generación 4o.

Profundidad de razonamiento. Los prompts de planificación y síntesis más difíciles que los modelos frontier actuales manejan con soltura —GPT-5, Claude Opus 4.7, las variantes de investigación profunda— están visiblemente fuera de la zona de confort de GPT-4. El modelo los maneja pero la calidad de la salida cae notablemente.

Velocidad. Las mejoras en el stack de inferencia durante los últimos dos años han situado el perfil de latencia de los modelos más recientes muy por debajo del GPT-4 original. Para los casos de uso interactivos, la diferencia se siente inmediatamente.

Por qué los equipos siguen ejecutándolo

Dos razones además de la inercia histórica.

Primera, regímenes de cumplimiento que aprobaron este identificador específico. GPT-4 es el modelo que pasó por la mayoría de los ciclos de auditoría a lo largo de 2023 y 2024 porque era la opción frontier disponible durante ese período. Algunos flujos de trabajo regulados siguen ejecutando GPT-4 porque el coste de re-auditoría en un modelo más reciente es significativo y la carga de trabajo aún no necesita nada más nuevo.

Segunda, estabilidad de evaluación para los pipelines posteriores. Los equipos que han construido parsers, clasificadores o suites de pruebas ajustados estrechamente al estilo de salida específico de GPT-4 a veces anclan para estabilidad mientras migran las herramientas posteriores a su propio ritmo.

Ambas razones tienen una vida útil. Los nuevos ciclos de auditoría tienen como valor predeterminado los modelos actuales; los nuevos pipelines no se construyen contra GPT-4.

Rutas de migración

El objetivo de migración correcto depende de la forma de la carga de trabajo.

Para las cargas de trabajo donde GPT-4 era la elección frontier y la capacidad frontier actual importa, GPT-4.1 o GPT-5 es la actualización natural. Ambos traen contexto mucho más largo, razonamiento notablemente más sólido y un comportamiento de salida estructurada más ajustado. El coste es más bajo, no más alto.

Para las cargas de trabajo que corrían en GPT-4 porque nada más barato era suficientemente bueno en ese momento, gpt-4.1-mini es a menudo el destino correcto. La calidad en la mayoría de los prompts de producción es comparable; el perfil de coste y latencia es notablemente mejor.

Para las cargas de trabajo multimodales que precedían a la generación 4o y actualmente trabajan alrededor de la falta de visión o audio a través de servicios externos, el paso natural es consolidarse en GPT-4o o GPT-4.1 con soporte multimodal nativo. La simplificación arquitectónica sola generalmente vale el coste de migración.

Notas de despliegue

La superficie de la API es Chat Completions, la misma forma que usa cada modelo OpenAI posterior. Streaming, llamadas a funciones, salida JSON en modo estructurado donde el esquema es razonable: todo se comporta aproximadamente de la misma forma que en los modelos más recientes.

El caché de prompts no está tan desarrollado en GPT-4 como en los modelos más recientes. Las ganancias de eficiencia de reutilización que se pagan solas en GPT-4.1 con prefijos estables de contexto largo son menores aquí.

La residencia regional es la misma historia de OpenAI: la API directa corre en infraestructura de Azure sin anclaje de región, el Servicio Azure OpenAI ofrece despliegues regionales bajo un contrato separado. Para los equipos con requisitos estrictos de residencia en la UE, una instancia de Mistral o Llama 3 alojada en OVH es una conversación diferente; consulte /usecases/local.

Cuándo elegirlo

Use GPT-4 hoy cuando:

Un régimen de cumplimiento aprobó este identificador específico y el ciclo de re-auditoría está en marcha.
Un pipeline posterior ha sido ajustado suficientemente estrechamente al estilo de salida del modelo como para que el coste de migración supere el beneficio de actualización, y el equipo tiene un plan para solucionarlo.
El trabajo de comparación histórica requiere el punto de referencia GPT-4 original.

Para nuevas construcciones, apunte a GPT-4.1, GPT-4.1 mini o uno de los modelos de la familia GPT-5 según la forma de la carga de trabajo. La generación 4 estableció el estándar. Ya no es el estándar.

Para la comparación entre categorías, consulte /benchmarks/leaderboard. Para la dirección de la línea OpenAI más amplia, consulte GPT-4.1.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

26 jul 2026 · 05:27 UTC · Benchmark

Latencia P50

3002 ms

Latencia P95

—

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026