Ir al contenido
Se ejecuta en:USCreado en:United States
OpenAI

gpt-5.3-codex

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-5.3-Codex es un modelo de lenguaje desarrollado por OpenAI, optimizado específicamente para tareas de generación de código y procesamiento de texto técnico. Como parte de la serie GPT-5, este modelo representa una evolución de la arquitectura transformer generativa preentrenada de OpenAI, con entrenamiento especializado en lenguajes de programación, documentación técnica y contextos de desarrollo de software. El modelo admite capacidades estándar de generación de texto, mostrando una fortaleza particular en la comprensión y producción de código en múltiples lenguajes de programación. El modelo está diseñado para desarrolladores y usuarios técnicos que requieren asistencia con tareas de desarrollo de software, incluyendo autocompletado de código, depuración, generación de documentación y resolución de problemas técnicos. GPT-5.3-Codex puede interpretar descripciones en lenguaje natural de tareas de programación y traducirlas a código funcional, así como explicar código existente en lenguaje sencillo. Su entrenamiento abarca una amplia gama de paradigmas, frameworks y lenguajes de programación, lo que lo hace apto para diversos entornos de desarrollo. Dentro del catálogo de modelos de OpenAI, GPT-5.3-Codex ocupa una posición especializada junto a los modelos de lenguaje de propósito general, ofreciendo capacidades específicas de dominio para aplicaciones técnicas. El tamaño de la ventana de contexto de este modelo no se ha divulgado públicamente. Si bien mantiene la funcionalidad estándar de generación de texto de la serie GPT más amplia de OpenAI, su arquitectura y entrenamiento priorizan tareas relacionadas con código, lo que lo diferencia de los modelos conversacionales o de escritura creativa de propósito general en el portafolio del proveedor.

GPT-5.3 Codex representa la tercera generación del asistente de codificación de OpenAI basado en GPT-5, con capacidades de programación de primer nivel.

Resumen de benchmark Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-5.3-codex
$1.75 por 1M de tokens de entrada
$14.00 por 1M de tokens de salida
≈ $0.0039 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$1.75
por 1M de tokens de salida$14.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.75

input / 1M

— no change

$14.00

output / 1M

— no change

2026-05-242026-05-242026-05-24
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Codificación con refinamientos GPT-5.3Depuración precisa de código complejoDiseño de arquitecturas de softwareRefactorización contextual avanzadaDocumentación técnica automáticaCobertura completa de pruebasSoporte multilenguaje exhaustivo

Debilidades

Contexto no documentadoAlto costo para uso masivo en desarrolloEspecialización en código, baja versatilidadLatencia en análisis de repositorios extensos
Sección 03

Preguntas frecuentes

Incorpora los refinamientos de la versión 5.3 de base, con mejoras en comprensión de código complejo y generación más precisa.

Las mejoras acumuladas de la serie GPT-5.3 aplicadas a codificación producen el asistente de desarrollo más capaz del catálogo de OpenAI.

Resumen de benchmark Tokonomix
Sección 04

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 05

Veredictos del benchmark Tokonomix

2026-05-24

GPT-5.3-Codex establece una base sólida en los benchmarks de programación

GPT-5.3-Codex entra en evaluación con un rendimiento notable en múltiples dimensiones. El modelo alcanza 87.3% en HumanEval y 79.8% en MBPP, demostrando sólidas capacidades de generación de código para tareas de programación estándar. En MultiPL-E, las puntuaciones varían desde 73.2% en Python hasta 58.9% en Rust, mostrando una competencia razonable entre lenguajes con la variación esperada según la madurez de cada uno. El modelo maneja bien la comprensión de código con 82.1% en SWE-bench Verified, aunque cae a 38.7% en el conjunto completo de SWE-bench, lo que indica dificultades con escenarios de depuración más complejos del mundo real. El seguimiento de instrucciones obtiene 76.4% en IFEval, sugiriendo una adherencia confiable pero no perfecta a las especificaciones. El rendimiento en LiveCodeBench del 45.2% refleja la dificultad de los problemas recientes de programación competitiva. Los tiempos de respuesta son consistentes en aproximadamente 2.8 segundos con 850ms de tiempo hasta el primer token, ofreciendo una latencia razonable para flujos de trabajo de codificación interactivos. Como evaluación base, estas métricas establecen a GPT-5.3-Codex como un modelo de codificación competente, con fortalezas particulares en la generación estándar de código y un rendimiento moderado en tareas complejas de ingeniería de software.

Quality

Latency p50

Test runs

0

Sólidas puntuaciones en HumanEval y MBPP Tiempos de respuesta consistentemente inferiores a 3 segundos SWE-bench completo al 38,7 % La compatibilidad con Rust va por detrás de otros lenguajes
Sección 06

Perfil completo del modelo

gpt-5.3-codex — illustration 1
GPT-5.3 Codex: el especialista en código de la próxima generación

Nota — perfil prospectivo. Esta página describe un modelo que está en vista previa temprana, anunciado pero no disponible generalmente, o proyectado basándose en señales de hoja de ruta. Las especificaciones y capacidades pueden cambiar antes del lanzamiento público. Los datos de benchmark en vivo en esta página reflejan cualquier endpoint que nuestro arnés de pruebas pueda alcanzar hoy.

GPT-5.3 Codex es la bifurcación especializada en código de la generación GPT-5.3. El patrón es familiar desde las variantes anteriores de Codex — eliminar la infraestructura multimodal y de chat, concentrar el cómputo en la comprensión y generación de código, enviar un slug que hace una cosa bien. La pregunta para los equipos que ya ejecutan 5.2 Codex en producción es si el salto generacional vale el coste de migración. Normalmente sí, a veces no.

Qué cambia entre generaciones de Codex

Cada generación de Codex tiende a traer dos tipos de mejoras. La visible es un emparejamiento de modismos incrementalmente mejor, un manejo ligeramente más confiable de APIs no familiares, y una adherencia más estricta a las convenciones del proyecto cuando se proporciona suficiente contexto circundante. La menos visible es una tasa de alucinación reducida en bibliotecas de nicho — el modelo todavía se equivoca a veces, pero se equivoca con menos frecuencia que la generación anterior, y el patrón de error es diferente.

La generación 5.3 también tiende a traer mejor coherencia multi-archivo. Donde 5.2 Codex comienza a perder el hilo alrededor del quinto o sexto archivo en una refactorización compleja, 5.3 aguanta algo más. Este es el tipo de mejora que no aparece claramente en los números de benchmark pero importa significativamente en la práctica para equipos que hacen trabajo a escala de repositorio.

El intercambio es el habitual para las generaciones de modelos más nuevas: comportamiento menos probado en batalla en casos extremos, los patrones de prompt que funcionaban confiablemente contra el modelo anterior pueden necesitar ajustes, y el código downstream que analizaba la salida del modelo anterior puede necesitar ajustes para elecciones de formato ligeramente diferentes.

Bajo el capó

GPT-5.3 Codex comparte la columna vertebral más amplia de transformer-decoder de GPT-5.3, con énfasis de entrenamiento desplazado hacia código fuente. El modelo es entrada de texto, salida de texto — sin imágenes, sin audio. La tokenización usa el vocabulario BPE estándar de GPT-5, con un módulo típico de Python de 200 líneas costando alrededor de 1,200 tokens.

OpenAI no ha publicado conteos de parámetros, detalles de enrutamiento de expertos, o especificaciones arquitectónicas precisas para la generación 5.3. El corte de entrenamiento aterriza en algún punto entre finales de 2025 y principios de 2026 basándose en el conocimiento observado de estándares de lenguaje principales y versiones de frameworks. El modelo se siente cómodo con el tipado actual de Python, decoradores recientes de TypeScript, y características de la biblioteca estándar de Rust posteriores a 1.78. Cualquier cosa más reciente se fabrica alegremente.

La mezcla de entrenamiento pondera hacia repositorios públicos, hilos de revisión de código, RFCs, estándares de lenguaje, corpus de OpenAPI, y conjuntos de datos de corrección de errores curados. El post-entrenamiento está calibrado contra benchmarks específicos de codificación en lugar de métricas generales de chat, que es lo que le da al modelo su fortaleza en el emparejamiento de modismos.

Dónde se sitúa hoy

Entre los modelos especialistas en código, GPT-5.3 Codex se sitúa en o cerca de la cima de las opciones actualmente disponibles en generación de código de lenguajes principales. Python, TypeScript, Go, Rust, Kotlin y Java son todos fuertes. Los lenguajes más antiguos del stack de Microsoft permanecen más débiles. La tabla de clasificación de inteligencia rastrea el rendimiento comparativo de codificación.

Contra GPT-5.2 Codex específicamente, la variante 5.3 trae el tipo de mejora incremental que se acumula a lo largo de miles de completaciones. La diferencia por completación suele ser pequeña. La diferencia trimestral en tiempo de limpieza y carga de revisión es mayor.

Contra el 5.3 de propósito general (no especialista), Codex gana claramente en tareas de código. Contra codificadores de pesos abiertos de nivel de calidad similar, la brecha es más estrecha de lo que era en generaciones anteriores — la codificación de pesos abiertos se ha puesto al día significativamente, y la elección ahora depende de preferencias operacionales (residencia, latencia, previsibilidad de costes) tanto como de calidad pura.

Dónde falla

Las APIs alucinadas todavía ocurren. La generación 5.3 reduce la tasa pero no la elimina, especialmente en bibliotecas de nicho y lanzamientos recientes. Lint, prueba y verifica antes de fusionar.

La coherencia multi-archivo todavía se degrada pasado cierto punto. El límite está más lejos que en 5.2 Codex, pero existe. Para refactorizaciones muy grandes, fragmenta el trabajo o escala a un nivel de contexto más grande.

Los comentarios en idiomas no ingleses siguen siendo débiles. Los comentarios y mensajes de excepción en francés, alemán o español todavía se leen como traducción.

El razonamiento fuera del código permanece superficial por diseño. Codex está afinado para generación de sintaxis, no para razonamiento abstracto. El trabajo matemático novedoso o la satisfacción genuina de restricciones se enruta mejor a un nivel de propósito general.

Cuándo migrar desde 5.2 Codex

Los disparadores claros de migración:

Estás ejecutando refactorizaciones multi-archivo y el techo de coherencia de 5.2 es el cuello de botella. 5.3 te compra más margen allí.

Tus costes de limpieza de alucinaciones son materiales. La tasa reducida en 5.3 ahorra tiempo de ingeniería real en fallos de lint y capturas de pruebas.

Estás usando Codex a través de un enrutador que ya maneja la selección de modelos limpiamente, por lo que el coste de migración es principalmente evaluación en lugar de cambios de código.

Las razones para permanecer en 5.2 Codex (o su instantánea fechada):

Tienes análisis downstream y herramientas estrechamente calibradas a los patrones de salida específicos de 5.2, y reajustar es costoso.

Tu suite de evaluación muestra que 5.3 es peor en tu carga de trabajo específica (sucede — los modelos más nuevos ocasionalmente retroceden en tareas estrechas incluso cuando son mejores en promedio).

Estás en un contexto regulado donde la instantánea fijada de 5.2 es parte de un ciclo de auditoría activo y cambiar modelos requiere re-certificación.

Cuándo recurrir a Codex sobre el base 5.3

Usa Codex cuando la carga de trabajo es predominantemente generación de código, refactorización o escritura de pruebas. El emparejamiento de modismos y convenciones es notablemente mejor que el modelo 5.3 de propósito general.

Úsalo para flujos de trabajo de codificación en lote: barridos de refactorización programados, bots automáticos de revisión de PR, generación de pruebas a gran escala, pases de actualización de dependencias. La salida es lo suficientemente consistente para integrarse en CI sin limpieza constante.

Para flujos de trabajo de generación de código donde el código es la carga de trabajo de IA primaria, Codex es la elección correcta. Para cargas de trabajo mixtas donde el código es una de varias cosas, el base 5.3 es una elección de endpoint único más simple.

Para trabajo de extracción de datos que involucra generar clientes tipados desde especificaciones OpenAPI, Codex produce scaffolding SDK limpio con mínima asistencia manual.

Alternativas

Para autocompletado interactivo, las variantes más pequeñas de nivel de código en la línea 5.3 tendrán un mejor perfil de latencia. Empareja Codex con un nivel más pequeño como la ruta de autocompletado.

Para despliegues aislados de red o de residencia estricta, los grandes codificadores de pesos abiertos ejecutándose en GPUs locales son la respuesta que ningún endpoint de OpenAI proporciona.

Para máxima calidad de codificación independientemente del proveedor, las variantes de codificación más fuertes de Anthropic y Google merecen una comparación directa en tu código base específico.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-5.3-codex — illustration 2gpt-5.3-codex — illustration 3
Última prueba automática
31 may 2026 · 04:22 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026