
Nota — instantánea heredada. Claude Opus 4 (
claude-opus-4-20250514) es el lanzamiento de mayo de 2025 que abrió la generación 4.x. Los equipos en producción que elijan un Opus hoy deben comparar con Opus 4.5, 4.6 y 4.7. Esta página existe para planificación de migraciones y referencia histórica.
Claude Opus 4 fue el primer modelo en el linaje 4.x de Anthropic. Doscientos mil tokens de ventana de contexto. Entrada de texto e imagen. El estilo de razonamiento que definió la familia: cuidadoso, explícito, reacio a inventar cuando el prompt es ambiguo, con tendencia a exponer los pasos antes de comprometerse con una respuesta.
En su lanzamiento ocupó la cima de la oferta de Anthropic y se mantuvo frente a la generación GPT-4 que estaba diseñado para desplazar. Un año después, el panorama es diferente.
Por qué sigue apareciendo en este sitio
La mayoría de los equipos han migrado hacia adelante, pero algunas situaciones mantienen instantáneas Opus antiguas en uso activo:
- Suites de evaluación ancladas que necesitan un comportamiento estable del modelo durante largos ciclos de benchmarking.
- Pipelines de cumplimiento auditados contra la salida de Opus 4 que aún no han sido re-auditados para una instantánea más reciente.
- Flujos de trabajo que distribuyen la carga entre múltiples versiones de Opus para gestionar los límites de tasa por tier.
- Investigación que estudia explícitamente la evolución 4.x y necesita el 4.0 original como referencia.
Si no se está en ninguna de esas situaciones, trate esta página como lectura de fondo y elija un modelo actual.
Qué hace bien
Opus 4 trasladó el legado de la IA constitucional de forma limpia. Los rechazos son coherentes y explicables. La salida estructurada es fiable: los esquemas JSON se respetan, las llamadas de uso de herramientas devuelven payloads limpios. La prosa administrativa multilingüe se gestiona con el mismo cuidado en alemán, francés, neerlandés y las lenguas nórdicas. La fortaleza en lenguas europeas ha sido un hilo conductor silencioso de toda la familia Opus.
La entrada de visión funciona para las tareas estándar de lectura de documentos. Capturas de pantalla de paneles de control, formularios escaneados, PDFs renderizados como imágenes de página. El modelo razona sobre lo que ve en lugar de simplemente transcribirlo. Esa distinción era menos común en el momento del lanzamiento que ahora.
Qué hace mal
Retención de contexto largo. La ventana de 200k es real, pero la calidad de atención se desvanece en la parte central de los buffers largos. La recuperación de información enterrada era mediocre en el lanzamiento y ha sido superada por cada instantánea Opus que Anthropic publicó después. Si su carga de trabajo depende de hechos enterrados al inicio de una entrada de 150k tokens, busque otra opción.
Velocidad. Opus 4 era el tier más lento cuando se lanzó y la brecha no ha cerrado a su favor. El tiempo hasta el primer token aumenta rápidamente con prompts más largos. La imagen de latencia actualizada está en /benchmarks/speed.
Generación de código en frameworks de rápida evolución. El modelo escribe código verboso y defensivo donde los frontiers actuales escriben una salida más idiomática. Para trabajo de codificación ajustado al IDE, la encuesta de modelos en /usecases/code cubre las alternativas.
Su posición frente al campo actual
Frente a los modelos insignia más recientes de Anthropic —Opus 4.5, 4.6, 4.7— la versión 4.0 queda por detrás en todas las categorías rastreadas en /benchmarks/intelligence. Opus 4.7 en particular ofrece una ventana de contexto de un millón de tokens y una atención en profundidad notablemente mejor.
Frente al resto del frontier a mediados de 2026: GPT-5 y Gemini 3 Pro Preview superan a Opus 4.0 en la mayoría de las categorías de benchmark publicadas. Esa brecha era prácticamente nula cuando se lanzó 4.0. El frontier ha avanzado.
Si se elige un modelo desde cero en 2026, no hay ninguna razón de calidad para comenzar con Opus 4.0. El panorama completo por categorías está en /benchmarks/leaderboard.
Rutas de migración
Las actualizaciones directas:
- Misma ventana de contexto, comportamiento similar: Opus 4.5. Los equipos en producción reportan compatibilidad directa para la mayoría de las cargas de trabajo tras una breve ejecución de tráfico en sombra.
- Ventana de contexto más grande: Opus 4.7 ofrece un millón de tokens con la atención de contexto largo más sólida de la línea Claude.
- Sensible al coste: Sonnet 4.5 o 4.6 cubre gran parte del mismo terreno a un tier diferente. Vale la pena ejecutar sus propias evaluaciones.
La regla honesta: las brechas del frontier medidas en benchmarks públicos rara vez coinciden con las que verá en sus propios prompts. Ejecute el candidato contra su propio conjunto de evaluación antes de comprometerse.
Notas de despliegue
API estándar de Anthropic. REST. Streaming. Los prompts de sistema se comportan como se espera. El uso de herramientas es suficientemente fiable para construir agentes sin necesidad de parsing defensivo.
La residencia de datos en la UE es el punto de fricción recurrente. La inferencia de Anthropic corre en AWS y Google Cloud, y la API pública no expone un parámetro de selección de región para Opus 4.0 ni para ningún otro modelo Claude. De serie, no se puede fijar la inferencia exclusivamente en la UE. Los contratos enterprise pueden negociar cláusulas de residencia; la superficie pública no puede. Los equipos con restricciones estrictas de residencia deben consultar la encuesta de pesos abiertos en /usecases/local.
Los logs se conservan treinta días para monitoreo de abusos. Las entradas no se usan para entrenamiento salvo que se acepte explícitamente. La retención cero es una negociación contractual, no un interruptor de configuración.
Cuándo la respuesta correcta es quedarse en 4.0
La sobrecarga de auditoría es la razón más común. Si tiene un pipeline regulado con comportamiento del modelo documentado, una migración no es solo un cambio de configuración. Es una re-auditoría, re-validación, posiblemente una re-certificación. El coste de ese trabajo tiene que superar el umbral de "este modelo es significativamente mejor para nuestra carga de trabajo".
La investigación con instantáneas ancladas es el otro caso común. Un estudio que compara el comportamiento de razonamiento de 4.0, 4.5, 4.6 y 4.7 necesita 4.0 como punto de referencia. Anthropic mantiene disponibles las instantáneas con fecha exactamente por esta razón.
Para nuevas construcciones, ninguna de las dos situaciones aplica, y una revisión Opus actual es el punto de partida correcto.
Cuándo elegirlo
Use Claude Opus 4 cuando:
- Tenga una integración auditada existente sobre él.
- Necesite una instantánea anclada para comparación o investigación.
- Una migración a una revisión Opus actual no esté genuinamente justificada todavía.
Elija otra opción cuando:
- Esté eligiendo un modelo desde cero en 2026.
- La carga de trabajo dependa de la atención de contexto largo en profundidad.
- La latencia, el coste o la generación de código sólida importen más que el estilo de razonamiento.
- Necesite algo fuera de texto e imagen: audio, voz, vídeo, embeddings.
Pruebe Opus 4 frente a los frontiers actuales en /live-test. Las diferencias son más claras cuando se observa el mismo prompt resuelto uno junto al otro.
Última revisión técnica: 2026-05-22 — Tokonomix.ai

