¿Qué diferencia a Opus 4.7 de Opus 4.6?

El salto principal es la ventana de contexto: de 200K a 1M tokens, habilitando casos de uso de análisis a gran escala antes imposibles.

¿Se degrada la calidad con contextos muy largos?

Anthropic ha trabajado en mantener la coherencia a lo largo de contextos extensos, aunque el rendimiento puede variar según la tarea.

¿Es adecuado para análisis de código legado?

Sí, la capacidad de procesar repositorios enteros en una sesión lo hace especialmente útil para auditoría y modernización de código.

Tier B — Producción

Se ejecuta en:USCreado en:United States

Anthropic

Claude Opus 4.7

Tier B — Producción · 1M tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

Claude Opus 4.7 es un modelo de lenguaje grande desarrollado por Anthropic, que representa el nivel de mayor capacidad en la serie Claude 4 de la compañía. Como variante Opus, se posiciona como el modelo más capaz de Anthropic, diseñado para tareas de razonamiento complejo, análisis extendido y aplicaciones que requieren comprensión y generación sofisticada del lenguaje natural. El modelo admite una ventana de contexto de 1 millón de tokens, lo que le permite procesar y mantener coherencia a través de cantidades sustanciales de texto. El modelo realiza tareas estándar de generación de texto que incluyen escritura, análisis, respuesta a preguntas, asistencia de programación y conversaciones de múltiples turnos. Su ventana de contexto extendida lo hace adecuado para aplicaciones que involucran documentos extensos, repositorios de código completos o conversaciones que requieren contexto histórico sustancial. Claude Opus 4.7 se basa en la metodología de entrenamiento de IA constitucional de Anthropic, que enfatiza la utilidad, inocuidad y honestidad en las salidas del modelo. Dentro de la línea de modelos de Anthropic, Opus representa el nivel de rendimiento superior, ofreciendo típicamente capacidades más sólidas en razonamiento, matemáticas, programación y tareas lingüísticas matizadas en comparación con las variantes Sonnet y Haiku de la compañía. La designación numérica 4.7 indica su posición en el desarrollo iterativo de modelos de Anthropic, reflejando mejoras respecto a versiones anteriores en la generación Claude 4. El modelo está diseñado para casos de uso donde la calidad de salida y el razonamiento sofisticado tienen prioridad sobre la velocidad de respuesta o la eficiencia computacional.

Claude Opus 4.7 amplía el contexto a 1 millón de tokens, permitiendo análisis de documentos y conversaciones de escala sin precedentes.
— Resumen de benchmark Tokonomix

Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P95102 runs

Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

100

Multilingüe

Razonamiento

Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Claude Opus 4.7

$5.00 por 1M de tokens de entrada

$25.00 por 1M de tokens de salida

≈ $0.0080 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$5.00

por 1M de tokens de salida$25.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

▼ −67% since first

$25.00

output / 1M

▼ −67% since first

2026-05-242026-06-212026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)149 / avg 154

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

1 millón de tokens de contextoRazonamiento sofisticado de nivel OpusAnálisis de bases de código completasSíntesis de documentos de libro completoInvestigación con múltiples fuentes simultáneasEntrenamiento IA Constitucional AnthropicCoherencia a través de contextos masivos

Debilidades

Latencia mayor en contextos extensosCosto computacional elevadoExcesivo para consultas simplesBeneficio marginal en contextos cortos

Sección 06

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 128000

Sección 07

Preguntas frecuentes

Permite procesar libros completos, grandes repositorios de código o conversaciones con historial muy extenso en una sola sesión de inferencia.

La ventana de 1M tokens abre posibilidades reales para análisis de repositorios completos o síntesis de corpus extensos en una sola sesión.
— Resumen de benchmark Tokonomix

Sección 08

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

—

Últimos 30 días

100.0%

n=1

Tiempo de respuesta mediano

9,583ms

n=1

Basado en 381 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

Respuestas OK (30d)

Total de llamadas (7d)

Respuestas OK (7d)

Sección 09

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-597/100 · 116 runs

114 correct2 partial0 wrong98% accuracy

● 2026-07-26

Mature model with comprehensive multimodal capabilities and stable performance

Claude Opus 4.7 represents a fully-featured release with no benchmark data changes from the previous window, indicating stable performance characteristics. The model maintains its comprehensive capability set including tools, vision, JSON mode, PDF input, reasoning modes, JSON schema support, and prompt caching. This stability suggests Anthropic has reached a mature implementation of these features without further adjustments to the model's core performance profile. Users can expect consistent behavior across all supported modalities. The extensive feature set positions this as a production-ready model for complex workflows requiring multimodal understanding, structured outputs, and advanced reasoning. The lack of benchmark movement could indicate either that the model has reached an optimization plateau or that Anthropic is focusing on stability over incremental improvements. For developers building applications on Claude Opus 4.7, this consistency is valuable for predictable production deployments. The combination of reasoning capabilities with vision and tool use enables sophisticated agent-based applications, while features like prompt caching and JSON schema support facilitate efficient integration into existing systems.

Quality

—

Latency p50

—

Test runs

✓ No performance regressions detected✓ Stable multimodal feature set✗ No benchmark improvements observed

Sección 10

Perfil completo del modelo

Claude Opus 4.7: el razonador de un millón de tokens de Anthropic

Claude Opus 4.7 es el último modelo de la cima de la pila de Anthropic. Ofrece una ventana de contexto de un millón de tokens y la misma superficie de entrada de texto e imagen que la línea Opus ha mantenido desde la versión 4.x. Los precios no están publicados en esta página. Las capacidades, sí.

Si ha trabajado con Opus 4.5 o 4.6, la actualización a 4.7 le resultará familiar antes de que se sienta diferente. Mismo estilo de rechazo, mismo gusto por mostrar el proceso, misma preferencia por respuestas cautelosas cuando el prompt es ambiguo. Lo que cambió está principalmente por debajo: mejor recuperación de información en el extremo largo de la ventana de contexto, formato más ajustado en las llamadas de herramientas y un ritmo ligeramente diferente en la escritura de formato largo que algunos revisores describen como menos hesitante.

Qué aporta realmente el contexto de 1M

Un millón de tokens es suficiente para un expediente de resultados trimestrales completo, un monorepo de tamaño mediano, o los últimos dieciocho meses de Slack de un equipo. Esa es la línea de marketing. La pregunta práctica es si el modelo sigue prestando atención al inicio del buffer una vez que el final está lleno.

En nuestras propias pruebas de recuperación, Opus 4.7 se mantiene bien pasadas las 200k tokens, que es donde la generación anterior comenzaba a olvidar hechos colocados al principio. Más allá de aproximadamente 600k tokens se aprecia cómo la latencia se estira: el tiempo hasta el primer token aumenta notablemente, y los tokens por segundo en streaming caen. Los números detallados varían en cada ciclo; la imagen actualizada está en /benchmarks/speed y /benchmarks/intelligence.

Dos implicaciones prácticas. Primera: la ventana larga es genuinamente utilizable para tareas como la diligencia debida entre documentos y la revisión de código de repositorios completos, no solo un número en la hoja de especificaciones. Segunda: conviene seguir pensando en el caché de prompts para consultas repetidas contra el mismo corpus grande. Recargar 800k tokens de contexto en cada llamada es costoso en tiempo de reloj aunque la llamada a la API misma se complete sin problemas.

Entrada de visión, con advertencias

Opus 4.7 acepta imágenes junto al texto. Es bueno en lo que la línea Opus siempre ha sido buena: leer capturas de pantalla de paneles de control, extraer tablas de PDFs renderizados como imágenes de página, describir diagramas. Es menos impresionante con gráficos densos donde las etiquetas de los ejes son pequeñas, y sigue leyendo mal cifras manuscritas con suficiente frecuencia como para no ponerlo en un bucle sin un humano en el medio.

Para cargas de trabajo de OCR intensivo donde principalmente se quiere texto a partir de imágenes, un modelo más pequeño con capacidad de visión de la familia Claude o Gemini suele hacer el trabajo a una fracción del coste. Reserve Opus 4.7 para los casos en que también necesite que el modelo razone sobre lo que está viendo.

Su posición frente al campo

Opus 4.7 compite con GPT-5, GPT-5.1 y Gemini 3 Pro Preview en la cima de la pila. Elegir entre ellos rara vez es una victoria clara en un único eje.

Algunos patrones se mantienen consistentemente en nuestras pruebas. Opus 4.7 es el más propenso de los tres a rechazar directamente un prompt límite, lo cual es lo que algunos equipos quieren y otros encuentran frustrante. Tiende a sobreexplicar cuando una respuesta de una línea bastaría. En tareas de salida estructurada con un esquema JSON, sigue el esquema de forma fiable sin el campo extra alucinado ocasional que versiones anteriores de Claude introducían. El rendimiento multilingüe —en particular en prosa administrativa alemana, francesa y polaca— ha sido un punto fuerte silencioso de la línea Opus y 4.7 no regresa en eso.

GPT-5.1 sigue sintiéndose más rápido en turnos conversacionales cortos. Gemini 3 Pro Preview está más cerca de la paridad que la generación anterior, pero su patrón de atención en contexto largo es diferente: a veces rinde mejor en un único dato enterrado y peor en la síntesis a través de muchos datos dispersos.

Para una vista de comparación entre categorías, el /benchmarks/leaderboard actualizado es el lugar indicado. La metodología de puntuación y las elecciones de conjuntos de datos están documentadas en /benchmarks/methodology.

Cuándo no es la herramienta adecuada

Generación de código en frameworks de rápida evolución. Opus 4.7 es competente pero conservador; escribe código seguro y verboso donde los competidores de tipo codex escriben código idiomático. Si está autocompletando en un IDE en lugar de producir salida auditada, la diferencia importa. Use una de las encuestas de modelos en /usecases/code para comparar directamente.

Voz y audio en tiempo real. Opus 4.7 no tiene entrada de audio. Combínelo con un modelo de transcripción por delante si necesita voz como entrada, o elija un modelo de la familia audio para el inicio del pipeline. Vea /usecases/voice para ese árbol de decisión.

Clasificación de alto volumen a bajo coste. Enviar millones de prompts cortos a través de un modelo frontier es el gasto con la forma equivocada. Claude Haiku 4.5, Gemini 2.5 Flash o uno de los modelos más pequeños Llama o Mistral alojados en OVH harán esto por una pequeña fracción del presupuesto sin una caída de calidad significativa en tareas simples.

Cualquier cosa que requiera fine-tuning. Anthropic no ofrece fine-tuning supervisado en el tier Opus. Si su flujo de trabajo necesita pesos personalizados —vocabulario de dominio, tono de marca integrado en el modelo— está mirando hacia alternativas de peso abierto, no hacia Opus.

Notas de despliegue

La API es directa. REST, streaming soportado, los prompts de sistema se comportan como se esperaría. Las llamadas de uso de herramientas devuelven resultados limpios y la aplicación del esquema es suficientemente sólida para construir agentes sin necesidad de una capa de parsing defensivo.

La disponibilidad regional es lo que perjudica a los equipos de adquisición europeos. La inferencia de Anthropic corre en infraestructura de Google Cloud y AWS, y la API pública no expone un parámetro de selección de región. Los contratos enterprise pueden negociar cláusulas de residencia, pero la API estándar no le da una ruta de inferencia exclusivamente de la UE garantizada. Para equipos con restricciones de residencia estrictas, un Llama 3.3 70B o una instancia Mistral Small alojada en OVH es una conversación completamente diferente; vea /usecases/local.

Los logs se conservan treinta días por defecto para monitoreo de abusos. Las entradas a la API no se usan para entrenamiento salvo que se acepte explícitamente. La retención cero está disponible pero requiere negociación contractual, no un interruptor de configuración.

Cuándo elegirlo

Use Claude Opus 4.7 cuando necesite un modelo que:

Razone cuidadosamente a través de entradas muy largas sin perder el hilo.
Produzca salida estructurada de forma fiable.
Gestione texto administrativo y legal en lenguas europeas sin anglificar la terminología.
Por defecto responda "No estoy seguro" en lugar de inventar con confianza cuando el prompt no contiene la respuesta.

No lo use cuando necesite latencia en tiempo real, coste inferior a un centavo por llamada, entrada de audio nativa o pesos auto-alojados que pueda ejecutar dentro de su propio perímetro.

El resumen honesto: 4.7 es un refinamiento de un modelo ya sólido, no un cambio de escala. Si ya usa Opus 4.5 o 4.6 en producción, la migración merece la pena por las mejoras de contexto largo. Si elige un modelo frontier desde cero, pruébelo frente a GPT-5.1 y Gemini 3 Pro Preview con sus propios prompts: la elección correcta depende más de lo que le pide al modelo que de cualquier número de benchmark.

Pruebe la comparación usted mismo en /live-test. Mismo prompt, tres modelos, uno junto al otro. Sin registro.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

30 jul 2026 · 14:04 UTC · Benchmark de velocidad

Latencia P50

1345 ms

Latencia P95

1680 ms

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026