Ir al contenido
Tier B — Producción
Se ejecuta en:USCreado en:United States
Anthropic

Claude Opus 4.7

Tier B — Producción · 1M tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Claude Opus 4.7 es un modelo de lenguaje grande desarrollado por Anthropic, que representa el nivel de mayor capacidad en la serie Claude 4 de la compañía. Como variante Opus, se posiciona como el modelo más capaz de Anthropic, diseñado para tareas de razonamiento complejo, análisis extendido y aplicaciones que requieren comprensión y generación sofisticada del lenguaje natural. El modelo admite una ventana de contexto de 1 millón de tokens, lo que le permite procesar y mantener coherencia a través de cantidades sustanciales de texto. El modelo realiza tareas estándar de generación de texto que incluyen escritura, análisis, respuesta a preguntas, asistencia de programación y conversaciones de múltiples turnos. Su ventana de contexto extendida lo hace adecuado para aplicaciones que involucran documentos extensos, repositorios de código completos o conversaciones que requieren contexto histórico sustancial. Claude Opus 4.7 se basa en la metodología de entrenamiento de IA constitucional de Anthropic, que enfatiza la utilidad, inocuidad y honestidad en las salidas del modelo. Dentro de la línea de modelos de Anthropic, Opus representa el nivel de rendimiento superior, ofreciendo típicamente capacidades más sólidas en razonamiento, matemáticas, programación y tareas lingüísticas matizadas en comparación con las variantes Sonnet y Haiku de la compañía. La designación numérica 4.7 indica su posición en el desarrollo iterativo de modelos de Anthropic, reflejando mejoras respecto a versiones anteriores en la generación Claude 4. El modelo está diseñado para casos de uso donde la calidad de salida y el razonamiento sofisticado tienen prioridad sobre la velocidad de respuesta o la eficiencia computacional.

Claude Opus 4.7 amplía el contexto a 1 millón de tokens, permitiendo análisis de documentos y conversaciones de escala sin precedentes.

Resumen de benchmark Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9597 runs
147798515824236623150005-2206-15ms
Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
99
Multilingüe
100
Razonamiento
Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Claude Opus 4.7
$5.00 por 1M de tokens de entrada
$25.00 por 1M de tokens de salida
≈ $0.0080 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$5.00
por 1M de tokens de salida$25.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$5.00

input / 1M

— stable

$25.00

output / 1M

— stable

2026-05-242026-05-312026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)127 / avg 211
13425

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

1 millón de tokens de contextoRazonamiento sofisticado de nivel OpusAnálisis de bases de código completasSíntesis de documentos de libro completoInvestigación con múltiples fuentes simultáneasEntrenamiento IA Constitucional AnthropicCoherencia a través de contextos masivos

Debilidades

Latencia mayor en contextos extensosCosto computacional elevadoExcesivo para consultas simplesBeneficio marginal en contextos cortos
Sección 06

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 128000
Sección 07

Preguntas frecuentes

Permite procesar libros completos, grandes repositorios de código o conversaciones con historial muy extenso en una sola sesión de inferencia.

La ventana de 1M tokens abre posibilidades reales para análisis de repositorios completos o síntesis de corpus extensos en una sola sesión.

Resumen de benchmark Tokonomix
Sección 08

Disponibilidad

Disponibilidad

Con qué frecuencia responde este modelo cuando lo llamamos — medido en solicitudes reales de API y pruebas en vivo durante los últimos 30 días. Esto es independiente de la calidad: estos números solo indican si el modelo responde, no qué tan buena es la respuesta.

Últimos 7 días

100.0%

n=1

Últimos 30 días

100.0%

n=1

Tiempo de respuesta mediano

40,367ms

n=1

Basado en 69 mediciones en los últimos 30 días.

Detalles técnicos

Solo cuentan las llamadas reales a la API y las solicitudes de prueba en vivo — las sondas internas y las ejecuciones de referencia están excluidas.

Las llamadas con una clave API propia (BYOK) están excluidas: esos fallos son específicos de la clave, no una señal de inactividad del modelo.

Las llamadas fallidas NO se incluyen en las puntuaciones de calidad — la calidad se mide solo en respuestas exitosas. Disponibilidad y calidad son señales independientes.

Tiempo de respuesta mediano (p50) en llamadas exitosas con una duración registrada. Los valores atípicos afectan menos a la mediana que a la media.

Total de llamadas (30d)

1

Respuestas OK (30d)

1

Total de llamadas (7d)

1

Respuestas OK (7d)

1

Sección 09

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-596/100 · 76 runs
74 correct2 partial0 wrong97% accuracy
2026-06-14

Stability window with no benchmark data or capability changes detected

Claude Opus 4.7 enters this benchmark window with no new performance data available and no detected capability changes from the previous period. The model maintains its existing feature set including tools, vision, JSON mode, PDF input, reasoning, JSON schema, and prompt caching capabilities that were added in earlier updates. Without current benchmark results, it's not possible to assess performance trends, quality metrics, or comparative standing against other models in the field. Users should continue to rely on the previous benchmark window's findings for performance expectations. The absence of new data may indicate either a stable release period without updates or a gap in benchmark coverage. Organizations currently using Claude Opus 4.7 should not expect functional changes during this window. The model's established capabilities remain available, but performance characterization requires waiting for the next benchmark cycle with actual test results. Users evaluating this model should consult historical benchmark data and consider that real-world performance patterns may have shifted since the last measurement period.

Quality

Latency p50

Test runs

0

No benchmark data available Performance trends unknown
Sección 10

Perfil completo del modelo

Claude Opus 4.7 — illustration 1
Claude Opus 4.7: el razonador de un millón de tokens de Anthropic

Claude Opus 4.7 es el último modelo de la cima de la pila de Anthropic. Ofrece una ventana de contexto de un millón de tokens y la misma superficie de entrada de texto e imagen que la línea Opus ha mantenido desde la versión 4.x. Los precios no están publicados en esta página. Las capacidades, sí.

Si ha trabajado con Opus 4.5 o 4.6, la actualización a 4.7 le resultará familiar antes de que se sienta diferente. Mismo estilo de rechazo, mismo gusto por mostrar el proceso, misma preferencia por respuestas cautelosas cuando el prompt es ambiguo. Lo que cambió está principalmente por debajo: mejor recuperación de información en el extremo largo de la ventana de contexto, formato más ajustado en las llamadas de herramientas y un ritmo ligeramente diferente en la escritura de formato largo que algunos revisores describen como menos hesitante.

Qué aporta realmente el contexto de 1M

Un millón de tokens es suficiente para un expediente de resultados trimestrales completo, un monorepo de tamaño mediano, o los últimos dieciocho meses de Slack de un equipo. Esa es la línea de marketing. La pregunta práctica es si el modelo sigue prestando atención al inicio del buffer una vez que el final está lleno.

En nuestras propias pruebas de recuperación, Opus 4.7 se mantiene bien pasadas las 200k tokens, que es donde la generación anterior comenzaba a olvidar hechos colocados al principio. Más allá de aproximadamente 600k tokens se aprecia cómo la latencia se estira: el tiempo hasta el primer token aumenta notablemente, y los tokens por segundo en streaming caen. Los números detallados varían en cada ciclo; la imagen actualizada está en /benchmarks/speed y /benchmarks/intelligence.

Dos implicaciones prácticas. Primera: la ventana larga es genuinamente utilizable para tareas como la diligencia debida entre documentos y la revisión de código de repositorios completos, no solo un número en la hoja de especificaciones. Segunda: conviene seguir pensando en el caché de prompts para consultas repetidas contra el mismo corpus grande. Recargar 800k tokens de contexto en cada llamada es costoso en tiempo de reloj aunque la llamada a la API misma se complete sin problemas.

Entrada de visión, con advertencias

Opus 4.7 acepta imágenes junto al texto. Es bueno en lo que la línea Opus siempre ha sido buena: leer capturas de pantalla de paneles de control, extraer tablas de PDFs renderizados como imágenes de página, describir diagramas. Es menos impresionante con gráficos densos donde las etiquetas de los ejes son pequeñas, y sigue leyendo mal cifras manuscritas con suficiente frecuencia como para no ponerlo en un bucle sin un humano en el medio.

Para cargas de trabajo de OCR intensivo donde principalmente se quiere texto a partir de imágenes, un modelo más pequeño con capacidad de visión de la familia Claude o Gemini suele hacer el trabajo a una fracción del coste. Reserve Opus 4.7 para los casos en que también necesite que el modelo razone sobre lo que está viendo.

Su posición frente al campo

Opus 4.7 compite con GPT-5, GPT-5.1 y Gemini 3 Pro Preview en la cima de la pila. Elegir entre ellos rara vez es una victoria clara en un único eje.

Algunos patrones se mantienen consistentemente en nuestras pruebas. Opus 4.7 es el más propenso de los tres a rechazar directamente un prompt límite, lo cual es lo que algunos equipos quieren y otros encuentran frustrante. Tiende a sobreexplicar cuando una respuesta de una línea bastaría. En tareas de salida estructurada con un esquema JSON, sigue el esquema de forma fiable sin el campo extra alucinado ocasional que versiones anteriores de Claude introducían. El rendimiento multilingüe —en particular en prosa administrativa alemana, francesa y polaca— ha sido un punto fuerte silencioso de la línea Opus y 4.7 no regresa en eso.

GPT-5.1 sigue sintiéndose más rápido en turnos conversacionales cortos. Gemini 3 Pro Preview está más cerca de la paridad que la generación anterior, pero su patrón de atención en contexto largo es diferente: a veces rinde mejor en un único dato enterrado y peor en la síntesis a través de muchos datos dispersos.

Para una vista de comparación entre categorías, el /benchmarks/leaderboard actualizado es el lugar indicado. La metodología de puntuación y las elecciones de conjuntos de datos están documentadas en /benchmarks/methodology.

Cuándo no es la herramienta adecuada

Generación de código en frameworks de rápida evolución. Opus 4.7 es competente pero conservador; escribe código seguro y verboso donde los competidores de tipo codex escriben código idiomático. Si está autocompletando en un IDE en lugar de producir salida auditada, la diferencia importa. Use una de las encuestas de modelos en /usecases/code para comparar directamente.

Voz y audio en tiempo real. Opus 4.7 no tiene entrada de audio. Combínelo con un modelo de transcripción por delante si necesita voz como entrada, o elija un modelo de la familia audio para el inicio del pipeline. Vea /usecases/voice para ese árbol de decisión.

Clasificación de alto volumen a bajo coste. Enviar millones de prompts cortos a través de un modelo frontier es el gasto con la forma equivocada. Claude Haiku 4.5, Gemini 2.5 Flash o uno de los modelos más pequeños Llama o Mistral alojados en OVH harán esto por una pequeña fracción del presupuesto sin una caída de calidad significativa en tareas simples.

Cualquier cosa que requiera fine-tuning. Anthropic no ofrece fine-tuning supervisado en el tier Opus. Si su flujo de trabajo necesita pesos personalizados —vocabulario de dominio, tono de marca integrado en el modelo— está mirando hacia alternativas de peso abierto, no hacia Opus.

Notas de despliegue

La API es directa. REST, streaming soportado, los prompts de sistema se comportan como se esperaría. Las llamadas de uso de herramientas devuelven resultados limpios y la aplicación del esquema es suficientemente sólida para construir agentes sin necesidad de una capa de parsing defensivo.

La disponibilidad regional es lo que perjudica a los equipos de adquisición europeos. La inferencia de Anthropic corre en infraestructura de Google Cloud y AWS, y la API pública no expone un parámetro de selección de región. Los contratos enterprise pueden negociar cláusulas de residencia, pero la API estándar no le da una ruta de inferencia exclusivamente de la UE garantizada. Para equipos con restricciones de residencia estrictas, un Llama 3.3 70B o una instancia Mistral Small alojada en OVH es una conversación completamente diferente; vea /usecases/local.

Los logs se conservan treinta días por defecto para monitoreo de abusos. Las entradas a la API no se usan para entrenamiento salvo que se acepte explícitamente. La retención cero está disponible pero requiere negociación contractual, no un interruptor de configuración.

Cuándo elegirlo

Use Claude Opus 4.7 cuando necesite un modelo que:

  • Razone cuidadosamente a través de entradas muy largas sin perder el hilo.
  • Produzca salida estructurada de forma fiable.
  • Gestione texto administrativo y legal en lenguas europeas sin anglificar la terminología.
  • Por defecto responda "No estoy seguro" en lugar de inventar con confianza cuando el prompt no contiene la respuesta.

No lo use cuando necesite latencia en tiempo real, coste inferior a un centavo por llamada, entrada de audio nativa o pesos auto-alojados que pueda ejecutar dentro de su propio perímetro.

El resumen honesto: 4.7 es un refinamiento de un modelo ya sólido, no un cambio de escala. Si ya usa Opus 4.5 o 4.6 en producción, la migración merece la pena por las mejoras de contexto largo. Si elige un modelo frontier desde cero, pruébelo frente a GPT-5.1 y Gemini 3 Pro Preview con sus propios prompts: la elección correcta depende más de lo que le pide al modelo que de cualquier número de benchmark.

Pruebe la comparación usted mismo en /live-test. Mismo prompt, tres modelos, uno junto al otro. Sin registro.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Claude Opus 4.7 — illustration 2Claude Opus 4.7 — illustration 3
Última prueba automática
15 jun 2026 · 08:00 UTC · Benchmark de velocidad
Latencia P50
1574 ms
Latencia P95
4882 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026