¿Es adecuado para automatización de servicio al cliente?

Sí, combina buena comprensión contextual con velocidad aceptable para escenarios de soporte automatizado.

¿Cómo se compara con Sonnet 4?

Representa mejoras incrementales en calidad de respuesta y seguimiento de instrucciones sobre la versión anterior.

¿Puede procesar historiales de conversación largos?

Sí, los 200K tokens permiten mantener contexto en conversaciones extendidas o análisis de documentos largos.

Tier B — Producción

Se ejecuta en:USCreado en:United States

Anthropic

Claude Sonnet 4.5

Tier B — Producción · 200K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

Claude Sonnet 4.5 es un modelo de lenguaje de gran escala desarrollado por Anthropic, lanzado como parte de la familia de modelos Claude 3.5. Representa una mejora iterativa respecto a versiones anteriores de Sonnet, manteniendo el equilibrio entre rendimiento y eficiencia que caracteriza al nivel Sonnet dentro de la oferta de productos de Anthropic. El modelo está diseñado para tareas de generación de texto de propósito general, incluyendo análisis, creación de contenido, asistencia en programación e interacciones conversacionales. El modelo cuenta con una ventana de contexto de 200,000 tokens, lo que le permite procesar y mantener coherencia en grandes volúmenes de texto durante una sola conversación o sesión de análisis documental. Claude Sonnet 4.5 admite entradas y salidas estándar basadas en texto, sin capacidades multimodales nativas para el procesamiento de imágenes o audio. Su arquitectura prioriza el seguimiento de instrucciones, la precisión factual y el mantenimiento de límites apropiados en sus respuestas. Dentro de la jerarquía de modelos de Anthropic, Sonnet ocupa la posición intermedia entre los modelos Haiku, más rápidos y rentables, y el nivel Opus, más capaz pero intensivo en recursos. Este posicionamiento hace que Claude Sonnet 4.5 sea adecuado para aplicaciones que requieren un rendimiento confiable en tareas diversas sin la carga computacional de los modelos insignia. El modelo es accesible a través de la API de Anthropic y plataformas asociadas seleccionadas, atendiendo casos de uso que van desde la automatización del servicio al cliente hasta la asistencia en desarrollo de software y el análisis de documentos en contextos empresariales y de desarrolladores individuales.

Prueba Claude Sonnet 4.5 con tus propias preguntas

Claude Sonnet 4.5 es una mejora iterativa sobre versiones anteriores de Sonnet, manteniendo el equilibrio característico entre capacidad y eficiencia.
— Resumen de benchmark Tokonomix

Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P95101 runs

Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

100

Multilingüe

100

Razonamiento

Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Claude Sonnet 4.5

$3.00 por 1M de tokens de entrada

$15.00 por 1M de tokens de salida

≈ $0.0048 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$3.00

por 1M de tokens de salida$15.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$3.00

input / 1M

— stable

$15.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)50 / avg 125

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Equilibrio capacidad-velocidad probado200K tokens de contextoAlta precisión en seguimiento de instruccionesAsistencia en desarrollo de softwareGeneración de contenido versátilLímites de seguridad bien definidos

Debilidades

Inferior a Opus en razonamiento complejoSin procesamiento multimodal nativoMayor latencia que modelos Haiku

Sección 06

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000

Sección 07

Preguntas frecuentes

Ocupa el nivel medio entre Haiku (rápido) y Opus (máxima capacidad), siendo la opción equilibrada para uso general.

La opción equilibrada para producción cuando se necesita rendimiento consistente en tareas diversas sin la latencia de Opus.
— Resumen de benchmark Tokonomix

Sección 08

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 09

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-596/100 · 116 runs

113 correct3 partial0 wrong97% accuracy

● 2026-07-26

Quality decline driven by significant factual performance regression

Claude Sonnet 4.5 experienced a notable 8.9 point drop in overall quality, falling from 97.0 to 88.1. This decline is primarily attributed to a substantial regression in factual accuracy, which scored just 57 compared to the model's previously strong performance across all categories. The factual score represents a significant weakness that users should carefully consider for knowledge-intensive applications. Despite this setback, the model demonstrates exceptional performance in several areas. Multilingual capabilities remain outstanding at 100, showing slight improvement over the previous 99. Reasoning tasks also achieved a perfect 100 score, indicating strong logical and analytical abilities. Creative performance improved to 96 from 92, suggesting enhanced generative capabilities. Latency showed marginal improvement, with p50 dropping from 6567ms to 6125ms, providing faster response times. However, it's worth noting that the benchmark categories shifted between windows, with coding performance no longer separately reported in the current evaluation period. Users should weigh the model's strengths in reasoning, multilingual support, and creative tasks against the concerning factual accuracy regression. Applications requiring reliable factual knowledge may need additional verification layers until this performance gap is addressed.

Quality

88.1

Latency p50

6,125 ms

Test runs

✗ Quality dropped 8.9 points✗ Factual accuracy fell to 57✓ Perfect reasoning and multilingual scores✓ Latency improved by 442ms

Sección 10

Perfil completo del modelo

Claude Sonnet 4.5: el tier medio de producción que se ganó su lugar

Claude Sonnet 4.5 (claude-sonnet-4-5-20250929) es la instantánea Sonnet de finales de septiembre de 2025. Doscientos mil tokens de ventana de contexto. Entrada de texto e imagen. El modelo de tier medio que el mayor grupo de despliegues Claude en producción terminó ejecutando.

El encuadre que mejor le aplica a esta instantánea: Sonnet 4.5 es lo que los equipos eligen cuando han mirado Opus y decidido que la calidad de razonamiento es más de lo que realmente necesitan, y han mirado Haiku y decidido que la profundidad es menos de lo que quieren. Se sitúa en el medio deliberadamente y cumple bien ese papel.

Por qué esta instantánea se impuso

En 4.5 coincidieron varias mejoras que lo convirtieron en el objetivo predeterminado de actualización para equipos que usaban Sonnet 4.0:

Adherencia más limpia al esquema JSON. Las instantáneas Sonnet anteriores ocasionalmente desviaban en nombres de campos con esquemas anidados complejos. 4.5 respeta el contrato de forma fiable.
Postura de rechazo más ajustada. El modelo rechaza prompts límite con el mismo estilo de razonamiento que Opus en lugar de la postura ligeramente diferente que mostraban las instantáneas Sonnet anteriores.
Gestión del prompt de sistema más predecible. Cuando el prompt del sistema y el prompt del usuario entran en conflicto, 4.5 pondera ambos en lugar de priorizar silenciosamente uno sobre el otro.
Mejor coherencia en la salida de formato largo. Las respuestas de múltiples párrafos se mantienen sin la auto-repetición hacia la que las instantáneas Sonnet anteriores a veces derivaban.

Nada de eso son titulares de benchmark. Todo ello importa cuando se ejecuta un bucle de agente o un pipeline de extracción estructurada y se cuentan fallos por cada diez mil solicitudes.

Qué aporta la ventana de 200k

Doscientos mil tokens son suficientes para una base de código sustancial, un largo informe trimestral o un expediente de diligencia debida de múltiples documentos. Sonnet 4.5 mantiene la atención razonablemente a lo largo de la mayor parte del buffer, con la advertencia habitual de que la calidad de recuperación de información se desvanece algo en la parte central de entradas muy largas.

Si su carga de trabajo supera regularmente los 150k tokens de entrada, tiene dos opciones prácticas. Quedarse en 4.5 y usar patrones de ingeniería de prompts para mantener el modelo anclado —repetir la pregunta al final del contexto, estructurar la entrada con encabezados de sección claros—. O migrar a Sonnet 4.6, que ofrece una ventana de un millón de tokens con una atención en profundidad notablemente mejor. La imagen de latencia actualizada está en /benchmarks/speed.

Visión que cumple su función

Las capacidades de visión en 4.5 funcionan para las tareas estándar de lectura de documentos. Capturas de pantalla, PDFs escaneados renderizados como imágenes de página, capturas de paneles de control, diagramas. La extracción de tablas es limpia. Los gráficos con tamaños de etiqueta razonables se describen con precisión.

La escritura manuscrita es el punto débil. Lo mismo ocurre con las figuras científicas densas con etiquetas pequeñas. Todo aquello en que un humano necesitaría hacer zoom para leer la fuente se beneficia de un paso de verificación humana en el bucle.

El stack de visión es compartido por toda la línea 4.x. Si se evalúa Sonnet 4.5 frente a Opus 4.5 o Haiku 4.5 específicamente para visión, se puede esperar un comportamiento similar con el gradiente de calidad habitual por tier.

Su posición frente al campo

El panorama competitivo honesto de Sonnet 4.5 a mediados de 2026:

Frente a instantáneas Sonnet de Anthropic más recientes: Sonnet 4.6 es el objetivo natural de actualización. Lleva la misma superficie de entrada, más una ventana de contexto de un millón de tokens y refinamientos incrementales al pulido del uso de herramientas. Para cargas de trabajo que encajan dentro de los 200k tokens, la elección es principalmente operacional en lugar de basada en capacidad.

Frente a GPT-5 de tier medio y Gemini 2.5 Pro: Sonnet 4.5 intercambia victorias por categoría. Gana en consistencia de rechazos, prosa administrativa en lenguas europeas, fiabilidad de salida estructurada. Pierde en velocidad bruta para turnos conversacionales cortos y en entrada multimodal nativa más allá de imágenes.

Para una comparación directa, /benchmarks/leaderboard mantiene la imagen actualizada y las puntuaciones por categoría se desglosan en /benchmarks/intelligence.

Cuándo no es la herramienta adecuada

Clasificación barata de alto volumen. La computación de tier medio es un gasto con la forma equivocada para enviar millones de prompts cortos. Claude Haiku 4.5 o Gemini 2.5 Flash hace este trabajo a un nivel de coste diferente sin pérdida de calidad significativa en tareas simples.

Voz en tiempo real. Sonnet 4.5 no tiene entrada de audio. La guía de pipeline de voz en /usecases/voice cubre la arquitectura correcta.

Cargas de trabajo que genuinamente necesitan razonamiento de la cima de la pila. Si la tarea implica razonamiento formal de múltiples pasos, refactorización de código compleja en grandes bases de código, o síntesis cuidadosa a través de muchos documentos, el tier Opus es la opción correcta. Sonnet 4.5 es bueno; Opus es mejor para esos casos específicos.

Generación de código en frameworks de rápida evolución donde se quiere una salida idiomática. El modelo es competente pero conservador. Para trabajo ajustado al IDE, la encuesta en /usecases/code compara las opciones.

Despliegue auto-alojado o fine-tuning. Anthropic no distribuye pesos y no ofrece fine-tuning supervisado en el tier Sonnet. Las opciones de peso abierto para estas restricciones se analizan en /usecases/local.

Notas de despliegue

API estándar de Anthropic. REST. Streaming. Los prompts de sistema se comportan de manera predecible. La calidad de las llamadas de uso de herramientas es suficientemente alta para construir agentes de producción sin necesidad de parsing defensivo.

El panorama de residencia de datos es el mismo que el del resto de la línea Claude. La inferencia corre en AWS y Google Cloud, y la API pública no expone un parámetro de selección de región. La residencia en la UE requiere negociación de contrato enterprise, no un interruptor de configuración. Para restricciones estrictas de residencia, explore las alternativas alojadas en OVH.

Los logs se conservan treinta días por defecto para monitoreo de abusos. Las entradas no se usan para entrenamiento salvo que se acepte explícitamente. La retención cero es un elemento del contrato enterprise.

Cuándo elegirlo

Use Claude Sonnet 4.5 cuando:

Quiera la instantánea Sonnet más reforzada para producción en lugar de la más reciente.
La carga de trabajo encaje dentro de los 200k tokens de contexto.
La fiabilidad de salida estructurada y la consistencia de rechazos importen a su diseño.
Procese prosa administrativa o legal en lenguas europeas donde la fidelidad terminológica cuente.

Elija otra opción cuando:

Necesite regularmente más de 200k tokens de contexto. Migre a Sonnet 4.6.
Necesite razonamiento de nivel frontier. Suba a Opus.
Necesite un coste por llamada inferior a un centavo. Baje a Haiku.
El audio, la voz o el vídeo formen parte de la carga de trabajo.

El resumen: Sonnet 4.5 es la elección de tier medio segura para producción. Las instantáneas más recientes son más capaces en el límite de vanguardia, pero 4.5 es la que la mayoría de los equipos elegirán y a la que la mayoría tendrán razón en elegir.

Pruébelo frente a las alternativas actuales con sus propios prompts en /live-test. Mismo prompt, múltiples modelos, uno junto al otro.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

30 jul 2026 · 08:05 UTC · Benchmark de velocidad

Latencia P50

4022 ms

Latencia P95

8369 ms

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026