Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
Anthropic

Claude Sonnet 4

Tier C — Especialista · 200K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Claude Sonnet 4 es un modelo de lenguaje grande desarrollado por Anthropic, lanzado como parte de la familia de modelos Claude 3.5 a finales de 2024. Representa una oferta de gama media diseñada para equilibrar un rendimiento sólido en tareas generales de generación de texto con un uso eficiente de recursos. El modelo cuenta con una ventana de contexto de 200.000 tokens, lo que le permite procesar y mantener la coherencia en documentos extensos, conversaciones prolongadas e interacciones complejas de múltiples turnos. Este modelo está diseñado para cargas de trabajo estándar de generación de texto, incluyendo creación de contenido, análisis, resumen, respuesta a preguntas y aplicaciones conversacionales. Demuestra competencia en tareas de programación, razonamiento matemático y síntesis de conocimiento multidominio. Claude Sonnet 4 procesa entrada y salida de texto, sin soporte nativo para entradas de imagen o multimodales en su configuración estándar. Dentro de la línea de modelos de Anthropic, Claude Sonnet 4 se sitúa entre el nivel Opus, más exigente computacionalmente, y las variantes más ligeras Haiku. Se posiciona como una opción de propósito general para desarrolladores y organizaciones que buscan capacidades fiables de modelos de lenguaje sin requerir el máximo rendimiento de los modelos insignia. El modelo implementa la metodología de entrenamiento Constitutional AI de Anthropic, que enfatiza la utilidad, la inocuidad y la honestidad en sus respuestas. Sucede a versiones anteriores de la serie Sonnet con mejoras en las capacidades de razonamiento, seguimiento de instrucciones y calidad de salida en diversos tipos de tareas.

Claude Sonnet 4 equilibra rendimiento y eficiencia con 200K tokens de contexto, siendo la opción de uso general de Anthropic para 2024.

Resumen de benchmark Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9597 runs
1553065597488841179305-2206-15ms
Sección 02

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
99
Multilingüe
100
Razonamiento
Sección 03

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Claude Sonnet 4
$3.00 por 1M de tokens de entrada
$15.00 por 1M de tokens de salida
≈ $0.0048 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$3.00
por 1M de tokens de salida$15.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$3.00

input / 1M

— stable

$15.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 04

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)36 / avg 224
127220

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 05

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Equilibrio rendimiento-eficiencia200K tokens de contextoAsistencia en codificación confiableAnálisis y resumen de documentosConversación fluida multi-turnoMetodología IA Constitucional

Debilidades

Razonamiento profundo inferior a OpusMás lento que variantes HaikuSin soporte multimodal nativo en configuración estándar
Sección 06

Capacidades

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000
Sección 07

Preguntas frecuentes

Sonnet ofrece mejor relación calidad-velocidad para la mayoría de tareas; Opus es necesario solo cuando se requiere máxima profundidad analítica.

El punto dulce entre capacidad y velocidad para la mayoría de los flujos de trabajo de producción con Anthropic.

Resumen de benchmark Tokonomix
Sección 08

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 09

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-595/100 · 76 runs
72 correct3 partial1 wrong95% accuracy
2026-06-14

Claude Sonnet 4 maintains perfect scores but latency increases 24%

Claude Sonnet 4 continues to demonstrate exceptional performance with a near-perfect overall quality score of 99.6, up from 96.6 in the previous window. The model maintains its perfect 100 score in coding and sustains a strong 99 in multilingual tasks, showing consistency in core technical capabilities. Reasoning performance now registers at a perfect 100, representing a notable area of strength in this benchmark window. However, this performance comes with a trade-off in speed. The median latency has increased from 6331 ms to 7867 ms, representing a 24% slowdown. This suggests potential changes to model architecture or inference processes that prioritize output quality over response time. The benchmark testing methodology changed between windows, with different categories assessed. The current window evaluated reasoning as a distinct category, while the previous window separately measured creative and factual question performance. This shift in testing approach makes direct category comparisons challenging, though the overall trajectory shows quality improvements alongside slower response times. Users requiring maximum quality should find these results encouraging, while those prioritizing speed may need to evaluate whether the latency increase affects their use cases.

Quality

99.6

Latency p50

7,867 ms

Test runs

5

Quality score improved to 99.6 Perfect reasoning performance achieved Latency increased 24% Response time now 7.9 seconds
Sección 10

Perfil completo del modelo

Claude Sonnet 4 — illustration 1
Claude Sonnet 4: el primer tier medio de la línea 4.x

Nota — instantánea heredada. Claude Sonnet 4 (claude-sonnet-4-20250514) es el lanzamiento de mayo de 2025. Los equipos en producción que buscan Claude de tier medio hoy deben comparar con Sonnet 4.5 y Sonnet 4.6. Esta página existe para planificación de migraciones y referencia histórica.

Claude Sonnet 4 fue el lanzamiento de tier medio de mayo de 2025 que abrió la línea Sonnet 4.x. Doscientos mil tokens de ventana de contexto. Entrada de texto e imagen. El posicionamiento con el que salió era directo: calidad de razonamiento de Opus a un coste notablemente menor y tiempos de respuesta más rápidos.

Un año después, el panorama ha cambiado. Sonnet 4.5 y 4.6 son las instantáneas que la mayoría de los equipos en producción adoptaron. Sonnet 4.0 sigue funcionando, sigue sirviendo tráfico a equipos que aún no han actualizado, pero ya no es el punto de partida correcto para una nueva construcción.

Por qué sigue siendo relevante

Algunas situaciones mantienen instantáneas Sonnet antiguas en uso activo:

  • Suites de evaluación ancladas donde el comportamiento estable del modelo importa más que una capacidad más reciente.
  • Pipelines de cumplimiento auditados que no han sido re-validados contra una instantánea más reciente.
  • Cargas de trabajo orientadas al coste en el límite de lo que permitían los tiers de precios de Sonnet anteriores.
  • Investigación que compara explícitamente la evolución de Sonnet 4.x y necesita 4.0 como referencia.

Si no se está en ninguna de esas situaciones, esta página es lectura de fondo.

Qué hace bien

La propuesta de tier medio era real. Sonnet 4.0 era notablemente más rápido que Opus 4.0 en la mayoría de las cargas de trabajo manteniendo la mayor parte del comportamiento de razonamiento que definía la línea Opus. La adherencia a la salida estructurada era buena para su tier. Las llamadas de uso de herramientas devolvían payloads limpios. La prosa administrativa en lenguas europeas se gestionaba con cuidado: el idioma legal alemán, la fraseología administrativa francesa, el texto burocrático neerlandés se mantenían en sus registros nativos en lugar de colapsar hacia una salida con forma inglesa.

La entrada de visión en Sonnet 4.0 era sólida para las tareas estándar de lectura de documentos. Capturas de pantalla de paneles de control, formularios escaneados, PDFs renderizados como imágenes de página. El modelo razonaba sobre lo que veía en lugar de simplemente transcribirlo.

Qué hace mal

La retención de contexto largo era mediocre en el lanzamiento y ha sido superada por cada instantánea Sonnet que Anthropic publicó después. La ventana de 200k es real, pero la calidad de atención se desvanece pasados aproximadamente 100k tokens de entrada. Las instantáneas más recientes de la línea 4.x cerraron la mayor parte de esa brecha.

La generación de código era competente pero conservadora. El modelo escribía código verboso y con tipado defensivo donde algunos competidores escribían una salida más idiomática. Para trabajo ajustado al IDE, la encuesta de modelos en /usecases/code cubre las alternativas.

La latencia en cargas de trabajo de streaming era aceptable pero no excepcional. Sonnet 4.5 y 4.6 cerraron parte de eso. Gemini 2.5 Flash y competidores similares de nivel A lo superaron en tiempo hasta el primer token para prompts cortos.

Su posición actual

Frente a instantáneas Sonnet de Anthropic más recientes —4.5 y 4.6— la versión 4.0 queda por detrás en todas las categorías rastreadas en /benchmarks/intelligence. Las mejoras no son dramáticas por lanzamiento, pero se acumulan. Dos instantáneas más tarde, la diferencia es significativa.

Frente al resto del campo de tier medio a mediados de 2026: las variantes de tier medio de GPT-5 y Gemini 2.5 Pro superan a Sonnet 4.0 en la mayoría de las categorías de benchmark publicadas. Esa brecha era prácticamente nula cuando se lanzó 4.0. El frontier ha avanzado.

Si se elige un Sonnet desde cero en 2026, Sonnet 4.5 es el punto de partida más seguro. Sonnet 4.6 si se quieren los refinamientos más recientes. El panorama completo por categorías está en /benchmarks/leaderboard.

Rutas de migración

Las actualizaciones estándar:

  • Misma ventana de contexto, comportamiento similar: Sonnet 4.5. Los equipos en producción reportan compatibilidad directa para la mayoría de las cargas de trabajo tras una breve ejecución de tráfico en sombra.
  • Refinamientos más recientes: Sonnet 4.6. El pulido del uso de herramientas y la adherencia al esquema son más ajustados.
  • Ventana de contexto más grande: Sonnet 4.6 ofrece una ventana de un millón de tokens. El salto más grande en el perfil operacional para cargas de trabajo Sonnet.

La regla honesta: las brechas de frontier y tier medio medidas en benchmarks públicos rara vez coinciden con lo que se ve en los propios prompts. Ejecute el candidato contra su propio conjunto de evaluación antes de comprometerse.

Notas de despliegue

API estándar de Anthropic. REST. Streaming. Los prompts de sistema se comportan como se espera. El uso de herramientas es suficientemente fiable para construir agentes sin escribir parsing defensivo.

La residencia de datos en la UE es el punto de fricción recurrente. La inferencia de Anthropic corre en AWS y Google Cloud, y la API pública no expone un parámetro de selección de región para Sonnet 4.0 ni para ningún otro modelo Claude. De serie, no se garantiza una ruta de inferencia exclusivamente de la UE. Los contratos enterprise pueden negociar cláusulas de residencia. Los equipos con restricciones estrictas de residencia deben consultar la encuesta de pesos abiertos alojados en OVH en /usecases/local.

Los logs se conservan treinta días para monitoreo de abusos. Las entradas no se usan para entrenamiento salvo que se acepte explícitamente. La retención cero es una negociación contractual, no un interruptor de configuración.

Cuándo la respuesta correcta es quedarse en 4.0

La sobrecarga de auditoría es la razón más común por la que los equipos permanecen. Un pipeline regulado con comportamiento del modelo documentado no se migra con un simple cambio de configuración. Re-auditoría, re-validación, posiblemente re-certificación: el coste de ese trabajo tiene que superar un umbral.

La investigación con instantáneas ancladas es el otro caso común. Los estudios que comparan la evolución de la línea Sonnet necesitan 4.0 como referencia. Anthropic mantiene disponibles las instantáneas con fecha exactamente por esta razón.

Para nuevas construcciones, ninguna de las dos situaciones aplica, y una revisión Sonnet actual es el punto de partida correcto.

Cuándo elegirlo

Use Claude Sonnet 4 cuando:

  • Tenga una integración auditada existente sobre él.
  • Necesite una instantánea anclada para comparación o investigación.
  • Una migración a una revisión Sonnet actual no esté genuinamente justificada todavía.

Elija otra opción cuando:

  • Esté eligiendo un modelo desde cero en 2026.
  • La carga de trabajo dependa de la atención de contexto largo en profundidad.
  • La latencia, el coste o una generación de código más sólida importen más que el comportamiento original de Sonnet 4.
  • Necesite algo fuera de texto e imagen.

Pruebe Sonnet 4 frente a las alternativas actuales en /live-test. Mismo prompt, múltiples modelos, uno junto al otro. Las diferencias son más claras en comparación directa.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Claude Sonnet 4 — illustration 2
Última prueba automática
15 jun 2026 · 08:00 UTC · Benchmark de velocidad
Latencia P50
5563 ms
Latencia P95
6642 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026