
Nota — instantánea heredada. Claude Sonnet 4 (
claude-sonnet-4-20250514) es el lanzamiento de mayo de 2025. Los equipos en producción que buscan Claude de tier medio hoy deben comparar con Sonnet 4.5 y Sonnet 4.6. Esta página existe para planificación de migraciones y referencia histórica.
Claude Sonnet 4 fue el lanzamiento de tier medio de mayo de 2025 que abrió la línea Sonnet 4.x. Doscientos mil tokens de ventana de contexto. Entrada de texto e imagen. El posicionamiento con el que salió era directo: calidad de razonamiento de Opus a un coste notablemente menor y tiempos de respuesta más rápidos.
Un año después, el panorama ha cambiado. Sonnet 4.5 y 4.6 son las instantáneas que la mayoría de los equipos en producción adoptaron. Sonnet 4.0 sigue funcionando, sigue sirviendo tráfico a equipos que aún no han actualizado, pero ya no es el punto de partida correcto para una nueva construcción.
Por qué sigue siendo relevante
Algunas situaciones mantienen instantáneas Sonnet antiguas en uso activo:
- Suites de evaluación ancladas donde el comportamiento estable del modelo importa más que una capacidad más reciente.
- Pipelines de cumplimiento auditados que no han sido re-validados contra una instantánea más reciente.
- Cargas de trabajo orientadas al coste en el límite de lo que permitían los tiers de precios de Sonnet anteriores.
- Investigación que compara explícitamente la evolución de Sonnet 4.x y necesita 4.0 como referencia.
Si no se está en ninguna de esas situaciones, esta página es lectura de fondo.
Qué hace bien
La propuesta de tier medio era real. Sonnet 4.0 era notablemente más rápido que Opus 4.0 en la mayoría de las cargas de trabajo manteniendo la mayor parte del comportamiento de razonamiento que definía la línea Opus. La adherencia a la salida estructurada era buena para su tier. Las llamadas de uso de herramientas devolvían payloads limpios. La prosa administrativa en lenguas europeas se gestionaba con cuidado: el idioma legal alemán, la fraseología administrativa francesa, el texto burocrático neerlandés se mantenían en sus registros nativos en lugar de colapsar hacia una salida con forma inglesa.
La entrada de visión en Sonnet 4.0 era sólida para las tareas estándar de lectura de documentos. Capturas de pantalla de paneles de control, formularios escaneados, PDFs renderizados como imágenes de página. El modelo razonaba sobre lo que veía en lugar de simplemente transcribirlo.
Qué hace mal
La retención de contexto largo era mediocre en el lanzamiento y ha sido superada por cada instantánea Sonnet que Anthropic publicó después. La ventana de 200k es real, pero la calidad de atención se desvanece pasados aproximadamente 100k tokens de entrada. Las instantáneas más recientes de la línea 4.x cerraron la mayor parte de esa brecha.
La generación de código era competente pero conservadora. El modelo escribía código verboso y con tipado defensivo donde algunos competidores escribían una salida más idiomática. Para trabajo ajustado al IDE, la encuesta de modelos en /usecases/code cubre las alternativas.
La latencia en cargas de trabajo de streaming era aceptable pero no excepcional. Sonnet 4.5 y 4.6 cerraron parte de eso. Gemini 2.5 Flash y competidores similares de nivel A lo superaron en tiempo hasta el primer token para prompts cortos.
Su posición actual
Frente a instantáneas Sonnet de Anthropic más recientes —4.5 y 4.6— la versión 4.0 queda por detrás en todas las categorías rastreadas en /benchmarks/intelligence. Las mejoras no son dramáticas por lanzamiento, pero se acumulan. Dos instantáneas más tarde, la diferencia es significativa.
Frente al resto del campo de tier medio a mediados de 2026: las variantes de tier medio de GPT-5 y Gemini 2.5 Pro superan a Sonnet 4.0 en la mayoría de las categorías de benchmark publicadas. Esa brecha era prácticamente nula cuando se lanzó 4.0. El frontier ha avanzado.
Si se elige un Sonnet desde cero en 2026, Sonnet 4.5 es el punto de partida más seguro. Sonnet 4.6 si se quieren los refinamientos más recientes. El panorama completo por categorías está en /benchmarks/leaderboard.
Rutas de migración
Las actualizaciones estándar:
- Misma ventana de contexto, comportamiento similar: Sonnet 4.5. Los equipos en producción reportan compatibilidad directa para la mayoría de las cargas de trabajo tras una breve ejecución de tráfico en sombra.
- Refinamientos más recientes: Sonnet 4.6. El pulido del uso de herramientas y la adherencia al esquema son más ajustados.
- Ventana de contexto más grande: Sonnet 4.6 ofrece una ventana de un millón de tokens. El salto más grande en el perfil operacional para cargas de trabajo Sonnet.
La regla honesta: las brechas de frontier y tier medio medidas en benchmarks públicos rara vez coinciden con lo que se ve en los propios prompts. Ejecute el candidato contra su propio conjunto de evaluación antes de comprometerse.
Notas de despliegue
API estándar de Anthropic. REST. Streaming. Los prompts de sistema se comportan como se espera. El uso de herramientas es suficientemente fiable para construir agentes sin escribir parsing defensivo.
La residencia de datos en la UE es el punto de fricción recurrente. La inferencia de Anthropic corre en AWS y Google Cloud, y la API pública no expone un parámetro de selección de región para Sonnet 4.0 ni para ningún otro modelo Claude. De serie, no se garantiza una ruta de inferencia exclusivamente de la UE. Los contratos enterprise pueden negociar cláusulas de residencia. Los equipos con restricciones estrictas de residencia deben consultar la encuesta de pesos abiertos alojados en OVH en /usecases/local.
Los logs se conservan treinta días para monitoreo de abusos. Las entradas no se usan para entrenamiento salvo que se acepte explícitamente. La retención cero es una negociación contractual, no un interruptor de configuración.
Cuándo la respuesta correcta es quedarse en 4.0
La sobrecarga de auditoría es la razón más común por la que los equipos permanecen. Un pipeline regulado con comportamiento del modelo documentado no se migra con un simple cambio de configuración. Re-auditoría, re-validación, posiblemente re-certificación: el coste de ese trabajo tiene que superar un umbral.
La investigación con instantáneas ancladas es el otro caso común. Los estudios que comparan la evolución de la línea Sonnet necesitan 4.0 como referencia. Anthropic mantiene disponibles las instantáneas con fecha exactamente por esta razón.
Para nuevas construcciones, ninguna de las dos situaciones aplica, y una revisión Sonnet actual es el punto de partida correcto.
Cuándo elegirlo
Use Claude Sonnet 4 cuando:
- Tenga una integración auditada existente sobre él.
- Necesite una instantánea anclada para comparación o investigación.
- Una migración a una revisión Sonnet actual no esté genuinamente justificada todavía.
Elija otra opción cuando:
- Esté eligiendo un modelo desde cero en 2026.
- La carga de trabajo dependa de la atención de contexto largo en profundidad.
- La latencia, el coste o una generación de código más sólida importen más que el comportamiento original de Sonnet 4.
- Necesite algo fuera de texto e imagen.
Pruebe Sonnet 4 frente a las alternativas actuales en /live-test. Mismo prompt, múltiples modelos, uno junto al otro. Las diferencias son más claras en comparación directa.
Última revisión técnica: 2026-05-22 — Tokonomix.ai
