Ir al contenido
Tier A — Frontera
Se ejecuta en:Multi-regionCreado en:United States
OpenRouter

Nous Hermes 3 70B

Tier A — Frontera · 131K tokens · 70B

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Nous Hermes 3 70B es un modelo de lenguaje grande desarrollado por Nous Research y disponible a través de la plataforma OpenRouter. Construido sobre la arquitectura Llama 3 con 70 mil millones de parámetros, este modelo representa la tercera iteración principal de la serie Hermes. Cuenta con una ventana de contexto extensa de 131,000 tokens, lo que le permite procesar y mantener coherencia en documentos largos y conversaciones extendidas. El modelo está diseñado como un asistente de propósito general con fortalezas particulares en llamadas de funciones, generación de salidas estructuradas y aplicaciones creativas. A diferencia de muchos modelos comerciales, Nous Hermes 3 70B está entrenado con filtrado de contenido mínimo, permitiéndole abordar una gama más amplia de temas y escenarios. Este enfoque "sin censura" lo hace adecuado para aplicaciones que requieren manejo matizado de temas sensibles, escritura creativa sin restricciones artificiales y escenarios de juegos de rol donde límites estrictos de contenido pueden ser limitantes. Nous Hermes 3 70B se sitúa en el nivel medio de las ofertas de modelos de OpenRouter en términos de capacidad y requisitos de recursos. Equilibra un rendimiento sólido en diversas tareas con demandas computacionales razonables, posicionándose entre modelos más pequeños y rápidos y sistemas insignia más grandes. Las capacidades de uso de herramientas del modelo le permiten interactuar con funciones y APIs externas, haciéndolo práctico para flujos de trabajo agénticos y aplicaciones que requieren extracción de datos estructurados o procesos de razonamiento en múltiples pasos.

Nous Hermes 3 70B ocupa un espacio único en el ecosistema de modelos: combina la potencia de 70 mil millones de parámetros con una filosofía de mínima censura, ofreciendo versatilidad donde otros modelos comerciales imponen límites estrictos.

Análisis comparativo Tokonomix
Sección 01

Análisis de velocidad

Latencia medida en todas las ejecuciones de benchmark. P50 (mediana) y P95 (percentil 95) dan una imagen realista de la velocidad de respuesta bajo carga normal y máxima.

Latencia P50 (mediana)Latencia P9566 runs
150105519592864376805-2406-09ms
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Nous Hermes 3 70B
$0.7000 por 1M de tokens de entrada
$0.7000 por 1M de tokens de salida
≈ $0.0006 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$0.7000
por 1M de tokens de salida$0.7000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.7000

input / 1M

— stable

$0.7000

output / 1M

— stable

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Sección 03

Tokens por segundo

Rendimiento en tokens por segundo, derivado de la latencia P50 medida. Más alto es mejor; las fluctuaciones reflejan la carga del lado del proveedor.

Rendimiento (tokens / s)1000 / avg 981
1318301

Estimado a partir de latencia P50 × 200 tokens de salida — el número absoluto depende de esta suposición; lo que importa es la tendencia.

Sección 04

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Ventana de contexto de 131K tokensLlamadas a funciones estructuradasCapacidades de roleplay sin censuraManejo flexible de temas sensiblesBalance entre costo y capacidadArquitectura Llama 3 probadaApto para flujos agénticosEscritura creativa sin restricciones artificiales

Debilidades

Más costoso que modelos pequeñosLatencia superior a modelos compactosSin capacidades de visión multimodalFecha de corte de conocimiento limitada
Sección 05

Capacidades

toolsroleplayuncensored
Sección 06

Preguntas frecuentes

Hermes 3 70B tiene filtros de contenido mínimos comparado con modelos comerciales como GPT-4 o Claude. Puede discutir temas controvertidos, generar narrativas maduras y participar en roleplay sin rechazos automáticos, pero la responsabilidad de uso apropiado recae en el desarrollador.

Para equipos que buscan un modelo capaz y flexible sin las restricciones de contenido de los sistemas comerciales mainstream, Hermes 3 70B representa una opción equilibrada entre rendimiento, contexto extenso y libertad creativa.

Evaluación editorial Tokonomix
Sección 07

Veredictos del benchmark Tokonomix

2026-06-07

Nous Hermes 3 70B maintains baseline performance with stable capabilities

Nous Hermes 3 70B continues to operate at its established baseline performance level with no significant changes detected in this benchmark window. The model retains its support for tools, roleplay, and uncensored interactions that were introduced in the previous period. While the model provides consistent functionality across these capability areas, no measurable improvements in performance metrics or expanded feature set have emerged. Users can expect the same level of service that characterized the initial release, with tool use integration and roleplay scenarios remaining functional but showing no advancement in sophistication or accuracy. The uncensored nature of responses continues as before. This stability may benefit users who have integrated the model into existing workflows and prefer predictable behavior, though those seeking performance gains or enhanced capabilities will need to look elsewhere. The model occupies a steady position in the 70B parameter class without distinguishing improvements or concerning regressions during this evaluation period.

Quality

Latency p50

Test runs

0

Stable baseline performance maintained No capability improvements detected
Sección 08

Perfil completo del modelo

Nous Hermes 3 70B — illustration 1
Nous Hermes 3 70B: El Modelo de Pesos Abiertos Diseñado para Razonamiento sin Restricciones

Cuando un desarrollador elige Nous Hermes 3 70B, generalmente está resolviendo uno de dos problemas: necesita un modelo que siga instrucciones complejas sin cuestionar cada caso límite, o ha alcanzado las restricciones de las APIs comerciales convencionales y necesita algo más adaptable. Construido sobre la base de Llama 3.1 de Meta y afinado por Nous Research con énfasis en el seguimiento de instrucciones y comportamiento de rechazo reducido, Hermes 3 se sitúa en ese punto medio productivo entre modelos base sin procesar y las ofertas fuertemente protegidas por capas de seguridad de los tres grandes proveedores.

Este es un modelo de 70 mil millones de parámetros con una ventana de contexto de 131,000 tokens, posicionado deliberadamente como alternativa a modelos de clase Claude o GPT-4 cuando tu caso de uso no encaja con sus directrices editoriales. Funciona en OpenRouter y otras plataformas agregadoras, haciéndolo accesible sin infraestructura de auto-alojamiento mientras mantiene las ventajas filosóficas de la arquitectura de pesos abiertos. El modelo cuenta con capacidades de uso de herramientas, maneja escenarios extendidos de juegos de rol y opera con filtrado de contenido mínimo, convirtiéndolo en una elección pragmática para desarrolladores que construyen agentes, aplicaciones creativas o sistemas que necesitan razonar sobre temas sensibles sin interferencia constante de barreras de protección.

Historia de Entrenamiento y Fundamento Técnico

Hermes 3 70B comienza con la base Llama 3.1 70B de Meta, lo que le otorga una sólida base multilingüe y las mejoras arquitectónicas que vinieron con la serie 3.1: mejor rendimiento de contexto largo, adherencia mejorada a instrucciones y cadenas de razonamiento más estables. Nous Research luego aplica un afinamiento dirigido con un conjunto de datos que enfatiza pares de instrucciones de alta calidad, diálogo de múltiples turnos y ejemplos que recompensan el pensamiento matizado sobre rechazos basados en coincidencia de patrones.

La designación "sin censura" no significa que el modelo sea imprudente. Significa que Nous redujo deliberadamente los filtros de seguridad agresivos que causan que los modelos comerciales rechacen solicitudes benignas cuando coinciden patrones a nivel superficial de palabras clave. Si estás construyendo una herramienta de educación médica que necesita discutir síntomas francamente, un asistente de investigación legal que debe razonar sobre estatutos criminales, o una herramienta de escritura creativa que maneja temas maduros, Hermes 3 generalmente se involucrará con la tarea en lugar de entregar un rechazo formulario. El modelo aún entiende el contexto y puede rechazar solicitudes genuinamente problemáticas, pero no tropieza con falsos positivos como lo hacen frecuentemente los modelos fuertemente post-entrenados.

La ventana de contexto de 131k es un diferenciador práctico. Aunque no es la más grande disponible, maneja cómodamente bases de código completas, documentos de formato largo o historiales de conversación extendidos sin los dolores de cabeza de truncamiento que vienen con ventanas más pequeñas. Para flujos de trabajo de agentes donde necesitas mantener estado a través de docenas de turnos, o pipelines de análisis de documentos procesando artículos de investigación, este espacio de maniobra importa.

Donde Hermes 3 70B Sobresale

El modelo brilla en tres escenarios principales. Primero, flujos de trabajo agénticos estructurados donde el uso de herramientas y el razonamiento de múltiples pasos son la columna vertebral. Hermes 3 soporta llamadas de función nativamente, y su seguimiento de instrucciones es lo suficientemente fuerte como para que puedas construir agentes que encadenen múltiples invocaciones de herramientas de manera confiable. Si estás construyendo un asistente de investigación que necesita consultar bases de datos, sintetizar hallazgos y luego formatear la salida según un esquema estricto, Hermes 3 seguirá esa coreografía sin la deriva o alucinación que plaga a modelos más pequeños.

Segundo, aplicaciones creativas y de juegos de rol extendidas. La combinación de una gran ventana de contexto y filtrado de contenido reducido hace de este un modelo predilecto para ficción interactiva, sistemas de diálogo de NPCs de juegos o asistentes de escritura creativa. El modelo puede mantener consistencia de personaje a través de conversaciones largas y se involucrará con premisas narrativas que podrían desencadenar rechazos en otros lugares. Si estás construyendo un bot Dungeon Master o una plataforma de narración colaborativa, Hermes 3 maneja el rango tonal y la complejidad narrativa sin recurrir a respuestas sanitizadas.

Tercero, cualquier dominio donde necesites involucramiento directo con material complejo o sensible. Si estás construyendo software de cumplimiento que necesita razonar sobre casos límite regulatorios, una herramienta de apoyo en salud mental que debe discutir temas difíciles con franqueza, o una aplicación de reducción de daños, Hermes 3 trabajará con el material en lugar de desviarlo. El modelo entiende matices y no confunde mención con respaldo, lo que lo hace viable para contextos educativos y de apoyo donde el filtrado excesivamente cauteloso daña activamente la experiencia del usuario.

La implementación de uso de herramientas es sólida. Puedes definir funciones con esquemas JSON, y el modelo las invocará apropiadamente dentro del flujo conversacional. No es tan pulido como las llamadas de función en GPT-4 o Claude, pero para la mayoría de casos de uso en producción—particularmente si estás construyendo herramientas internas o características de SaaS vertical—cumple el estándar. El modelo entiende cuándo llamar a una herramienta versus cuándo sintetizar desde el contexto existente, lo que reduce llamadas espurias a APIs.

Donde No Encaja

Hermes 3 70B no es la elección correcta si necesitas rendimiento de vanguardia en tareas altamente especializadas donde los grandes proveedores han invertido fuertemente en post-entrenamiento. Por ejemplo, razonamiento matemático avanzado, pruebas de lógica formal o el tipo de comprensión de código profunda requerida para auditorías de seguridad—estas son áreas donde las variantes de Claude o GPT-4 superarán al modelo. La arquitectura base Llama es capaz, pero el afinamiento adicional que Anthropic y OpenAI aplican para estos dominios estrechos se acumula.

El modelo tampoco iguala a GPT-4 o Claude en pulimento conversacional cuando necesitas interacción de cara al consumidor. Si estás construyendo un bot de soporte al cliente donde el tono, la empatía y la consistencia de voz de marca son críticos, el refinamiento adicional en modelos comerciales se nota. Hermes 3 es directo y funcional, lo cual es excelente para herramientas de cara al desarrollador o flujos de trabajo internos, pero no tiene el mismo barniz conversacional suave para aplicaciones de chat de cara al usuario final.

Las aplicaciones sensibles a la latencia pueden encontrar el tamaño de 70B parámetros como una restricción. Aunque OpenRouter y agregadores similares proporcionan un rendimiento decente, este sigue siendo un modelo grande, y si necesitas tiempos de respuesta por debajo del segundo para características de cara al usuario con alta concurrencia, podrías encontrar cuellos de botella. Modelos más pequeños o versiones destiladas de ofertas comerciales te servirán mejor en esos contextos.

Finalmente, si tu caso de uso requiere el nivel más alto absoluto de precisión factual y conocimiento actualizado, la fecha límite de entrenamiento del modelo y los ciclos de iteración más lentos del ecosistema de pesos abiertos significan que estarás detrás de la frontera. Los proveedores comerciales actualizan sus modelos con más frecuencia e integran características de generación aumentada por recuperación más estrechamente. Si estás construyendo una herramienta de resumen de noticias o un producto que debe reflejar eventos actuales, necesitarás complementar con pipelines de conocimiento externos.

Comparación con Modelos Pares

Dentro de la clase 70B de pesos abiertos, Hermes 3 compite principalmente con otros derivados de Llama afinados. Comparado con el base Llama 3.1 70B, Hermes 3 ofrece un seguimiento de instrucciones significativamente mejor y tasas de rechazo reducidas sin sacrificar capacidad general. Si probaste Llama 3.1 directamente y lo encontraste demasiado cauteloso o inconsistente en casos límite, Hermes 3 es el siguiente paso lógico.

Contra otros modelos Nous, Hermes 3 representa la iteración actual lista para producción. Las versiones anteriores de Hermes se construyeron sobre Llama 2 y tenían ventanas de contexto más estrechas. Si usaste aquellas y las encontraste útiles pero limitantes, Hermes 3 es una actualización directa con mejor razonamiento y más margen de maniobra.

Cuando se compara con modelos comerciales, las compensaciones se vuelven más claras. Claude Sonnet ofrece más pulimento, mejor recuperación de contexto largo y garantías de seguridad más fuertes si tus requisitos de cumplimiento demandan filtrado auditable. GPT-4 Turbo o GPT-4o trae iteración más rápida, integraciones de ecosistema más ajustadas y mejor rendimiento en tareas de razonamiento especializadas. Pero ambos vienen con restricciones editoriales que hacen ciertas aplicaciones difíciles o imposibles. Si tu conjunto de características incluye herramientas creativas, contenido de reducción de daños, educación legal o médica, o flujos de trabajo de agentes que necesitan razonar sobre dominios sensibles, Hermes 3 ofrece un camino que simplemente no existe con los grandes proveedores.

El posicionamiento de costos también importa. Hermes 3 se sitúa en el nivel bajo para modelos de clase 70B, haciéndolo accesible para prototipado y para casos de uso en producción con tráfico moderado. No vas a construir un chatbot de consumidor de alto volumen con esto, pero para herramientas internas, características de SaaS vertical o productos de cara al desarrollador, la economía funciona.

Costo y Disponibilidad

Hermes 3 70B está disponible a través de OpenRouter y otras plataformas agregadoras, que manejan la infraestructura y el escalamiento para que no necesites montar tus propios clusters de GPU. Este modelo de implementación logra un punto medio útil: obtienes la flexibilidad y ventajas de política de un modelo de pesos abiertos sin la carga operacional de auto-alojar una bestia de 70B parámetros.

El precio está posicionado competitivamente dentro del ecosistema agregador. Es significativamente más barato que ejecutar modelos comerciales equivalentes a esta escala, aunque no tan barato como alternativas destiladas más pequeñas. Para equipos construyendo características que necesitan la profundidad de razonamiento de un modelo grande pero no requieren el rendimiento de frontera absoluto de GPT-4 o Claude, esta banda de precios tiene sentido.

Una consideración es que la disponibilidad del agregador puede fluctuar según la capacidad del proveedor. OpenRouter agrupa múltiples proveedores de backend para cada modelo, lo que generalmente mantiene alta la disponibilidad, pero no es lo mismo que el SLA que obtendrías de una API comercial directa. Para sistemas de producción críticos donde el tiempo de inactividad es costoso, podrías querer ejecutar tu propia instancia o mantener rutas de respaldo a modelos comerciales.

El auto-alojamiento es una opción si tienes el apetito de infraestructura. Los pesos del modelo son abiertos, así que puedes implementar en tu propio hardware o rentar capacidad GPU dedicada de proveedores de nube. Esto tiene sentido si tienes necesidades de rendimiento particularmente altas, requisitos estrictos de residencia de datos, o quieres afinar aún más el modelo para tu dominio. Pero para la mayoría de equipos, la ruta del agregador es la elección pragmática—te lleva a producción más rápido y te permite escalar sin gestionar infraestructura.

Nuestro Veredicto

Hermes 3 70B ocupa un nicho valioso en el panorama de modelos de producción. No está tratando de vencer a GPT-4 en cada benchmark o reemplazar a Claude en chat de cara al cliente. En cambio, ofrece un modelo capaz, de contexto largo con fricción editorial mínima, disponible a un punto de costo que tiene sentido para una amplia gama de aplicaciones que no encajan limpiamente en el paradigma de los tres grandes.

Si estás construyendo sistemas de agentes, herramientas creativas o aplicaciones en dominios donde las políticas de contenido crean fricción, este modelo merece evaluación. Trae suficiente capacidad de razonamiento para flujos de trabajo complejos, suficiente contexto para tareas de formato largo y suficiente flexibilidad para involucrarse con el material que tu aplicación realmente necesita manejar. El soporte de uso de herramientas es sólido, el seguimiento de instrucciones es confiable, y el modelo de implementación a través de agregadores mantiene baja la complejidad operacional.

Las compensaciones son claras: sacrificas algo de pulimento, algo de rendimiento especializado y las integraciones de ecosistema ajustadas que vienen con APIs comerciales. Pero a cambio, ganas control, eficiencia de costos y la capacidad de construir características que serían rechazadas o limitadas por proveedores convencionales. Para muchos equipos de producción—particularmente aquellos en dominios creativos, educativos, legales o adyacentes a la salud—ese es un intercambio que vale la pena hacer.

Hermes 3 70B no es un modelo insignia. Es un caballo de batalla. Se presenta, hace el trabajo y no se interpone en tu camino. Para un gran segmento de problemas de desarrollo del mundo real, eso es exactamente lo que necesitas.

Nous Hermes 3 70B — illustration 2Nous Hermes 3 70B — illustration 3
Última prueba automática
9 jun 2026 · 20:02 UTC · Benchmark de velocidad
Latencia P50
200 ms
Latencia P95
216 ms
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026