Wie vergleicht sich Hermes 3 70B mit anderen 70B-Parameter-Modellen?

Hermes 3 70B basiert auf der Llama 3 Architektur und bietet ähnliche Grundfähigkeiten wie andere 70B-Modelle. Die Besonderheiten liegen im größeren Kontextfenster, der unzensierten Ausrichtung und der speziellen Optimierung für Function Calling und strukturierte Ausgaben.

Kann das Modell externe APIs und Tools zuverlässig nutzen?

Ja, Hermes 3 70B wurde speziell für Tool-Use und Function Calling trainiert. Es kann externe Funktionen aufrufen, strukturierte Parameter übergeben und die Ergebnisse in mehrstufigen Workflows verarbeiten, was es für agentische Anwendungen geeignet macht.

Welche Dokumentenlänge kann das Kontextfenster praktisch verarbeiten?

Mit 131.000 Token können etwa 100.000 Wörter oder rund 300 Seiten Text verarbeitet werden. Das ermöglicht die Analyse kompletter Bücher, umfangreicher Codebasen oder sehr langer Konversationsverläufe bei gleichbleibender Kohärenz.

Ist Hermes 3 70B für produktive Unternehmensanwendungen geeignet?

Das Modell eignet sich für viele Unternehmensanwendungen, besonders für interne Tools, Entwicklerworkflows und kreative Prozesse. Für kundenseitige Anwendungen sollte die unzensierte Natur berücksichtigt und zusätzliche Sicherheitsebenen implementiert werden.

Tier A — Frontier

Läuft in:Multi-regionErstellt in:United States

OpenRouter

Nous Hermes 3 70B

Tier A — Frontier · 131K Tokens · 70B

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 24. Mai 2026·Zuletzt geprüft 24. Mai 2026

Nous Hermes 3 70B ist ein großes Sprachmodell, das von Nous Research entwickelt und über die OpenRouter-Plattform verfügbar gemacht wurde. Aufbauend auf der Llama-3-Architektur mit 70 Milliarden Parametern stellt dieses Modell die dritte Hauptiteration der Hermes-Serie dar. Es verfügt über ein umfangreiches Kontextfenster von 131.000 Token, das es ihm ermöglicht, längere Dokumente und ausgedehnte Konversationen zu verarbeiten und dabei kohärent zu bleiben. Das Modell ist als universeller Assistent konzipiert mit besonderen Stärken bei Function Calling, der Erzeugung strukturierter Ausgaben und kreativen Anwendungen. Anders als viele kommerzielle Modelle wird Nous Hermes 3 70B mit minimaler Inhaltsfilterung trainiert, wodurch es sich mit einem breiteren Spektrum an Themen und Szenarien auseinandersetzen kann. Dieser „ungefilterte" Ansatz macht es geeignet für Anwendungen, die eine nuancierte Behandlung sensibler Themen erfordern, kreatives Schreiben ohne künstliche Einschränkungen und Rollenspiel-Szenarien, bei denen strikte Inhaltsgrenzen einschränkend wirken können. Nous Hermes 3 70B befindet sich im mittleren Segment der Modellangebote von OpenRouter hinsichtlich Leistungsfähigkeit und Ressourcenanforderungen. Es balanciert starke Leistung über diverse Aufgaben mit angemessenen rechnerischen Anforderungen und positioniert sich zwischen kleineren, schnelleren Modellen und größeren Flaggschiff-Systemen. Die Tool-Use-Fähigkeiten des Modells ermöglichen ihm die Interaktion mit externen Funktionen und APIs, was es praktikabel macht für agentische Workflows und Anwendungen, die strukturierte Datenextraktion oder mehrstufige Reasoning-Prozesse erfordern.

Nous Hermes 3 70B mit eigenen Fragen testen

Nous Hermes 3 70B vereint die Leistungsfähigkeit eines großen Sprachmodells mit der Flexibilität einer unzensierten Architektur und einem außergewöhnlich großen Kontextfenster von 131.000 Token.
— Tokonomix Modellanalyse

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz66 runs

Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Nous Hermes 3 70B

$0.7000 pro 1M Input-Tokens

$0.7000 pro 1M Output-Tokens

≈ $0.0006 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.7000

pro 1M Output-Tokens$0.7000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.7000

input / 1M

— stable

$0.7000

output / 1M

— stable

2026-05-312026-06-072026-06-07

Input

Output

Price change

⟳ synced weekly

Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)1000 / avg 981

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Sehr großes Kontextfenster (131k Token)Zuverlässige Tool-Integration und Function CallingUnzensiert für kreative AnwendungsfälleStrukturierte AusgabegenerierungStarke Rollenspiel-FähigkeitenAgentische Workflows mit mehreren SchrittenGutes Preis-Leistungs-VerhältnisVielseitiger Allzweck-Assistent

Schwächen

Geringere Leistung als Flagship-ModelleKeine Multimodalität (nur Text)Langsamere Antwortzeiten als kleinere ModelleWissensstichtag durch Trainingsperiode begrenzt

Abschnitt 05

Fähigkeiten

toolsroleplayuncensored

Abschnitt 06

Häufig gestellte Fragen

Das Modell eignet sich für kreatives Schreiben ohne künstliche Einschränkungen, Rollenspiel-Szenarien, Forschungsanwendungen mit sensiblen Themen und Anwendungen, die nuancierte Diskussionen kontroverser Inhalte erfordern. Die fehlende Filterung bedeutet jedoch auch höhere Verantwortung beim Einsatz in produktiven Umgebungen.

Für Teams, die ein ausgewogenes Verhältnis zwischen Leistung, Vielseitigkeit und inhaltlicher Offenheit suchen, bietet Hermes 3 70B eine überzeugende Option im mittleren Leistungssegment.
— Tokonomix Redaktion

Abschnitt 07

Tokonomix-Benchmark-Urteile

● 2026-06-07

Nous Hermes 3 70B maintains baseline performance with stable capabilities

Nous Hermes 3 70B continues to operate at its established baseline performance level with no significant changes detected in this benchmark window. The model retains its support for tools, roleplay, and uncensored interactions that were introduced in the previous period. While the model provides consistent functionality across these capability areas, no measurable improvements in performance metrics or expanded feature set have emerged. Users can expect the same level of service that characterized the initial release, with tool use integration and roleplay scenarios remaining functional but showing no advancement in sophistication or accuracy. The uncensored nature of responses continues as before. This stability may benefit users who have integrated the model into existing workflows and prefer predictable behavior, though those seeking performance gains or enhanced capabilities will need to look elsewhere. The model occupies a steady position in the 70B parameter class without distinguishing improvements or concerning regressions during this evaluation period.

Quality

—

Latency p50

—

Test runs

✓ Stable baseline performance maintained✗ No capability improvements detected

Abschnitt 08

Vollständiges Modellprofil

Nous Hermes 3 70B: Das Open-Weight-Modell für uneingeschränktes Reasoning

Wenn ein Entwickler zu Nous Hermes 3 70B greift, löst er typischerweise eines von zwei Problemen: Er benötigt ein Modell, das komplexe Anweisungen befolgt, ohne jeden Randfall zu hinterfragen, oder er ist an die Grenzen kommerzieller APIs gestoßen und braucht etwas Entgegenkommenderes. Aufbauend auf Metas Llama 3.1 Basis und von Nous Research mit Schwerpunkt auf Instruktionsbefolgung und reduziertem Ablehnungsverhalten finegetuned, befindet sich Hermes 3 in jenem produktiven Mittelfeld zwischen rohen Basismodellen und den stark mit Safety-Layern versehenen Angeboten der großen drei Anbieter.

Dies ist ein 70-Milliarden-Parameter-Modell mit einem 131.000-Token-Kontextfenster, das bewusst als Alternative zu Claude- oder GPT-4-Klasse-Modellen positioniert wurde, wenn Ihr Anwendungsfall nicht in deren redaktionelle Richtlinien passt. Es läuft auf OpenRouter und anderen Aggregator-Plattformen, was es ohne Self-Hosting-Infrastruktur zugänglich macht und dabei die philosophischen Vorteile einer Open-Weight-Architektur bewahrt. Das Modell verfügt über Tool-Use-Fähigkeiten, handhabt erweiterte Rollenspiel-Szenarien und arbeitet mit minimaler Inhaltsfilterung, was es zu einer pragmatischen Wahl für Entwickler macht, die Agenten, kreative Anwendungen oder Systeme bauen, die über sensible Themen nachdenken müssen, ohne ständige Guardrail-Interferenz.

Training-Geschichte und technische Grundlage

Hermes 3 70B startet mit Metas Llama 3.1 70B Basis, was ihm eine starke multilinguale Grundlage und die architektonischen Verbesserungen verleiht, die mit der 3.1-Serie kamen: bessere Long-Context-Performance, verbesserte Instruktionstreue und stabilere Reasoning-Ketten. Nous Research wendet dann gezieltes Fine-Tuning mit einem Datensatz an, der hochwertige Instruktionspaare, Multi-Turn-Dialoge und Beispiele betont, die nuanciertes Denken über musterbasierte Ablehnungen belohnen.

Die „uncensored"-Bezeichnung bedeutet nicht, dass das Modell rücksichtslos ist. Sie bedeutet, dass Nous bewusst die aggressiven Sicherheitsfilter reduziert hat, die kommerzielle Modelle dazu bringen, harmlose Anfragen abzulehnen, wenn sie auf oberflächliche Schlüsselwörter pattern-matchen. Wenn Sie ein medizinisches Bildungstool bauen, das Symptome offen diskutieren muss, einen juristischen Recherche-Assistenten, der über Strafgesetze nachdenken muss, oder ein kreatives Schreibtool, das reife Themen behandelt, wird Hermes 3 sich generell mit der Aufgabe befassen, statt eine Standardablehnung zu liefern. Das Modell versteht immer noch Kontext und kann wirklich problematische Anfragen ablehnen, aber es stolpert nicht über False Positives, wie es stark nachtrainierte Modelle oft tun.

Das 131k-Kontextfenster ist ein praktischer Differentiator. Obwohl nicht das größte verfügbare, handhabt es bequem vollständige Codebasen, lange Dokumente oder erweiterte Konversationsverläufe ohne die Trunkierungs-Kopfschmerzen, die mit kleineren Fenstern einhergehen. Für Agenten-Workflows, bei denen Sie den Zustand über Dutzende von Turns aufrechterhalten müssen, oder Dokumentenanalyse-Pipelines, die wissenschaftliche Papers verarbeiten, zählt dieser Spielraum.

Wo Hermes 3 70B glänzt

Das Modell glänzt in drei Kernszenarien. Erstens, strukturierte Agenten-Workflows, bei denen Tool-Nutzung und mehrstufiges Reasoning das Rückgrat bilden. Hermes 3 unterstützt Function Calling nativ, und seine Instruktionsbefolgung ist stark genug, dass Sie Agenten bauen können, die mehrere Tool-Aufrufe zuverlässig verketten. Wenn Sie einen Recherche-Assistenten konstruieren, der Datenbanken abfragen, Erkenntnisse synthetisieren und dann Output nach einem strikten Schema formatieren muss, wird Hermes 3 dieser Choreografie ohne das Driften oder Halluzinieren folgen, das kleinere Modelle plagt.

Zweitens, erweiterte kreative und Rollenspiel-Anwendungen. Die Kombination aus großem Kontextfenster und reduzierter Inhaltsfilterung macht dies zu einem bevorzugten Modell für interaktive Fiktion, Spiel-NPC-Dialogsysteme oder kreative Schreibassistenten. Das Modell kann Charakterkonsistenz über lange Konversationen aufrechterhalten und wird sich mit narrativen Prämissen befassen, die anderswo Ablehnungen auslösen könnten. Wenn Sie einen Dungeon-Master-Bot oder eine kollaborative Storytelling-Plattform bauen, handhabt Hermes 3 die tonale Bandbreite und narrative Komplexität, ohne auf bereinigte Antworten zurückzufallen.

Drittens, jede Domäne, in der Sie direktes Engagement mit komplexem oder sensiblem Material benötigen. Wenn Sie Compliance-Software bauen, die über regulatorische Randfälle nachdenken muss, ein Mental-Health-Support-Tool, das schwierige Themen offen diskutieren muss, oder eine Harm-Reduction-Anwendung, wird Hermes 3 mit dem Material arbeiten, statt auszuweichen. Das Modell versteht Nuancen und verwechselt Erwähnung nicht mit Befürwortung, was es für Bildungs- und Support-Kontexte praktikabel macht, wo übermäßig vorsichtige Filterung aktiv die User Experience schadet.

Die Tool-Use-Implementierung ist solide. Sie können Funktionen mit JSON-Schemas definieren, und das Modell wird sie angemessen innerhalb des Konversationsflusses aufrufen. Es ist nicht ganz so ausgereift wie das Function-Calling in GPT-4 oder Claude, aber für die meisten Produktions-Use-Cases – besonders wenn Sie interne Tools oder vertikale SaaS-Features bauen – erfüllt es die Anforderungen. Das Modell versteht, wann es ein Tool aufrufen sollte versus wann es aus bestehendem Kontext synthetisieren sollte, was unnötige API-Hits reduziert.

Wo es nicht passt

Hermes 3 70B ist nicht die richtige Wahl, wenn Sie State-of-the-Art-Performance bei hochspezialisierten Aufgaben benötigen, in die die großen Anbieter stark in Post-Training investiert haben. Zum Beispiel fortgeschrittenes mathematisches Reasoning, formale Logikbeweise oder die Art von tiefem Code-Verständnis, die für Security-Audits erforderlich ist – das sind Bereiche, in denen Claude- oder GPT-4-Varianten besser abschneiden werden. Die Llama-Basisarchitektur ist fähig, aber das zusätzliche Fine-Tuning, das Anthropic und OpenAI für diese engen Domänen anwenden, macht sich bemerkbar.

Das Modell erreicht auch nicht GPT-4 oder Claude in konversationeller Politur, wenn Sie verbrauchernahe Interaktion benötigen. Wenn Sie einen Kundensupport-Bot bauen, bei dem Ton, Empathie und Markenstimmen-Konsistenz kritisch sind, zeigt sich die zusätzliche Verfeinerung in kommerziellen Modellen. Hermes 3 ist direkt und funktional, was exzellent für entwicklernah Werkzeuge oder interne Workflows ist, aber es hat nicht denselben glatten konversationellen Anstrich für Endnutzer-Chat-Anwendungen.

Latenz-sensitive Anwendungen könnten die 70B-Parametergröße als Einschränkung empfinden. Während OpenRouter und ähnliche Aggregatoren anständigen Durchsatz bieten, ist dies immer noch ein großes Modell, und wenn Sie Sub-Sekunden-Antwortzeiten für hochkonkurrente nutzerseitige Features benötigen, könnten Sie auf Engpässe stoßen. Kleinere Modelle oder destillierte Versionen kommerzieller Angebote werden Sie in diesen Kontexten besser bedienen.

Schließlich, wenn Ihr Use-Case das absolut höchste Niveau an faktischer Genauigkeit und aktuellem Wissen erfordert, bedeuten der Training-Cutoff des Modells und die langsameren Iterationszyklen des Open-Weight-Ökosystems, dass Sie hinter der Frontier zurückbleiben werden. Kommerzielle Anbieter aktualisieren ihre Modelle häufiger und integrieren Retrieval-Augmented-Generation-Features enger. Wenn Sie ein News-Zusammenfassungs-Tool oder ein Produkt bauen, das aktuelle Ereignisse widerspiegeln muss, müssen Sie mit externen Wissens-Pipelines ergänzen.

Vergleich mit Peer-Modellen

Innerhalb der Open-Weight-70B-Klasse konkurriert Hermes 3 primär mit anderen finegetunten Llama-Derivaten. Verglichen mit Basis-Llama 3.1 70B bietet Hermes 3 bedeutend bessere Instruktionsbefolgung und reduzierte Ablehnungsraten, ohne allgemeine Fähigkeit zu opfern. Wenn Sie Llama 3.1 direkt ausprobiert haben und es zu vorsichtig oder inkonsistent bei Randfällen fanden, ist Hermes 3 der nächste logische Schritt.

Gegen andere Nous-Modelle repräsentiert Hermes 3 die aktuelle produktionsreife Iteration. Frühere Hermes-Versionen wurden auf Llama 2 aufgebaut und hatten engere Kontextfenster. Wenn Sie diese verwendet und nützlich aber limitierend gefunden haben, ist Hermes 3 ein unkompliziertes Upgrade mit besserem Reasoning und mehr Spielraum.

Im Vergleich zu kommerziellen Modellen werden die Trade-offs klarer. Claude Sonnet bietet mehr Politur, besseres Long-Context-Retrieval und stärkere Safety-Garantien, wenn Ihre Compliance-Anforderungen überprüfbare Filterung erfordern. GPT-4 Turbo oder GPT-4o bringt schnellere Iteration, engere Ökosystem-Integrationen und bessere Performance bei spezialisierten Reasoning-Tasks. Aber beide kommen mit redaktionellen Einschränkungen, die bestimmte Anwendungen schwierig oder unmöglich machen. Wenn Ihr Feature-Set kreative Tools, Harm-Reduction-Inhalte, juristische oder medizinische Bildung oder Agenten-Workflows umfasst, die über sensible Domänen nachdenken müssen, bietet Hermes 3 einen Weg, der bei den großen Anbietern schlicht nicht existiert.

Die Kostenpositionierung ist ebenfalls relevant. Hermes 3 liegt im niedrigen Bereich für 70B-Klasse-Modelle, was es für Prototyping und Produktions-Use-Cases mit moderatem Traffic zugänglich macht. Sie werden keinen hochvolumigen Consumer-Chatbot darauf aufbauen, aber für interne Tooling, vertikale SaaS-Features oder entwicklernahe Produkte funktioniert die Ökonomie.

Kosten und Verfügbarkeit

Hermes 3 70B ist über OpenRouter und andere Aggregator-Plattformen verfügbar, die die Infrastruktur und Skalierung übernehmen, sodass Sie keine eigenen GPU-Cluster hochfahren müssen. Dieses Deployment-Modell findet einen nützlichen Mittelweg: Sie erhalten die Flexibilität und Policy-Vorteile eines Open-Weight-Modells ohne die operative Last, ein 70B-Parameter-Monster selbst zu hosten.

Die Preisgestaltung ist innerhalb des Aggregator-Ökosystems wettbewerbsfähig positioniert. Sie ist bedeutend günstiger als vergleichbare kommerzielle Modelle in dieser Größe zu betreiben, wenn auch nicht so günstig wie kleinere destillierte Alternativen. Für Teams, die Features bauen, die die Reasoning-Tiefe eines großen Modells benötigen, aber nicht die absolute Frontier-Performance von GPT-4 oder Claude erfordern, ergibt diese Preisklasse Sinn.

Eine Überlegung ist, dass Aggregator-Verfügbarkeit basierend auf Provider-Kapazität schwanken kann. OpenRouter bündelt mehrere Backend-Provider für jedes Modell, was generell die Uptime hochhält, aber es ist nicht dasselbe wie das SLA, das Sie von einer direkten kommerziellen API erhalten würden. Für unternehmenskritische Produktionssysteme, bei denen Downtime kostspielig ist, möchten Sie vielleicht Ihre eigene Instanz betreiben oder Fallback-Routen zu kommerziellen Modellen aufrechterhalten.

Self-Hosting ist eine Option, wenn Sie den Infrastruktur-Appetit haben. Die Modellgewichte sind offen, sodass Sie auf Ihrer eigenen Hardware deployen oder dedizierte GPU-Kapazität von Cloud-Providern mieten können. Das macht Sinn, wenn Sie besonders hohe Durchsatzanforderungen haben, strikte Datenresidenz-Anforderungen oder das Modell für Ihre Domäne weiter finetunen möchten. Aber für die meisten Teams ist die Aggregator-Route die pragmatische Wahl – sie bringt Sie schneller in die Produktion und lässt Sie skalieren, ohne Infrastruktur zu verwalten.

Unser Urteil

Hermes 3 70B besetzt eine wertvolle Nische in der Produktions-Modelllandschaft. Es versucht nicht, GPT-4 in jedem Benchmark zu schlagen oder Claude in kundennahem Chat zu ersetzen. Stattdessen bietet es ein fähiges Large-Context-Modell mit minimaler redaktioneller Reibung, verfügbar zu einem Preis, der für eine breite Palette von Anwendungen Sinn ergibt, die nicht sauber ins Paradigma der großen Drei passen.

Wenn Sie Agenten-Systeme, kreative Tools oder Anwendungen in Domänen bauen, wo Content-Policies Reibung erzeugen, verdient dieses Modell eine Evaluierung. Es bringt genug Reasoning-Fähigkeit für komplexe Workflows, genug Kontext für Long-Form-Tasks und genug Flexibilität, um sich mit dem Material zu befassen, das Ihre Anwendung tatsächlich handhaben muss. Der Tool-Use-Support ist solide, die Instruktionsbefolgung ist zuverlässig, und das Deployment-Modell durch Aggregatoren hält die operative Komplexität niedrig.

Die Trade-offs sind klar: Sie opfern etwas Politur, etwas spezialisierte Performance und die engen Ökosystem-Integrationen, die mit kommerziellen APIs kommen. Aber im Gegenzug gewinnen Sie Kontrolle, Kosteneffizienz und die Fähigkeit, Features zu bauen, die von Mainstream-Providern abgelehnt oder behindert würden. Für viele Produktions-Teams – besonders solche in kreativen, bildungsnahen, juristischen oder gesundheitsangrenzenden Domänen – ist das ein lohnender Trade.

Hermes 3 70B ist kein Flaggschiff-Modell. Es ist ein Arbeitspferd. Es erscheint, erledigt die Arbeit und kommt Ihnen nicht in die Quere. Für ein großes Segment realer Entwicklungsprobleme ist das genau das, was Sie brauchen.

Letzter automatisierter Test

9. Juni 2026 · 20:02 UTC · Geschwindigkeits-Benchmark

P50-Latenz

200 ms

P95-Latenz

216 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·24. Mai 2026