Zum Inhalt
Tier A — Frontier
Läuft in:USErstellt in:United States
Anthropic

Claude Haiku 4.5

Tier A — Frontier · 200K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

Claude Haiku 4.5 ist ein von Anthropic entwickeltes Sprachmodell, das als schnelle und effiziente Option innerhalb der Claude-Modellfamilie positioniert ist. Es ist darauf ausgelegt, standardmäßige Textgenerierungsaufgaben mit geringerer Latenz im Vergleich zu größeren Modellen der Reihe zu bewältigen, was es für Anwendungen geeignet macht, bei denen die Antwortgeschwindigkeit Priorität hat. Das Modell unterstützt ein Kontextfenster von 200.000 Token, wodurch es erhebliche Textmengen in einer einzelnen Interaktion verarbeiten und referenzieren kann. Dieses Modell wurde entwickelt, um Anwendungsfälle zu bedienen, die schnelle Inferenz ohne den rechnerischen Overhead von Anthropics leistungsfähigeren Modellen wie Claude Sonnet oder Claude Opus erfordern. Typische Anwendungen umfassen Automatisierung im Kundensupport, Content-Moderation, Datenextraktion und Echtzeit-Chatbot-Implementierungen, bei denen schnelle Bearbeitungszeiten entscheidend sind. Während es grundlegende Fähigkeiten in den Bereichen Reasoning, Befolgung von Anweisungen und natürlichem Sprachverständnis beibehält, stellt es einen Kompromiss zwischen Leistung und Geschwindigkeit innerhalb der Modellhierarchie von Anthropic dar. Claude Haiku 4.5 fügt sich in Anthropics gestaffelte Modellstruktur als effizienzorientierte Option ein und liegt unterhalb von Claude Sonnet und Claude Opus hinsichtlich Reasoning-Tiefe und Handhabung komplexer Aufgaben. Es teilt dasselbe erweiterte Kontextfenster wie andere Modelle der Claude 3.5-Generation, was konsistente Dokumentenverarbeitungsfähigkeiten über die gesamte Reihe hinweg ermöglicht. Das Modell ist über die API von Anthropic zugänglich und wurde für Entwickler konzipiert, die zuverlässige Textgenerierung mit minimaler Latenz in Produktionsumgebungen benötigen.

Geschwindigkeit ist Trumpf: Claude Haiku 4.5 liefert schnelle Antworten mit 200.000-Token-Kontext für zeitkritische Anwendungen.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz97 runs
152115021483145414305-2206-15ms
Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100
Codegenerierung
99
Mehrsprachig
100
Schlussfolgern
Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — Claude Haiku 4.5
$1.00 pro 1M Input-Tokens
$5.00 pro 1M Output-Tokens
≈ $0.0016 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$1.00
pro 1M Output-Tokens$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

▲ +25% since first

$5.00

output / 1M

▲ +25% since first

2026-05-242026-05-312026-06-14
Input
Output
Price change
⟳ synced weekly
Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)338 / avg 298
130284

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Sehr kurze Antwortzeiten200.000-Token-KontextfensterSolides Instruction-FollowingAnthropics Constitutional-AI-TrainingGeeignet für Echtzeit-ChatbotsZuverlässige Textklassifikation

Schwächen

Weniger Tiefe als Sonnet oder OpusKomplexe Mehrschrittaufgaben begrenztKein Multimodal-Support
Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000
Abschnitt 07

Häufig gestellte Fragen

Wenn Reaktionsgeschwindigkeit wichtiger ist als maximale Reasoning-Tiefe – etwa bei Kundenservice-Bots oder Datenpipelines.

Wer Anthropics Qualität mit minimalster Latenz kombinieren will, trifft mit Haiku 4.5 die effizienteste Wahl der Claude-Familie.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 08

Verfügbarkeit

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

100.0%

n=21

Letzte 30 Tage

100.0%

n=21

Mediane Antwortzeit

1,912ms

n=21

Basierend auf 109 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

21

OK-Antworten (30d)

21

Gesamte Aufrufe (7d)

21

OK-Antworten (7d)

21

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-592/100 · 76 runs
66 correct8 partial2 wrong87% accuracy
2026-06-14

Claude Haiku 4.5: Major Quality Leap with Increased Latency Trade-off

Claude Haiku 4.5 demonstrates a substantial quality improvement in the current window, jumping 6.7 points to reach an exceptional 99.6 overall score. The model has achieved perfect 100-point scores in both coding and reasoning categories, representing significant gains over the previous window's coding performance and marking the emergence of reasoning as a tracked capability. Multilingual performance remains strong at 99, down just one point from the previous perfect score. However, this quality enhancement comes with a notable performance cost: median latency has increased by 26 percent, rising from 2998ms to 3763ms. This suggests Anthropic may have prioritized capability improvements over speed optimization in this iteration. The shift in tracked categories is noteworthy, with creative and factual assessments absent from current results while reasoning now appears as a measured dimension. Users can expect substantially improved code generation and logical reasoning capabilities, but should account for longer response times in latency-sensitive applications. The near-perfect overall score positions this model among the highest-performing options available, though the speed regression may impact real-time use cases.

Quality

99.6

Latency p50

3,763 ms

Test runs

5

Quality improved 6.7 points Perfect coding and reasoning scores Latency increased 26% Response time now 3763ms
Abschnitt 10

Vollständiges Modellprofil

Claude Haiku 4.5 — illustration 1
Claude Haiku 4.5: Anthropics kleines Modell, ernst genommen

Claude Haiku 4.5 (claude-haiku-4-5-20251001) ist das kleinste Modell in der aktuellen Anthropic-Lineup. Zweihunderttausend Token Kontextfenster. Text- und Vision-Eingabe. Ein Latenzprofil, das den Einsatz in Nutzeroberflächen erlaubt — ohne Entschuldigungsseite für langsame Antworten.

Anthropic hat still und leise die Schwachstellen behoben, die Haiku früher zur „offensichtlichen Downgrade"-Wahl gemacht hatten. Die vorherige Haiku-Generation wirkte zerbrechlich, sobald ein Prompt vom Chatformat abwich. 4.5 hält deutlich stabiler durch bei den schwierigen Zwischenfällen — Felder aus einer unordentlichen Rechnung extrahieren, ein Support-Ticket mit zwei überlappenden Absichten klassifizieren, einen langen Thread zusammenfassen, ohne die eigentliche Frage des Kunden zu verlieren. Es ist kein Opus. Es gibt sich auch nicht als eines aus.

Was die Geschwindigkeit bringt

Time-to-First-Token ist die entscheidende Kennzahl. Haiku 4.5 streamt bei kurzen Prompts nahezu sofort und bleibt reaktionsfähig, während die Eingabe zum Ende seines Kontextfensters wächst. Die aktuellen Messwerte finden Sie auf /benchmarks/speed — sie verschieben sich wöchentlich, während Anthropic die Infrastruktur optimiert, aber Haiku ist konstant eines der schnelleren API-gehosteten Text-mit-Vision-Modelle in unseren Messungen.

Dieses Latenzprofil verändert, was man bauen kann. Echtzeitige Konversationsagenten werden ohne aggressives Prompt-Engineering realisierbar. Streaming-RAG-Antworten wirken flott, selbst wenn der Retrieval-Payload weit über 50.000 Token hinausgeht. Batch-Klassifizierungsaufgaben, die auf Opus eine halbe Stunde dauern würden, sind in Minuten erledigt. Die Kosten eines kleinen Tier-A-Modells sind selten nur der Token-Zeilenposten — es sind die architektonischen Vereinfachungen, die man damit ausliefern kann.

Vision-Eingabe, die sich bezahlt macht

Haiku 4.5 erbt den Vision-Stack der gesamten 4.x-Familie. Man kann ihm Screenshots, gescannte Dokumente, Fotos von Formularen und Diagramme übergeben. Für OCR-ähnliche Aufgaben — Dashboards lesen, Positionen von Quittungen extrahieren, getippte Seiten transkribieren — erledigt es die Arbeit gut genug, dass man selten auf ein größeres Modell eskalieren muss.

Handgeschriebener Text bleibt die Schwachstelle. Ebenso Diagramme mit winzigen Achsenbeschriftungen und dichte wissenschaftliche Abbildungen. Wenn ein Dokument für einen Menschen in Miniaturansicht schwer lesbar ist, wird Haiku Probleme haben. Planen Sie bei sicherheitskritischen Anwendungen einen menschlichen Kontrollschritt ein.

Einordnung in die Modelllandschaft

Ehrliche Einschätzung: Haiku 4.5 konkurriert mit Gemini 2.5 Flash, Gemini 2.5 Flash-Lite und OpenAIs kleineren GPT-5-Varianten für dieselben Aufgaben. Die Wahl zwischen ihnen fällt selten anhand eines einzigen Benchmarks.

Stärken von Haiku 4.5:

  • Zuverlässigkeit bei strukturierter Ausgabe. Geben Sie ihm ein JSON-Schema, und es hält sich daran. Frühere kleine Claude-Modelle haben gelegentlich zusätzliche Felder halluziniert. Diese Regression scheint behoben.
  • Ablehnungsverhalten. Grenzwertige Prompts werden auf dieselbe Weise abgelehnt wie bei Opus, mit derselben sichtbaren Begründung. Wenn Ihre Anwendung konsistentes Guardrail-Verhalten über Modellstufen hinweg erfordert, fügt sich Haiku 4.5 gut ein.
  • Europäischsprachige Verwaltungsprosa. Deutsch, Französisch, Niederländisch, Polnisch — die Opus-Linie war hier stets stark, und Haiku erbt dieses Erbe. Es ist nicht makellos bei juristischem Idiom, aber es anglisiert keine Fachbegriffe, wie es manche konkurrierenden kleinen Modelle tun.

Schwächen:

  • Preis pro Token. Einige konkurrierende kleine Modelle liegen günstiger. Für rein kostengetriebene Batch-Aufgaben in großem Umfang sollten Sie die Zahlen selbst gegen die Sidebar-Angaben prüfen.
  • Latenz bei sehr langen Prompts. Jenseits von etwa 150.000 Eingabe-Token steigt die Time-to-First-Token. Gemini 2.5 Flash streamt manchmal schneller am langen Ende seines Fensters.

Einen direkten Vergleich bietet das /benchmarks/leaderboard. Die Kategoriebewertungen sind auf /benchmarks/intelligence aufgeschlüsselt.

Wann es das falsche Werkzeug ist

Alles, was tiefes mehrstufiges Reasoning erfordert. Haiku 4.5 ist bei Chain-of-Thought nicht schlecht, hat aber nicht dieselbe Geduld für Selbstkontrolle wie Opus. Wenn die Aufgabe eine Überprüfung der eigenen Zwischenschritte erfordert, sollten Sie eskalieren.

Code-Generierung in unbekannten Codebasen. Es schreibt vernünftigen Code, aber ein Frontier-Modell — einschließlich Anthropics eigenem Sonnet oder Opus — produziert idiomatischeren Output, wenn sich das Framework schnell entwickelt. Hinweise zur IDE-Nutzung finden Sie auf /usecases/code.

Sprache und Audio. Haiku 4.5 hat keine Audio-Eingabe. Schalten Sie ein Transkriptionsmodell vor, wenn Sie gesprochene Konversation benötigen. Den Entscheidungsbaum finden Sie auf /usecases/voice.

Alles Sicherheitskritische ohne Überprüfung. Das Modell ist gut ausgerichtet und lehnt durchdacht ab, aber auf dieser Ebene sollten Sie medizinische, rechtliche oder finanzielle Ratschläge nicht unbeaufsichtigt durchlaufen lassen. Das gilt für jedes kleine Modell, nicht nur dieses.

Deployment-Hinweise

REST API. Streaming funktioniert. System-Prompts verhalten sich vorhersehbar. Tool-Use-Aufrufe sind zuverlässig genug, um Agent-Loops darauf aufzubauen, ohne defensive Parser um jede Antwort zu schreiben.

Regionale Verfügbarkeit folgt demselben Anthropic-Muster wie der Rest der Claude-Lineup — Inferenz läuft auf AWS- und Google-Cloud-Infrastruktur, und die öffentliche API lässt keine Regionsauswahl zu. EU-Teams mit strengen Residenzanforderungen müssen einen Enterprise-Vertrag aushandeln oder Alternativen bei OVH oder Scaleway in Betracht ziehen. Die Übersicht zu Open-Weight-Optionen bei nicht verhandelbarer Residenzpflicht finden Sie auf /usecases/local.

Logs werden standardmäßig 30 Tage für die Missbrauchsüberwachung aufbewahrt. Eingaben werden nicht für das Training verwendet, sofern Sie dem nicht zustimmen. Zero-Retention ist eine Vertragsverhandlung, kein Einstellungsschalter.

Wann Sie es einsetzen sollten

Greifen Sie zu Claude Haiku 4.5, wenn:

  • Latenz genauso wichtig ist wie Qualität.
  • Sie dasselbe Ablehnungsverhalten und dieselbe Zuverlässigkeit bei strukturierter Ausgabe wie bei Opus wollen — zu einem Bruchteil der Kosten und Zeit.
  • Sie hochvolumige RAG-, Klassifizierungs- oder Konversationsaufgaben erledigen, bei denen Reasoning-Tiefe nicht der Engpass ist.
  • Sie Vision-Eingabe für Dokumente benötigen, die ein Mensch in voller Auflösung lesen könnte.

Übergehen Sie es, wenn:

  • Die Aufgabe nachhaltiges mehrstufiges Reasoning erfordert. Wechseln Sie zu Sonnet oder Opus.
  • Sie Audio-Eingabe oder -Ausgabe benötigen. Falsche Familie.
  • Kosten jeden anderen Aspekt dominieren und Sie eine schwächere Zuverlässigkeit bei strukturierter Ausgabe tolerieren können — manche Konkurrenten sind günstiger.
  • Sie On-Premise-Deployment benötigen. Anthropic liefert keine Gewichte aus.

Zusammenfassung: Haiku 4.5 ist ein kleines Modell, das sich selbst ernst nimmt. Es ist der richtige Standard für alles, was nicht ausdrücklich Sonnet oder Opus erfordert — und die Kosten einer falschen Einschätzung sind geringer als früher.

Testen Sie es selbst im Vergleich mit den Alternativen auf /live-test. Gleicher Prompt, mehrere Modelle, nebeneinander.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Claude Haiku 4.5 — illustration 2
Letzter automatisierter Test
15. Juni 2026 · 08:00 UTC · Geschwindigkeits-Benchmark
P50-Latenz
591 ms
P95-Latenz
731 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026