Wie groß ist das Kontextfenster?

200.000 Tokens – identisch mit den größeren Claude-Varianten, was konsistente Dokumentenverarbeitung in der gesamten Familie ermöglicht.

Unterstützt Haiku 4.5 Bildverarbeitung?

Nein, das Modell konzentriert sich auf textbasierte Aufgaben.

Wie unterscheidet sich Haiku von Claude Sonnet 4.5?

Haiku ist auf Geschwindigkeit optimiert, während Sonnet eine stärkere Balance zwischen Leistung und Effizienz bietet.

Tier A — Frontier

Läuft in:USErstellt in:United States

Anthropic

Claude Haiku 4.5

Tier A — Frontier · 200K Tokens

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 22. Mai 2026·Zuletzt geprüft 24. Mai 2026

Claude Haiku 4.5 ist ein von Anthropic entwickeltes Sprachmodell, das als schnelle und effiziente Option innerhalb der Claude-Modellfamilie positioniert ist. Es ist darauf ausgelegt, standardmäßige Textgenerierungsaufgaben mit geringerer Latenz im Vergleich zu größeren Modellen der Reihe zu bewältigen, was es für Anwendungen geeignet macht, bei denen die Antwortgeschwindigkeit Priorität hat. Das Modell unterstützt ein Kontextfenster von 200.000 Token, wodurch es erhebliche Textmengen in einer einzelnen Interaktion verarbeiten und referenzieren kann. Dieses Modell wurde entwickelt, um Anwendungsfälle zu bedienen, die schnelle Inferenz ohne den rechnerischen Overhead von Anthropics leistungsfähigeren Modellen wie Claude Sonnet oder Claude Opus erfordern. Typische Anwendungen umfassen Automatisierung im Kundensupport, Content-Moderation, Datenextraktion und Echtzeit-Chatbot-Implementierungen, bei denen schnelle Bearbeitungszeiten entscheidend sind. Während es grundlegende Fähigkeiten in den Bereichen Reasoning, Befolgung von Anweisungen und natürlichem Sprachverständnis beibehält, stellt es einen Kompromiss zwischen Leistung und Geschwindigkeit innerhalb der Modellhierarchie von Anthropic dar. Claude Haiku 4.5 fügt sich in Anthropics gestaffelte Modellstruktur als effizienzorientierte Option ein und liegt unterhalb von Claude Sonnet und Claude Opus hinsichtlich Reasoning-Tiefe und Handhabung komplexer Aufgaben. Es teilt dasselbe erweiterte Kontextfenster wie andere Modelle der Claude 3.5-Generation, was konsistente Dokumentenverarbeitungsfähigkeiten über die gesamte Reihe hinweg ermöglicht. Das Modell ist über die API von Anthropic zugänglich und wurde für Entwickler konzipiert, die zuverlässige Textgenerierung mit minimaler Latenz in Produktionsumgebungen benötigen.

Claude Haiku 4.5 mit eigenen Fragen testen

Geschwindigkeit ist Trumpf: Claude Haiku 4.5 liefert schnelle Antworten mit 200.000-Token-Kontext für zeitkritische Anwendungen.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz102 runs

Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

Kreativ

Faktisch

100

Mehrsprachig

100

Schlussfolgern

Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Claude Haiku 4.5

$1.00 pro 1M Input-Tokens

$5.00 pro 1M Output-Tokens

≈ $0.0016 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$1.00

pro 1M Output-Tokens$5.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.00

input / 1M

— stable

$5.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)174 / avg 265

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

Sehr kurze Antwortzeiten200.000-Token-KontextfensterSolides Instruction-FollowingAnthropics Constitutional-AI-TrainingGeeignet für Echtzeit-ChatbotsZuverlässige Textklassifikation

Schwächen

Weniger Tiefe als Sonnet oder OpusKomplexe Mehrschrittaufgaben begrenztKein Multimodal-Support

Abschnitt 06

Fähigkeiten

toolssource: litellmvisionjson modepdf inputreasoningjson schemaprompt cachingmax output tokens: 64000

Abschnitt 07

Häufig gestellte Fragen

Wenn Reaktionsgeschwindigkeit wichtiger ist als maximale Reasoning-Tiefe – etwa bei Kundenservice-Bots oder Datenpipelines.

Wer Anthropics Qualität mit minimalster Latenz kombinieren will, trifft mit Haiku 4.5 die effizienteste Wahl der Claude-Familie.
— Tokonomix-Benchmark-Zusammenfassung

Abschnitt 08

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

100.0%

n=17

Letzte 30 Tage

100.0%

n=510

Mediane Antwortzeit

6,474ms

n=510

Basierend auf 890 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

510

OK-Antworten (30d)

510

Gesamte Aufrufe (7d)

OK-Antworten (7d)

Abschnitt 09

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-593/100 · 116 runs

103 correct9 partial4 wrong89% accuracy

● 2026-07-26

Claude Haiku 4.5: Speed Gains Offset by Quality Regression

Claude Haiku 4.5 shows a notable 38% latency improvement, dropping from 4596ms to 2855ms median response time, making it significantly faster for production use cases. However, this performance gain comes alongside a concerning 3.2-point decrease in overall quality score, falling from 97.7 to 94.5. The model continues to excel in reasoning and multilingual tasks, both scoring perfect hundreds, with multilingual performance slightly improving from 98. Creative output remains strong at 96, up marginally from 95. The most significant concern is the absence of coding scores in the current window despite previous perfect performance, suggesting either test coverage changes or potential capability regression in this domain. Factual accuracy shows at 82, representing a new measurement category. The model maintains exceptional performance in core capabilities while delivering substantially faster responses, but users relying on coding tasks should exercise caution until this capability is re-verified. The quality-speed tradeoff appears deliberate, positioning this version for latency-sensitive applications where the modest quality decrease is acceptable.

Quality

94.5

Latency p50

2,855 ms

Test runs

✓ 38% faster response time✗ 3.2-point quality decrease✓ Perfect reasoning and multilingual scores✗ Coding performance not measured

Abschnitt 10

Vollständiges Modellprofil

Claude Haiku 4.5: Anthropics kleines Modell, ernst genommen

Claude Haiku 4.5 (claude-haiku-4-5-20251001) ist das kleinste Modell in der aktuellen Anthropic-Lineup. Zweihunderttausend Token Kontextfenster. Text- und Vision-Eingabe. Ein Latenzprofil, das den Einsatz in Nutzeroberflächen erlaubt — ohne Entschuldigungsseite für langsame Antworten.

Anthropic hat still und leise die Schwachstellen behoben, die Haiku früher zur „offensichtlichen Downgrade"-Wahl gemacht hatten. Die vorherige Haiku-Generation wirkte zerbrechlich, sobald ein Prompt vom Chatformat abwich. 4.5 hält deutlich stabiler durch bei den schwierigen Zwischenfällen — Felder aus einer unordentlichen Rechnung extrahieren, ein Support-Ticket mit zwei überlappenden Absichten klassifizieren, einen langen Thread zusammenfassen, ohne die eigentliche Frage des Kunden zu verlieren. Es ist kein Opus. Es gibt sich auch nicht als eines aus.

Was die Geschwindigkeit bringt

Time-to-First-Token ist die entscheidende Kennzahl. Haiku 4.5 streamt bei kurzen Prompts nahezu sofort und bleibt reaktionsfähig, während die Eingabe zum Ende seines Kontextfensters wächst. Die aktuellen Messwerte finden Sie auf /benchmarks/speed — sie verschieben sich wöchentlich, während Anthropic die Infrastruktur optimiert, aber Haiku ist konstant eines der schnelleren API-gehosteten Text-mit-Vision-Modelle in unseren Messungen.

Dieses Latenzprofil verändert, was man bauen kann. Echtzeitige Konversationsagenten werden ohne aggressives Prompt-Engineering realisierbar. Streaming-RAG-Antworten wirken flott, selbst wenn der Retrieval-Payload weit über 50.000 Token hinausgeht. Batch-Klassifizierungsaufgaben, die auf Opus eine halbe Stunde dauern würden, sind in Minuten erledigt. Die Kosten eines kleinen Tier-A-Modells sind selten nur der Token-Zeilenposten — es sind die architektonischen Vereinfachungen, die man damit ausliefern kann.

Vision-Eingabe, die sich bezahlt macht

Haiku 4.5 erbt den Vision-Stack der gesamten 4.x-Familie. Man kann ihm Screenshots, gescannte Dokumente, Fotos von Formularen und Diagramme übergeben. Für OCR-ähnliche Aufgaben — Dashboards lesen, Positionen von Quittungen extrahieren, getippte Seiten transkribieren — erledigt es die Arbeit gut genug, dass man selten auf ein größeres Modell eskalieren muss.

Handgeschriebener Text bleibt die Schwachstelle. Ebenso Diagramme mit winzigen Achsenbeschriftungen und dichte wissenschaftliche Abbildungen. Wenn ein Dokument für einen Menschen in Miniaturansicht schwer lesbar ist, wird Haiku Probleme haben. Planen Sie bei sicherheitskritischen Anwendungen einen menschlichen Kontrollschritt ein.

Einordnung in die Modelllandschaft

Ehrliche Einschätzung: Haiku 4.5 konkurriert mit Gemini 2.5 Flash, Gemini 2.5 Flash-Lite und OpenAIs kleineren GPT-5-Varianten für dieselben Aufgaben. Die Wahl zwischen ihnen fällt selten anhand eines einzigen Benchmarks.

Stärken von Haiku 4.5:

Zuverlässigkeit bei strukturierter Ausgabe. Geben Sie ihm ein JSON-Schema, und es hält sich daran. Frühere kleine Claude-Modelle haben gelegentlich zusätzliche Felder halluziniert. Diese Regression scheint behoben.
Ablehnungsverhalten. Grenzwertige Prompts werden auf dieselbe Weise abgelehnt wie bei Opus, mit derselben sichtbaren Begründung. Wenn Ihre Anwendung konsistentes Guardrail-Verhalten über Modellstufen hinweg erfordert, fügt sich Haiku 4.5 gut ein.
Europäischsprachige Verwaltungsprosa. Deutsch, Französisch, Niederländisch, Polnisch — die Opus-Linie war hier stets stark, und Haiku erbt dieses Erbe. Es ist nicht makellos bei juristischem Idiom, aber es anglisiert keine Fachbegriffe, wie es manche konkurrierenden kleinen Modelle tun.

Schwächen:

Preis pro Token. Einige konkurrierende kleine Modelle liegen günstiger. Für rein kostengetriebene Batch-Aufgaben in großem Umfang sollten Sie die Zahlen selbst gegen die Sidebar-Angaben prüfen.
Latenz bei sehr langen Prompts. Jenseits von etwa 150.000 Eingabe-Token steigt die Time-to-First-Token. Gemini 2.5 Flash streamt manchmal schneller am langen Ende seines Fensters.

Einen direkten Vergleich bietet das /benchmarks/leaderboard. Die Kategoriebewertungen sind auf /benchmarks/intelligence aufgeschlüsselt.

Wann es das falsche Werkzeug ist

Alles, was tiefes mehrstufiges Reasoning erfordert. Haiku 4.5 ist bei Chain-of-Thought nicht schlecht, hat aber nicht dieselbe Geduld für Selbstkontrolle wie Opus. Wenn die Aufgabe eine Überprüfung der eigenen Zwischenschritte erfordert, sollten Sie eskalieren.

Code-Generierung in unbekannten Codebasen. Es schreibt vernünftigen Code, aber ein Frontier-Modell — einschließlich Anthropics eigenem Sonnet oder Opus — produziert idiomatischeren Output, wenn sich das Framework schnell entwickelt. Hinweise zur IDE-Nutzung finden Sie auf /usecases/code.

Sprache und Audio. Haiku 4.5 hat keine Audio-Eingabe. Schalten Sie ein Transkriptionsmodell vor, wenn Sie gesprochene Konversation benötigen. Den Entscheidungsbaum finden Sie auf /usecases/voice.

Alles Sicherheitskritische ohne Überprüfung. Das Modell ist gut ausgerichtet und lehnt durchdacht ab, aber auf dieser Ebene sollten Sie medizinische, rechtliche oder finanzielle Ratschläge nicht unbeaufsichtigt durchlaufen lassen. Das gilt für jedes kleine Modell, nicht nur dieses.

Deployment-Hinweise

REST API. Streaming funktioniert. System-Prompts verhalten sich vorhersehbar. Tool-Use-Aufrufe sind zuverlässig genug, um Agent-Loops darauf aufzubauen, ohne defensive Parser um jede Antwort zu schreiben.

Regionale Verfügbarkeit folgt demselben Anthropic-Muster wie der Rest der Claude-Lineup — Inferenz läuft auf AWS- und Google-Cloud-Infrastruktur, und die öffentliche API lässt keine Regionsauswahl zu. EU-Teams mit strengen Residenzanforderungen müssen einen Enterprise-Vertrag aushandeln oder Alternativen bei OVH oder Scaleway in Betracht ziehen. Die Übersicht zu Open-Weight-Optionen bei nicht verhandelbarer Residenzpflicht finden Sie auf /usecases/local.

Logs werden standardmäßig 30 Tage für die Missbrauchsüberwachung aufbewahrt. Eingaben werden nicht für das Training verwendet, sofern Sie dem nicht zustimmen. Zero-Retention ist eine Vertragsverhandlung, kein Einstellungsschalter.

Wann Sie es einsetzen sollten

Greifen Sie zu Claude Haiku 4.5, wenn:

Latenz genauso wichtig ist wie Qualität.
Sie dasselbe Ablehnungsverhalten und dieselbe Zuverlässigkeit bei strukturierter Ausgabe wie bei Opus wollen — zu einem Bruchteil der Kosten und Zeit.
Sie hochvolumige RAG-, Klassifizierungs- oder Konversationsaufgaben erledigen, bei denen Reasoning-Tiefe nicht der Engpass ist.
Sie Vision-Eingabe für Dokumente benötigen, die ein Mensch in voller Auflösung lesen könnte.

Übergehen Sie es, wenn:

Die Aufgabe nachhaltiges mehrstufiges Reasoning erfordert. Wechseln Sie zu Sonnet oder Opus.
Sie Audio-Eingabe oder -Ausgabe benötigen. Falsche Familie.
Kosten jeden anderen Aspekt dominieren und Sie eine schwächere Zuverlässigkeit bei strukturierter Ausgabe tolerieren können — manche Konkurrenten sind günstiger.
Sie On-Premise-Deployment benötigen. Anthropic liefert keine Gewichte aus.

Zusammenfassung: Haiku 4.5 ist ein kleines Modell, das sich selbst ernst nimmt. Es ist der richtige Standard für alles, was nicht ausdrücklich Sonnet oder Opus erfordert — und die Kosten einer falschen Einschätzung sind geringer als früher.

Testen Sie es selbst im Vergleich mit den Alternativen auf /live-test. Gleicher Prompt, mehrere Modelle, nebeneinander.

Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai

Letzter automatisierter Test

30. Juli 2026 · 14:05 UTC · Geschwindigkeits-Benchmark

P50-Latenz

1150 ms

P95-Latenz

1159 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·24. Mai 2026