
Claude Haiku 4.5 (claude-haiku-4-5-20251001) ist das kleinste Modell in der aktuellen Anthropic-Lineup. Zweihunderttausend Token Kontextfenster. Text- und Vision-Eingabe. Ein Latenzprofil, das den Einsatz in Nutzeroberflächen erlaubt — ohne Entschuldigungsseite für langsame Antworten.
Anthropic hat still und leise die Schwachstellen behoben, die Haiku früher zur „offensichtlichen Downgrade"-Wahl gemacht hatten. Die vorherige Haiku-Generation wirkte zerbrechlich, sobald ein Prompt vom Chatformat abwich. 4.5 hält deutlich stabiler durch bei den schwierigen Zwischenfällen — Felder aus einer unordentlichen Rechnung extrahieren, ein Support-Ticket mit zwei überlappenden Absichten klassifizieren, einen langen Thread zusammenfassen, ohne die eigentliche Frage des Kunden zu verlieren. Es ist kein Opus. Es gibt sich auch nicht als eines aus.
Was die Geschwindigkeit bringt
Time-to-First-Token ist die entscheidende Kennzahl. Haiku 4.5 streamt bei kurzen Prompts nahezu sofort und bleibt reaktionsfähig, während die Eingabe zum Ende seines Kontextfensters wächst. Die aktuellen Messwerte finden Sie auf /benchmarks/speed — sie verschieben sich wöchentlich, während Anthropic die Infrastruktur optimiert, aber Haiku ist konstant eines der schnelleren API-gehosteten Text-mit-Vision-Modelle in unseren Messungen.
Dieses Latenzprofil verändert, was man bauen kann. Echtzeitige Konversationsagenten werden ohne aggressives Prompt-Engineering realisierbar. Streaming-RAG-Antworten wirken flott, selbst wenn der Retrieval-Payload weit über 50.000 Token hinausgeht. Batch-Klassifizierungsaufgaben, die auf Opus eine halbe Stunde dauern würden, sind in Minuten erledigt. Die Kosten eines kleinen Tier-A-Modells sind selten nur der Token-Zeilenposten — es sind die architektonischen Vereinfachungen, die man damit ausliefern kann.
Vision-Eingabe, die sich bezahlt macht
Haiku 4.5 erbt den Vision-Stack der gesamten 4.x-Familie. Man kann ihm Screenshots, gescannte Dokumente, Fotos von Formularen und Diagramme übergeben. Für OCR-ähnliche Aufgaben — Dashboards lesen, Positionen von Quittungen extrahieren, getippte Seiten transkribieren — erledigt es die Arbeit gut genug, dass man selten auf ein größeres Modell eskalieren muss.
Handgeschriebener Text bleibt die Schwachstelle. Ebenso Diagramme mit winzigen Achsenbeschriftungen und dichte wissenschaftliche Abbildungen. Wenn ein Dokument für einen Menschen in Miniaturansicht schwer lesbar ist, wird Haiku Probleme haben. Planen Sie bei sicherheitskritischen Anwendungen einen menschlichen Kontrollschritt ein.
Einordnung in die Modelllandschaft
Ehrliche Einschätzung: Haiku 4.5 konkurriert mit Gemini 2.5 Flash, Gemini 2.5 Flash-Lite und OpenAIs kleineren GPT-5-Varianten für dieselben Aufgaben. Die Wahl zwischen ihnen fällt selten anhand eines einzigen Benchmarks.
Stärken von Haiku 4.5:
- Zuverlässigkeit bei strukturierter Ausgabe. Geben Sie ihm ein JSON-Schema, und es hält sich daran. Frühere kleine Claude-Modelle haben gelegentlich zusätzliche Felder halluziniert. Diese Regression scheint behoben.
- Ablehnungsverhalten. Grenzwertige Prompts werden auf dieselbe Weise abgelehnt wie bei Opus, mit derselben sichtbaren Begründung. Wenn Ihre Anwendung konsistentes Guardrail-Verhalten über Modellstufen hinweg erfordert, fügt sich Haiku 4.5 gut ein.
- Europäischsprachige Verwaltungsprosa. Deutsch, Französisch, Niederländisch, Polnisch — die Opus-Linie war hier stets stark, und Haiku erbt dieses Erbe. Es ist nicht makellos bei juristischem Idiom, aber es anglisiert keine Fachbegriffe, wie es manche konkurrierenden kleinen Modelle tun.
Schwächen:
- Preis pro Token. Einige konkurrierende kleine Modelle liegen günstiger. Für rein kostengetriebene Batch-Aufgaben in großem Umfang sollten Sie die Zahlen selbst gegen die Sidebar-Angaben prüfen.
- Latenz bei sehr langen Prompts. Jenseits von etwa 150.000 Eingabe-Token steigt die Time-to-First-Token. Gemini 2.5 Flash streamt manchmal schneller am langen Ende seines Fensters.
Einen direkten Vergleich bietet das /benchmarks/leaderboard. Die Kategoriebewertungen sind auf /benchmarks/intelligence aufgeschlüsselt.
Wann es das falsche Werkzeug ist
Alles, was tiefes mehrstufiges Reasoning erfordert. Haiku 4.5 ist bei Chain-of-Thought nicht schlecht, hat aber nicht dieselbe Geduld für Selbstkontrolle wie Opus. Wenn die Aufgabe eine Überprüfung der eigenen Zwischenschritte erfordert, sollten Sie eskalieren.
Code-Generierung in unbekannten Codebasen. Es schreibt vernünftigen Code, aber ein Frontier-Modell — einschließlich Anthropics eigenem Sonnet oder Opus — produziert idiomatischeren Output, wenn sich das Framework schnell entwickelt. Hinweise zur IDE-Nutzung finden Sie auf /usecases/code.
Sprache und Audio. Haiku 4.5 hat keine Audio-Eingabe. Schalten Sie ein Transkriptionsmodell vor, wenn Sie gesprochene Konversation benötigen. Den Entscheidungsbaum finden Sie auf /usecases/voice.
Alles Sicherheitskritische ohne Überprüfung. Das Modell ist gut ausgerichtet und lehnt durchdacht ab, aber auf dieser Ebene sollten Sie medizinische, rechtliche oder finanzielle Ratschläge nicht unbeaufsichtigt durchlaufen lassen. Das gilt für jedes kleine Modell, nicht nur dieses.
Deployment-Hinweise
REST API. Streaming funktioniert. System-Prompts verhalten sich vorhersehbar. Tool-Use-Aufrufe sind zuverlässig genug, um Agent-Loops darauf aufzubauen, ohne defensive Parser um jede Antwort zu schreiben.
Regionale Verfügbarkeit folgt demselben Anthropic-Muster wie der Rest der Claude-Lineup — Inferenz läuft auf AWS- und Google-Cloud-Infrastruktur, und die öffentliche API lässt keine Regionsauswahl zu. EU-Teams mit strengen Residenzanforderungen müssen einen Enterprise-Vertrag aushandeln oder Alternativen bei OVH oder Scaleway in Betracht ziehen. Die Übersicht zu Open-Weight-Optionen bei nicht verhandelbarer Residenzpflicht finden Sie auf /usecases/local.
Logs werden standardmäßig 30 Tage für die Missbrauchsüberwachung aufbewahrt. Eingaben werden nicht für das Training verwendet, sofern Sie dem nicht zustimmen. Zero-Retention ist eine Vertragsverhandlung, kein Einstellungsschalter.
Wann Sie es einsetzen sollten
Greifen Sie zu Claude Haiku 4.5, wenn:
- Latenz genauso wichtig ist wie Qualität.
- Sie dasselbe Ablehnungsverhalten und dieselbe Zuverlässigkeit bei strukturierter Ausgabe wie bei Opus wollen — zu einem Bruchteil der Kosten und Zeit.
- Sie hochvolumige RAG-, Klassifizierungs- oder Konversationsaufgaben erledigen, bei denen Reasoning-Tiefe nicht der Engpass ist.
- Sie Vision-Eingabe für Dokumente benötigen, die ein Mensch in voller Auflösung lesen könnte.
Übergehen Sie es, wenn:
- Die Aufgabe nachhaltiges mehrstufiges Reasoning erfordert. Wechseln Sie zu Sonnet oder Opus.
- Sie Audio-Eingabe oder -Ausgabe benötigen. Falsche Familie.
- Kosten jeden anderen Aspekt dominieren und Sie eine schwächere Zuverlässigkeit bei strukturierter Ausgabe tolerieren können — manche Konkurrenten sind günstiger.
- Sie On-Premise-Deployment benötigen. Anthropic liefert keine Gewichte aus.
Zusammenfassung: Haiku 4.5 ist ein kleines Modell, das sich selbst ernst nimmt. Es ist der richtige Standard für alles, was nicht ausdrücklich Sonnet oder Opus erfordert — und die Kosten einer falschen Einschätzung sind geringer als früher.
Testen Sie es selbst im Vergleich mit den Alternativen auf /live-test. Gleicher Prompt, mehrere Modelle, nebeneinander.
Letzte technische Überprüfung: 2026-05-22 — Tokonomix.ai
