Zum Inhalt
Tier A — Frontier
Läuft in:Multi-regionErstellt in:China
OpenRouter

DeepSeek v3.2

Tier A — Frontier · 131K Tokens · 671B-MoE

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan··

DeepSeek v3.2 ist ein von DeepSeek AI entwickeltes großes Sprachmodell, das für eine Vielzahl von Aufgaben der natürlichen Sprachverarbeitung konzipiert ist, darunter Codegenerierung, Tool-Nutzung und komplexes Reasoning. Das Modell verfügt über ein Kontextfenster von 131.000 Tokens, wodurch es Kohärenz über umfangreiche Dokumente, ausgedehnte Codebasen und mehrstufige Konversationen hinweg bewahren kann. Diese erweiterte Kontextkapazität macht es besonders geeignet für Anwendungen, die ein tiefes Verständnis großskaliger Informationen erfordern. Das Modell zeigt Fähigkeiten in mehreren Bereichen, mit besonderem Schwerpunkt auf Programmieraufgaben, Function Calling und Tool-Integration, Werteausrichtung sowie logischem Reasoning. Seine Architektur unterstützt sowohl konversationelle Interaktionen als auch strukturierte Ausgaben, sodass Entwickler es in vielfältigen Anwendungen einsetzen können – von Assistenten für die Softwareentwicklung bis hin zu Systemen für analytisches Reasoning. Die Reasoning-Fähigkeit deutet darauf hin, dass das Modell schrittweise Problemzerlegung und Multi-Hop-Inferenz durchführen kann. DeepSeek v3.2 wird über OpenRouter angeboten, eine Plattform, die einheitlichen Zugang zu mehreren Sprachmodellen über eine einzige API bereitstellt. Innerhalb der DeepSeek-Reihe stellt Version 3.2 eine Iteration dar, die breite Funktionsabdeckung mit praktischen Bereitstellungsaspekten in Einklang bringt. Das Modell konkurriert im Bereich der universell einsetzbaren großen Sprachmodelle und behält dabei spezifische Stärken in technischen und analytischen Domänen bei – damit positioniert es sich als vielseitige Option für Entwickler, die zuverlässige Leistung bei Codegenerierung, Reasoning-Aufgaben und standardmäßigen Anwendungen zum Sprachverständnis benötigen.

DeepSeek v3.2: 671B-MoE-Modell mit 131k Kontext für Code, Tool-Integration und analytisches Reasoning via OpenRouter.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz68 runs
161185435485241693405-2406-09ms
Abschnitt 02

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰
API-Tarife — DeepSeek v3.2
$0.2800 pro 1M Input-Tokens
$0.4000 pro 1M Output-Tokens
≈ $0.0002 pro typischem Gespräch (800 Tokens)
Input- vs. Output-Preis (pro 1M Tokens)
pro 1M Input-Tokens$0.2800
pro 1M Output-Tokens$0.4000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.2800

input / 1M

▲ +12% since first

$0.4000

output / 1M

▲ +5% since first

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Abschnitt 03

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)180 / avg 342
123031

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 04

Stärken & Schwächen

Basierend auf Benchmark-Ergebnissen und aggregiertem Community-Feedback zu realen Anwendungsfällen.

Stärken

671B-MoE-Architektur131.000-Token-KontextfensterCode-Generierung und Multi-Hop-ReasoningFunction-Calling und Tool-UseStrukturierte AusgabenOpenRouter API-Integration

Schwächen

Via OpenRouter, kein DirektzugangChinesischer Anbieter – Compliance prüfenUnter top-westlichen Modellen in einigen Bereichen
Abschnitt 05

Fähigkeiten

codetoolsvaluesource: litellmreasoningprompt cachingmax output tokens: 163840
Abschnitt 06

Häufig gestellte Fragen

v3.2 ist eine frühere Generation; v4 Pro baut auf diesen Grundlagen auf. Beide nutzen die 671B-MoE-Architektur.

Als technisch versierte MoE-Architektur zeigt DeepSeek v3.2, wie chinesische KI-Forschung im globalen Markt mitmischt.

Tokonomix-Benchmark-Zusammenfassung
Abschnitt 07

Tokonomix-Benchmark-Urteile

2026-06-07

Expanded capabilities: code, tools, reasoning, and prompt caching added

DeepSeek v3.2 has significantly expanded its capability set in this benchmark window. The model now supports code generation, tool usage, reasoning tasks, and prompt caching functionality, representing a substantial evolution from the baseline configuration. These additions position the model as a more versatile option for developers requiring multi-modal task handling. The value capability tag suggests optimization for cost-effectiveness alongside these feature additions. No performance metrics are available for either the current or previous benchmark windows, making it impossible to assess actual execution quality or compare against baseline performance. The capability expansion indicates active development and feature parity efforts with other frontier models. Users should note that while the feature set has broadened considerably, real-world performance validation through benchmark scores remains pending. The simultaneous introduction of multiple capabilities suggests a major version iteration rather than incremental updates. Organizations evaluating this model should conduct their own testing to verify how these new capabilities perform for their specific use cases, particularly in code generation and reasoning tasks where quality variance can be significant.

Quality

Latency p50

Test runs

0

Code generation capability added Tool usage support enabled Reasoning functionality introduced Prompt caching now available
Abschnitt 08

Vollständiges Modellprofil

DeepSeek v3.2 — illustration 1
DeepSeek v3.2: Das Mixture-of-Experts-Überraschungsmodell, das Kostenannahmen neu definiert

Wenn ein 671-Milliarden-Parameter Mixture-of-Experts-Modell im Niedrigpreissegment erscheint und dabei geschlossene proprietäre Angebote bei Code- und Reasoning-Benchmarks übertrifft, ist die natürliche Reaktion Skepsis. DeepSeek v3.2 lädt zu dieser Skepsis ein und zerlegt sie dann systematisch. Entwickelt von einem chinesischen Forschungslabor mit minimaler westlicher Presseaufmerksamkeit, ist dieses Modell zur stillen Wahl für Engineering-Teams geworden, die Frontier-Class-Performance bei technischen Aufgaben benötigen, ohne die API-Rechnungen, die typischerweise mit dieser Leistungsklasse einhergehen.

Das Modell nimmt eine ungewöhnliche Position innerhalb des Aggregator-Ökosystems ein. Während sich OpenRouter und ähnliche Plattformen ursprünglich als Marktplätze für Long-Tail Open-Weights-Modelle positionierten, die nicht direkt mit GPT-4 oder Claude konkurrieren konnten, durchbricht DeepSeek v3.2 dieses Schema. Es konkurriert direkt bei Qualitätsmetriken und behält gleichzeitig das Kosten- und Zugriffsprofil eines Community-Modells bei. Für Produktionsteams mit hohen Workload-Volumina – Code-Generierungs-Pipelines, Synthese technischer Dokumentation, Multi-Turn-Reasoning-Ketten – entsteht dadurch eine neue Kalkulation, bei der die Standard-Entscheidung „einfach GPT-4 verwenden" plötzlich gerechtfertigt werden muss.

Architektur und Training-Geschichte

DeepSeek v3.2 ist eine Mixture-of-Experts-Architektur mit insgesamt 671 Milliarden Parametern, von denen etwa 37 Milliarden pro Forward-Pass aktiv sind. Diese Designentscheidung ist für die Betriebskosten relevant: Man erhält die Wissenskapazität und emergenten Verhaltensweisen eines Modells, das mit drei Vierteln einer Billion Parametern trainiert wurde, aber die Inferenzkosten bewegen sich eher im Bereich eines dichten 40B-Modells. Die Entwicklung hier ist sorgfältig statt auffällig – keine revolutionären neuen Attention-Mechanismen, keine exotischen Trainings-Schemata, nur MoE-Routing, das für stabiles Verhalten über verschiedene Prompt-Typen hinweg optimiert wurde.

Der Training-Korpus tendiert stark zu Code, Mathematik und strukturierten Reasoning-Aufgaben. Das dokumentierte Training von DeepSeek umfasste multilinguale Daten mit starker Repräsentation von Chinesisch, Englisch und mehreren europäischen Sprachen sowie eine ungewöhnlich tiefe Sammlung technischer Dokumentation, akademischer Paper und Code-Repositories. Das Ergebnis ist ein Modell, das sich weniger wie ein generalistischer Assistent anfühlt und mehr wie ein technischer Mitarbeiter, der zufällig auch kompetent mit Prosa umgeht.

Die Bezeichnung v3.2 markiert eine iterative Verfeinerung gegenüber früheren DeepSeek-Releases, mit besonderem Fokus auf die Reduzierung von Halluzinationsraten bei Code-Vervollständigung und die Verbesserung des Instruction-Following bei Multi-Step-Aufgaben. Das Labor veröffentlichte Ablationsstudien, die Verbesserungen bei Chain-of-Thought-Konsistenz und bessere Kalibrierung bei Unsicherheit zeigen – wenn das Modell etwas nicht weiß, hat es gelernt, vorsichtig zu sein, anstatt zu konfabulieren. Dies sind unspektakuläre Verbesserungen, die in der Produktion enorm wichtig sind.

Wo DeepSeek v3.2 glänzt

Der klarste Anwendungsfall ist High-Throughput-Code-Generierung, bei der man bessere-als-Codex-Ergebnisse ohne Enterprise-API-Ausgaben benötigt. Teams, die dieses Modell nutzen, berichten, dass es ihr primäres Backend für Entwickler-Tools ist: IDE-Autocomplete-Server, PR-Review-Bots, die tatsächlich architektonischen Kontext verstehen, Dokumentations-Generatoren, die Voice-Konsistenz über Tausende von Docstrings hinweg aufrechterhalten. Das 131k-Kontextfenster bedeutet, dass man eine gesamte kleine Codebasis einspeisen und architektonische Fragen stellen kann, die erfordern, mehrere Dateien gleichzeitig im Arbeitsspeicher zu halten.

Mathematisches Reasoning ist der zweite Sweet Spot. Wenn Ihre Anwendung mehrstufige Beweise, Gleichungsableitungen oder Verifikation symbolischer Logik umfasst, übertrifft DeepSeek v3.2 routinemäßig Modelle zwei Kostenebenen darüber. Der Training-Schwerpunkt auf STEM-Inhalten erzeugt ein Modell, das LaTeX-lastige Prompts verfolgen, den Variablenbereich über lange Ableitungen hinweg beibehalten und algebraische Fehler erkennen kann, die Language-Model-as-Calculator-Ansätze vollständig verpassen. Tutoring-Anwendungen, automatisierte Problemset-Generierung und Forschungstools, die dichte akademische Paper parsen müssen, haben hier alle Traktion gefunden.

Tool-Nutzung und Function-Calling funktionieren zuverlässig auf Weisen, die Early Adopters überrascht haben. Das Modell hält sich an Schema-Definitionen, behandelt verschachtelte Function-Calls ohne den Faden zu verlieren und degradiert anmutig, wenn API-Responses nicht den erwarteten Formaten entsprechen. Dies macht es für agentische Workflows geeignet, bei denen das Modell mehrere externe Services orchestrieren muss – Datenabruf, Berechnungsengines, externe Validierungs-Endpoints – ohne ständige menschliche Überwachung. Die Fehlermodi sind vorhersehbar, was mehr zählt als perfekte Erfolgsraten, wenn man Systeme baut, die sicher ausfallen müssen.

Multilinguale Anwendungen, insbesondere solche, die Chinesisch-Englisch Code-Switching oder technische Übersetzung erfordern, profitieren von der Training-Verteilung. Anders als bei Modellen, bei denen nicht-englische Fähigkeiten angebaut wirken, handhabt DeepSeek polyglotte Kontexte nativ. Ein Prompt, der englische architektonische Anforderungen mit chinesischen Variablennamen und französischen Kommentaren mischt, wird korrekt geparst, anstatt das verwirrte Hedging-Verhalten auszulösen, das bei westlich trainierten Modellen üblich ist.

Wo es nicht passt

Kreatives Schreiben und Langform-Content-Generierung offenbaren die technische Orientierung des Modells. Während DeepSeek brauchbare Prosa produzieren kann, tendiert die Stimme eher zu Lehrbuchklarheit als zu stilistischer Bandbreite. Wenn Ihre Anwendung narrative Fiktion, Marketing-Copy mit emotionaler Resonanz oder Inhalte benötigt, die den Ton für verschiedene Zielgruppensegmente anpassen, werden Sie feststellen, dass Sie Prompts stark lenken müssen, um die Standard-Register des Modells zu überwinden. Es ist nicht so, dass die Fähigkeit fehlt – es ist, dass der Prior falsch ist. Jede Generierung möchte eine technische Erklärung werden.

Stark regulierte Bereiche, bei denen Audit-Trails und Provider-Haftung wichtig sind, werden mit dem Aggregator-Zugriffsmodell Schwierigkeiten haben. DeepSeek v3.2 kommt über Plattformen wie OpenRouter ohne das Enterprise-Compliance-Gerüst, das Big-3-Provider aufbauen. Es gibt kein BAA für HIPAA-Workloads, keine Datenresidenz-Garantien für GDPR-Kontexte, keinen Anbieter, der bereit ist, Schadenersatz für Modell-Outputs zu unterschreiben. Für viele Startups ist dies irrelevant; für Healthcare, Finanzen oder Legal Tech ist es unabhängig vom technischen Verdienst oft disqualifizierend.

Latenz-sensitive Anwendungen stoßen auf die Realität, dass MoE-Architekturen, selbst effiziente, eine höhere Time-to-First-Token haben als dichte Modelle mit äquivalenten aktiven Parametern. Wenn Sie eine Consumer-Chat-Schnittstelle bauen, bei der wahrgenommene Schnelligkeit die Retention antreibt, summiert sich der 200-400ms-Unterschied zwischen DeepSeek und einem getunten dichten Modell über konversationelle Turns hinweg. Batch-Workloads und asynchrone Pipelines absorbieren dies leicht; synchrone benutzerorientierte Features spüren es akut.

Dem Modell fehlt auch das umfangreiche Safety-Tuning, das Anthropic und OpenAI auf ihre Angebote geschichtet haben. Es wird Inhalte generieren, die geschlossene Provider ablehnen würden, und es wird adversarische Prompts nicht mit derselben Konsistenz erkennen. Für viele Anwendungen ist dies ein Feature – man kann Tools bauen, ohne gegen übertunte Content-Policies zu kämpfen. Für andere, besonders verbraucherorientierte Produkte in sensiblen Kategorien, bedeutet dies, dass man wieder beim Bau der eigenen Moderationsschicht ist.

Positionierung gegenüber Peers

Der natürliche Vergleichspunkt ist Llama 3.1 405B, das ähnlichen konzeptionellen Raum als fähige Open-Weights-Alternative zu geschlossenen Frontier-Modellen einnimmt. DeepSeek v3.2 tauscht rohe allgemeine Wissensbreite gegen tiefere technische Spezialisierung und signifikant niedrigere Kosten. Bei Code- und Mathematik-Benchmarks sind sie ungefähr gleichauf; bei offenen Wissensfragen und nuanciertem Reasoning über soziale Kontexte zieht Llama voran. Wenn Ihr Workload gut definiert und technisch ist, zahlt sich das fokussierte Training von DeepSeek aus. Wenn Sie einen Generalisten brauchen, der Edge Cases anmutig handhabt, hilft die breitere Training-Verteilung von Llama.

Gegen geschlossene Modelle wie Claude oder GPT-4 verschiebt sich der Vergleich von Fähigkeit zu Betriebsmodell. DeepSeek v3.2 schlägt sie in keiner einzelnen Dimension – Claudes Durchdenken komplexer mehrdeutiger Szenarien ist ausgefeilter, GPT-4s Integration mit OpenAIs Tool-Ökosystem ist polierter – aber das Kostendifferential ist so gravierend, dass sich die Volumen-Ökonomie umdreht. Wenn Sie täglich Tausende von Requests bei technischen Aufgaben durchführen, wird DeepSeek dort gangbar, wo geschlossene Modelle architektonische Kompromisse erzwingen, um im Budget zu bleiben. Der Qualitätsgap existiert, aber er ist schmaler als der Kostengap, und diese Arbitrage definiert die Marktposition des Modells.

Innerhalb des Aggregator-Ökosystems sitzt DeepSeek neben Modellen wie Mixtral und Yi als glaubwürdige Alternativen statt Kuriositätsexperimente. Was es unterscheidet, ist die besondere Kombination aus MoE-Effizienz und Training-Spezialisierung. Mixtral bietet ähnliche architektonische Vorteile, aber für unterschiedliche Stärken trainiert; Yi bietet vergleichbare multilinguale Reichweite, aber mit weniger extremem Code-Fokus. Die Wahl zwischen ihnen hängt von der spezifischen Verteilung Ihres Produktions-Workloads ab.

Kosten und Verfügbarkeit

Die Kostengeschichte ist das, was DeepSeek v3.2 für die meisten Teams auf die Landkarte bringt. Wir vermeiden literale Preisverankerung, weil sich Tarife verschieben, aber die operationale Realität ist, dass Sie dieses Modell zu etwa einem Fünftel bis einem Zehntel der Kosten von Frontier-Closed-Modellen betreiben können, abhängig von Workload-Charakteristika. Für kontext-intensive Anwendungen, bei denen Sie regelmäßig 50k-Token-Prompts senden, potenziert sich dieses Vielfache aggressiv. Ein Workflow, der gegen GPT-4 mittlere vierstellige Beträge monatlich kosten würde, fällt mit DeepSeek auf niedrige dreistellige Beträge, während akzeptable Output-Qualität erhalten bleibt.

Der Zugang über Aggregatoren wie OpenRouter bedeutet, dass Sie keine Infrastruktur verwalten oder Enterprise-Verträge aushandeln müssen. Sie stecken einen API-Schlüssel ein, routen Requests zum Modell-Identifier, und die Abrechnung erfolgt nach Verbrauch. Dies entfernt die Aktivierungsenergie, die Teams davon abhält, mit Alternativen zu experimentieren – Sie können DeepSeek gegen Ihren Incumbent innerhalb eines Nachmittags A/B-testen, anstatt Beschaffungsprozesse zu navigieren.

Der Tradeoff ist weniger Kontrolle über den Serving-Stack. Sie wissen nicht, welche spezifische Hardware die Inferenz ausführt, Sie können keine Batching-Strategien tunen, und Sie unterliegen den Verfügbarkeitsgarantien des Aggregators, anstatt Ihr eigenes Deployment zu betreiben. Für viele Anwendungen ist dies akzeptabel oder vorzuziehen – Infrastruktur-Management ist undifferenzierte schwere Arbeit. Für hochskalierte Produktionssysteme mit strikten SLAs erzwingt der Mangel an direkter Kontrolle schließlich Entscheidungen über Self-Hosting oder dedizierte Deployments.

Der Open-Weights-Status von DeepSeek bedeutet, dass Self-Hosting eine Option bleibt, wenn Sie skalieren, was einen glaubwürdigen Exit-Pfad bietet, den geschlossene Modelle nicht anbieten. Sie können auf dem Aggregator mit niedrigem Volumen starten, hochskalieren, wenn die Ökonomie es rechtfertigt, und dann zu Ihrer eigenen Infrastruktur migrieren, wenn und wann Aggregator-Kosten oder Verfügbarkeit zu Einschränkungen werden. Diese Optionalität hat strategischen Wert, selbst wenn Sie sie nie ausüben.

Das Fazit

DeepSeek v3.2 repräsentiert eine spezifische Wette: dass ein bedeutender Anteil von Produktions-LLM-Workloads technischer als sozial, strukturierter als kreativ und kostensensitiver ist, als die Frontier-Modell-Preisgestaltung annimmt. Für Teams, bei denen diese Wette aufgeht, liefert das Modell legitim Frontier-Class-Performance bei den Aufgaben, die zählen, während es in einem völlig anderen Kostenregime operiert.

Das Modell wird Claude nicht für Produktmanager ersetzen, die nuancierte Stakeholder-Kommunikation entwerfen, oder GPT-4 für Kundensupport-Chatbots, die breites Weltwissen und Safety-Tuning brauchen. Aber für Engineering-Teams, die Entwickler-Tools, Data-Science-Plattformen, technische Dokumentationssysteme oder mathematische Reasoning-Anwendungen bauen, bietet DeepSeek v3.2 eine seltene Kombination aus Fähigkeit und Ökonomie, die es wert macht, den Geschlossene-Modelle-Default zu hinterfragen.

Die rauen Kanten sind real – die Latenz-Charakteristika, die schmaleren Safety-Grenzen, die Aggregator-Abhängigkeiten – aber sie sind vorhersehbar und handhabbar. Was Sie im Gegenzug erhalten, ist ein Modell, das enorme technische Kontexte verarbeiten, komplexe Multi-Step-Anweisungen befolgen und Code oder mathematisches Reasoning auf Qualitätsniveaus generieren kann, die zu diesem Preis vor achtzehn Monaten unmöglich erschienen wären.

Für Teams, die das Aggregator-Ökosystem über Plattformen wie tokonomix verfolgen, dient DeepSeek v3.2 als Barometer dafür, wohin sich die Fähigkeitsgrenze bewegt. Die Kosten-Performance-Kurve verschiebt sich schnell genug, dass architektonische Entscheidungen, die unter Annahme geschlossener Modell-Ökonomie getroffen wurden, schlecht altern. Ob DeepSeek speziell Ihre Produktionswahl wird oder Sie bei einem Peer wie Mixtral oder einer zukünftigen Iteration aus einem anderen Labor landen, die Lektion ist konsistent: Der Tradeoff-Raum zwischen Qualität und Kosten hat mehr Spielraum, als die Big-3-Preisgestaltung suggeriert, und Produktions-Workloads mit gut definierten technischen Anforderungen sind der Ort, an dem diese Arbitrage am klarsten aufgeht.

DeepSeek v3.2 — illustration 2DeepSeek v3.2 — illustration 3
Letzter automatisierter Test
9. Juni 2026 · 20:03 UTC · Geschwindigkeits-Benchmark
P50-Latenz
1109 ms
P95-Latenz
1381 ms
Fehler
0 / 6 Läufe
Zuletzt geprüft von Tokonomix-Team·24. Mai 2026