Tier A — Frontier

Läuft in:FranceErstellt in:China

Qwen3.5-397B-A17B

Tier A — Frontier

Tokonomix-Redaktionsteam·Geprüft von Mes Kalkan·Veröffentlicht 27. Mai 2026·Zuletzt geprüft 25. Juli 2026

Abschnitt 01

Geschwindigkeitsanalyse

Latenz über alle Benchmark-Läufe gemessen. P50 (Median) und P95 (95. Perzentil) zeigen ein realistisches Bild der Antwortgeschwindigkeit bei normaler und Spitzenlast.

P50-Latenz (Median)P95-Latenz105 runs

Abschnitt 02

Qualitätswerte

Auswertungsergebnisse aus Judge-Model-Bewertungen über verschiedene Aufgabenkategorien. Werte spiegeln Kohärenz, Genauigkeit und Anweisungsbefolgung wider.

100

Codegenerierung

100

Mehrsprachig

Kreativ

Abschnitt 03

Preisverlauf

Direkte Provider-Tarife pro Million Tokens, plus eine typische Gesprächskostenschätzung.

💰

API-Tarife — Qwen3.5-397B-A17B

$0.7100 pro 1M Input-Tokens

$4.25 pro 1M Output-Tokens

≈ $0.0013 pro typischem Gespräch (800 Tokens)

Input- vs. Output-Preis (pro 1M Tokens)

pro 1M Input-Tokens$0.7100

pro 1M Output-Tokens$4.25

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.7100

input / 1M

— stable

$4.25

output / 1M

— stable

2026-06-142026-07-052026-07-19

Input

Output

Price change

⟳ synced weekly

Abschnitt 04

Tokens pro Sekunde

Durchsatz in Tokens pro Sekunde, abgeleitet aus gemessener P50-Latenz. Höhere Werte sind besser; Schwankungen spiegeln die Provider-seitige Last wider.

Durchsatz (Tokens / s)858 / avg 875

Geschätzt aus P50-Latenz × 200 Output-Tokens — die absolute Zahl hängt von dieser Annahme ab; entscheidend ist der Trend.

Abschnitt 05

Fähigkeiten

ownedBy: Qwen

Abschnitt 06

Verfügbarkeit

Wie oft dieses Modell antwortet, wenn wir es aufrufen — gemessen anhand echter API-Anfragen und Live-Tests der letzten 30 Tage. Dies ist unabhängig von der Qualität: Diese Zahlen zeigen nur, ob das Modell antwortet, nicht wie gut die Antwort ist.

Letzte 7 Tage

—

Letzte 30 Tage

100.0%

n=15

Mediane Antwortzeit

1,177ms

n=15

Basierend auf 395 Messungen in den letzten 30 Tagen.

Technische Details

Nur echte API-Aufrufe und Live-Test-Anfragen werden gezählt — interne Proben und Benchmark-Läufe sind ausgeschlossen.

Aufrufe mit einem eigenen API-Schlüssel (BYOK) sind ausgeschlossen: Diese Fehler sind schlüsselspezifisch und kein Zeichen für Modellausfälle.

Fehlgeschlagene Aufrufe werden NICHT in Qualitätswerten berücksichtigt — Qualität wird nur für erfolgreiche Antworten gemessen. Verfügbarkeit und Qualität sind unabhängige Signale.

Mediane Antwortzeit (p50) über erfolgreiche Aufrufe mit aufgezeichneter Dauer. Ausreißer beeinflussen den Median weniger als den Durchschnitt.

Gesamte Aufrufe (30d)

OK-Antworten (30d)

Gesamte Aufrufe (7d)

OK-Antworten (7d)

Abschnitt 07

Tokonomix-Benchmark-Urteile

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-541/100 · 42 runs

14 correct1 partial27 wrong33% accuracy

● 2026-07-19

Qwen3.5-397B-A17B jumps to 81.7/100 with creative gains, reasoning still absent

Qwen3.5-397B-A17B demonstrates a remarkable recovery with an overall quality score of 81.7, up 39.2 points from the previous window's 42.4. The model now achieves perfect scores in both coding and multilingual categories at 100 each, maintaining its strong coding performance while dramatically improving multilingual capabilities from 33. The most significant shift appears in creative tasks, which climbed from zero in the implied previous state to 45, though this remains the weakest category. However, reasoning capabilities remain completely absent with no score recorded in this window, consistent with the zero score from the previous period. Latency has increased modestly from 4725ms to 5235ms at the median, representing an approximately 11% slowdown. The test methodology remains consistent with 5 runs in each window. Users requiring strong coding and multilingual support will find this model highly capable, but those needing creative writing or reasoning tasks should be aware of the model's limitations in these areas. The dramatic quality improvement suggests either infrastructure enhancements or model configuration changes at the OVH GRA endpoint.

Quality

81.7

Latency p50

5,235 ms

Test runs

✓ Quality jumped 39.2 points✓ Multilingual improved to perfect 100✓ Creative emerged at 45✗ Latency increased 11%

Letzter automatisierter Test

25. Juli 2026 · 08:03 UTC · Geschwindigkeits-Benchmark

P50-Latenz

233 ms

P95-Latenz

287 ms

Fehler

0 / 6 Läufe

Zuletzt geprüft von Tokonomix-Team·25. Juli 2026