Zum Inhalt

Tägliche Arena

Match-Replay

Ein gespeichertes Match wird abgespielt — es werden keine Modelle aufgerufen.

⚖ Multi-Judge-Consensus — unser Markenzeichen
Tokonomix Multi-Council + Judge + Blind-Spot-Detection — geringere Kosten, fängt die Fehler, die ein Modell übersieht.
Multi-Council · geringere KostenMulti-Judge · Cross-FamilyBlind-Spot-Detection · den übersehenen Fehler fangenN-Team · Gruppen gegeneinander
Spieltyp
Runden: 3
Tempo1×
customer_service · roundZug 0 / 3
Das günstigste Modell, das qualitativ mithält, erscheint hier.
0 / 3
Claude Haiku 4.5
Anthropic
CL
€—Wert
HP
100
Claude Sonnet 4.6
Anthropic
CL
€—Wert
HP
100
DeepSeek v4 Pro
OpenRouter
DE
€—Wert
HP
100
Kunde
„Nächste Runde“ drücken, um zu starten.

EndurteilKosten, Qualität & Vorsprung

SpielerKostenQualitätSiegeVorsprung / Status
Claude Haiku 4.5€0.0048751100 HP
Claude Sonnet 4.6€0.0151881100 HP
DeepSeek v4 Pro€0.001455064 HP
0 / 3Drohnenschaden = Stärke der Jury-Mehrheit · HP = Live-Vorsprung · € = echte Kosten

Ehrlichkeitsgrenze

Vorsprung beginnt bei 100; jede Runde verliert das schwächste aktive Modell den abgeleiteten Schaden — Schaden = 16 + 24·Marge, Marge = (Sieger − Zweiter) ÷ Punkteskala (deriveRoundOutcomes v8.1-tokonomix).

Ein exakter Gleichstand hat keinen klaren Sieger — kein Treffer, kein Schaden in dieser Runde.

0 Vorsprung ist KEINE Eliminierung: jedes Modell antwortet in jeder Runde. Der echte Sieger ist das Jury-Panel unten, für alle Modelle gezeigt.

Schaden zeigt den relativen Abstand der Topwerte, nicht die absolute Qualität — eine schwache Runde zu gewinnen zählt gleich wie eine starke.

Die Punkteskala ist der höchste Rundenwert dieser Replay (0–10 oder 0–100); ein hoher Wert kann die anderen näher wirken lassen.

Null Modell-Dispatch — reines Rendern der gespeicherten Runde. Ansicht wechseln ändert das Bild, nie die Zahlen.
Zurück zur Arena