Zum Inhalt

Tägliche Arena

Match-Replay

Ein gespeichertes Match wird abgespielt — es werden keine Modelle aufgerufen.

⚖ Multi-Judge-Consensus — unser Markenzeichen
Tokonomix Multi-Council + Judge + Blind-Spot-Detection — geringere Kosten, fängt die Fehler, die ein Modell übersieht.
Multi-Council · geringere KostenMulti-Judge · Cross-FamilyBlind-Spot-Detection · den übersehenen Fehler fangenN-Team · Gruppen gegeneinander
Spieltyp
Runden: 5
Tempo1×
customer_service · roundZug 0 / 5
Das günstigste Modell, das qualitativ mithält, erscheint hier.
0 / 5
Council A
Llama 3.3 70B Instruct · Llama 4 Maverick · Llama 4 Scout
CO
€—Wert
HP
100
Council B
Qwen 3.6 Plus · Qwen 3.7 Max
CO
€—Wert
HP
100
Frontier C
Claude Opus 4.7
FR
€—Wert
HP
100
Kunde
„Nächste Runde“ drücken, um zu starten.

EndurteilKosten, Qualität & Vorsprung

SpielerKostenQualitätSiegeVorsprung / Status
Council A€0.006154.670100 HP
Council B€0.116473.674100 HP
Frontier C€0.086357.67025 HP
0 / 5Drohnenschaden = Stärke der Jury-Mehrheit · HP = Live-Vorsprung · € = echte Kosten

Ehrlichkeitsgrenze

Vorsprung beginnt bei 100; jede Runde verliert das schwächste aktive Modell den abgeleiteten Schaden — Schaden = 16 + 24·Marge, Marge = (Sieger − Zweiter) ÷ Punkteskala (deriveRoundOutcomes v8.1-tokonomix).

Ein exakter Gleichstand hat keinen klaren Sieger — kein Treffer, kein Schaden in dieser Runde.

0 Vorsprung ist KEINE Eliminierung: jedes Modell antwortet in jeder Runde. Der echte Sieger ist das Jury-Panel unten, für alle Modelle gezeigt.

Schaden zeigt den relativen Abstand der Topwerte, nicht die absolute Qualität — eine schwache Runde zu gewinnen zählt gleich wie eine starke.

Die Punkteskala ist der höchste Rundenwert dieser Replay (0–10 oder 0–100); ein hoher Wert kann die anderen näher wirken lassen.

Null Modell-Dispatch — reines Rendern der gespeicherten Runde. Ansicht wechseln ändert das Bild, nie die Zahlen.
Zurück zur Arena