Zum Inhalt

Tägliche Arena

Match-Replay

Ein gespeichertes Match wird abgespielt — es werden keine Modelle aufgerufen.

⚖ Multi-Judge-Consensus — unser Markenzeichen
Tokonomix Multi-Council + Judge + Blind-Spot-Detection — geringere Kosten, fängt die Fehler, die ein Modell übersieht.
Multi-Council · geringere KostenMulti-Judge · Cross-FamilyBlind-Spot-Detection · den übersehenen Fehler fangenN-Team · Gruppen gegeneinander
Spieltyp
Runden: 3
Tempo1×
customer_service · roundZug 0 / 3
Das günstigste Modell, das qualitativ mithält, erscheint hier.
0 / 3
Claude Haiku 4.5
Anthropic
CL
€—Wert
HP
100
DeepSeek v4 Pro
OpenRouter
DE
€—Wert
HP
100
Gemini 2.5 Pro
Google Gemini
GE
€—Wert
HP
100
gpt-5.2-chat-latest
OpenAI
GP
€—Wert
HP
100
Kunde
„Nächste Runde“ drücken, um zu starten.

EndurteilKosten, Qualität & Vorsprung

SpielerKostenQualitätSiegeVorsprung / Status
Claude Haiku 4.5€0.0039821100 HP
DeepSeek v4 Pro€0.00130064 HP
Gemini 2.5 Pro€0.0078800100 HP
gpt-5.2-chat-latest€0.0070881100 HP
0 / 3Drohnenschaden = Stärke der Jury-Mehrheit · HP = Live-Vorsprung · € = echte Kosten

Ehrlichkeitsgrenze

Vorsprung beginnt bei 100; jede Runde verliert das schwächste aktive Modell den abgeleiteten Schaden — Schaden = 16 + 24·Marge, Marge = (Sieger − Zweiter) ÷ Punkteskala (deriveRoundOutcomes v8.1-tokonomix).

Ein exakter Gleichstand hat keinen klaren Sieger — kein Treffer, kein Schaden in dieser Runde.

0 Vorsprung ist KEINE Eliminierung: jedes Modell antwortet in jeder Runde. Der echte Sieger ist das Jury-Panel unten, für alle Modelle gezeigt.

Schaden zeigt den relativen Abstand der Topwerte, nicht die absolute Qualität — eine schwache Runde zu gewinnen zählt gleich wie eine starke.

Die Punkteskala ist der höchste Rundenwert dieser Replay (0–10 oder 0–100); ein hoher Wert kann die anderen näher wirken lassen.

Null Modell-Dispatch — reines Rendern der gespeicherten Runde. Ansicht wechseln ändert das Bild, nie die Zahlen.
Zurück zur Arena