Zum Inhalt

Tägliche Arena

Match-Replay

Ein gespeichertes Match wird abgespielt — es werden keine Modelle aufgerufen.

⚖ Multi-Judge-Consensus — unser Markenzeichen
Tokonomix Multi-Council + Judge + Blind-Spot-Detection — geringere Kosten, fängt die Fehler, die ein Modell übersieht.
Multi-Council · geringere KostenMulti-Judge · Cross-FamilyBlind-Spot-Detection · den übersehenen Fehler fangenN-Team · Gruppen gegeneinander
Spieltyp
Runden: 3
Tempo1×
customer_service · roundZug 0 / 3
Das günstigste Modell, das qualitativ mithält, erscheint hier.
0 / 3
gpt-4.1
OpenAI
GP
€—Wert
HP
100
Gemini 2.5 Pro
Google Gemini
GE
€—Wert
HP
100
gpt-4o-mini
OpenAI
GP
€—Wert
HP
100
Kunde
„Nächste Runde“ drücken, um zu starten.

EndurteilKosten, Qualität & Vorsprung

SpielerKostenQualitätSiegeVorsprung / Status
gpt-4.1€0.0040701100 HP
Gemini 2.5 Pro€0.007084.331100 HP
gpt-4o-mini€0.000277064 HP
0 / 3Drohnenschaden = Stärke der Jury-Mehrheit · HP = Live-Vorsprung · € = echte Kosten

Ehrlichkeitsgrenze

Vorsprung beginnt bei 100; jede Runde verliert das schwächste aktive Modell den abgeleiteten Schaden — Schaden = 16 + 24·Marge, Marge = (Sieger − Zweiter) ÷ Punkteskala (deriveRoundOutcomes v8.1-tokonomix).

Ein exakter Gleichstand hat keinen klaren Sieger — kein Treffer, kein Schaden in dieser Runde.

0 Vorsprung ist KEINE Eliminierung: jedes Modell antwortet in jeder Runde. Der echte Sieger ist das Jury-Panel unten, für alle Modelle gezeigt.

Schaden zeigt den relativen Abstand der Topwerte, nicht die absolute Qualität — eine schwache Runde zu gewinnen zählt gleich wie eine starke.

Die Punkteskala ist der höchste Rundenwert dieser Replay (0–10 oder 0–100); ein hoher Wert kann die anderen näher wirken lassen.

Null Modell-Dispatch — reines Rendern der gespeicherten Runde. Ansicht wechseln ändert das Bild, nie die Zahlen.
Zurück zur Arena