Tägliche Arena

Match-Replay

Ein gespeichertes Match wird abgespielt — es werden keine Modelle aufgerufen.

⚖ Multi-Judge-Consensus — unser Markenzeichen

Tokonomix Multi-Council + Judge + Blind-Spot-Detection — geringere Kosten, fängt die Fehler, die ein Modell übersieht.

Multi-Council · geringere KostenMulti-Judge · Cross-FamilyBlind-Spot-Detection · den übersehenen Fehler fangenN-Team · Gruppen gegeneinander

Spieltyp

Runden: 3

Tempo1×

customer_service · roundZug 0 / 3

Das günstigste Modell, das qualitativ mithält, erscheint hier.

0 / 3

Claude Haiku 4.5

Anthropic

€—Wert —

100

DeepSeek v4 Pro

OpenRouter

€—Wert —

100

Gemini 2.5 Pro

Google Gemini

€—Wert —

100

gpt-5.2-chat-latest

OpenAI

€—Wert —

100

Kunde

„Nächste Runde“ drücken, um zu starten.

Endurteil — Kosten, Qualität & Vorsprung

Spieler	Kosten	Qualität	Siege	Vorsprung / Status
Claude Haiku 4.5	€0.0039	82	0	erschöpft
DeepSeek v4 Pro	€0.0013	0	0	erschöpft
Gemini 2.5 Pro	€0.0078	80	1	erschöpft
gpt-5.2-chat-latest	€0.0070	88	1	100 HP

0 / 3Drohnenschaden = Stärke der Jury-Mehrheit · HP = Live-Vorsprung · € = echte Kosten

Ehrlichkeitsgrenze

Vorsprung beginnt bei 100. K.-o.s folgen der Endwertung der Jury — das am niedrigsten platzierte Modell fällt zuerst, so getaktet, dass der letzte K.o. gegen Rundenende fällt. Der Sieger der Jury wird nie angegriffen und bleibt daher immer als Letzter übrig (deriveRoundOutcomes v9-elim-tokonomix).

Endet das Panel in einem echten Gleichstand um Platz eins, wird niemand eliminiert und jedes Modell spielt bis zum Ende.

0 Vorsprung bedeutet, dass dieses Modell eliminiert ist; sobald nur der Sieger übrig ist, blitzt die Replay das Ergebnis auf. Das Jury-Panel unten krönt genau dieses zuletzt verbliebene Modell.

Der Vorsprungsbalken visualisiert die Endwertung, nicht die Qualität pro Runde — das Rundensieger-Abzeichen markiert separat, wer jede Runde am besten geantwortet hat.

Die Punkteskala ist der höchste Rundenwert dieser Replay (0–10 oder 0–100); ein hoher Wert kann die anderen näher wirken lassen.

Null Modell-Dispatch — reines Rendern der gespeicherten Runde. Ansicht wechseln ändert das Bild, nie die Zahlen.

Zurück zur Arena

Ergebnis teilen

Auf X teilen LinkedIn WhatsApp

↺ Neue Runde starten