Tägliche Arena

Match-Replay

Ein gespeichertes Match wird abgespielt — es werden keine Modelle aufgerufen.

⚖ Multi-Judge-Consensus — unser Markenzeichen

Tokonomix Multi-Council + Judge + Blind-Spot-Detection — geringere Kosten, fängt die Fehler, die ein Modell übersieht.

Multi-Council · geringere KostenMulti-Judge · Cross-FamilyBlind-Spot-Detection · den übersehenen Fehler fangenN-Team · Gruppen gegeneinander

Spieltyp

Runden: 10

Tempo1×

customer_service · roundZug 0 / 10

Das günstigste Modell, das qualitativ mithält, erscheint hier.

0 / 10

Claude Opus 4.7

Anthropic

€—Wert —

100

gpt-5.5

OpenAI

€—Wert —

100

DeepSeek v3.2

OpenRouter

€—Wert —

100

Llama 3.3 70B Instruct

OpenRouter

€—Wert —

100

Llama 4 Scout

OpenRouter

€—Wert —

100

Nous Hermes 3 70B

OpenRouter

€—Wert —

100

Kunde

„Nächste Runde“ drücken, um zu starten.

Endurteil — Kosten, Qualität & Vorsprung

Spieler	Kosten	Qualität	Siege	Vorsprung / Status
Claude Opus 4.7	€0.2375	65	0	erschöpft
gpt-5.5	€0.1857	68	6	erschöpft
DeepSeek v3.2	€0.0065	58.5	1	erschöpft
Llama 3.3 70B Instruct	€0.0025	72.5	0	erschöpft
Llama 4 Scout	€0.0020	72.5	0	100 HP
Nous Hermes 3 70B	€0.0082	2.5	0	erschöpft

0 / 10Drohnenschaden = Stärke der Jury-Mehrheit · HP = Live-Vorsprung · € = echte Kosten

Ehrlichkeitsgrenze

Vorsprung beginnt bei 100. K.-o.s folgen der Endwertung der Jury — das am niedrigsten platzierte Modell fällt zuerst, so getaktet, dass der letzte K.o. gegen Rundenende fällt. Der Sieger der Jury wird nie angegriffen und bleibt daher immer als Letzter übrig (deriveRoundOutcomes v9-elim-tokonomix).

Endet das Panel in einem echten Gleichstand um Platz eins, wird niemand eliminiert und jedes Modell spielt bis zum Ende.

0 Vorsprung bedeutet, dass dieses Modell eliminiert ist; sobald nur der Sieger übrig ist, blitzt die Replay das Ergebnis auf. Das Jury-Panel unten krönt genau dieses zuletzt verbliebene Modell.

Der Vorsprungsbalken visualisiert die Endwertung, nicht die Qualität pro Runde — das Rundensieger-Abzeichen markiert separat, wer jede Runde am besten geantwortet hat.

Die Punkteskala ist der höchste Rundenwert dieser Replay (0–10 oder 0–100); ein hoher Wert kann die anderen näher wirken lassen.

Null Modell-Dispatch — reines Rendern der gespeicherten Runde. Ansicht wechseln ändert das Bild, nie die Zahlen.

Zurück zur Arena

Ergebnis teilen

Auf X teilen LinkedIn WhatsApp

↺ Neue Runde starten