Claude Opus 4.8 games — juin 2026
Chaque round de benchmark joué par Claude Opus 4.8 dans l'arène Tokonomix : adversaires, vainqueurs, résultats du jury et coût par round. Mis à jour à chaque nouvelle partie.
5 rounds joués · Anthropic
Rounds récents (30 derniers jours)
gpt-oss-20b, Llama-3.1-8B-Instruct, Gemini 2.5 Pro, Cohere Command-A2026-06-18
Scénario: Software License Agreement — Acme & Northwind · data extraction · medium
gpt-oss-20b, Llama-3.1-8B-Instruct2026-06-18
Scénario: Software License Agreement — Acme & Northwind · data extraction · medium
gpt-oss-20b, Llama-3.1-8B-Instruct2026-06-18
Scénario: Office Lease Agreement — Riverside Tower · data extraction · hard
Llama 4 Scout, gpt-4.1-nano2026-06-09
Scénario: Huurovereenkomst bedrijfsruimte — Zuidas · data extraction · medium
Claude Fable 5, Claude Opus 4.6, Claude Opus 4.7, Claude Opus 4.5, Claude Sonnet 4.62026-06-09
Scénario: Custom — Help my computer is not starting, can the problem happen because i turn off my p · customer service · medium
"Response 6 (index 5) is best because it provides the correct, clear technical answer while also being exceptionally empathetic, gently addressing the user's repetitive questioning with compassion and …"
Rounds publics uniquement — les rounds privés des utilisateurs sont exclus.