Aller au contenu

DeepSeek v4 Pro games — juin 2026

Chaque round de benchmark joué par DeepSeek v4 Pro dans l'arène Tokonomix : adversaires, vainqueurs, résultats du jury et coût par round. Mis à jour à chaque nouvelle partie.

6 rounds joués · OpenRouter

Rounds récents (30 derniers jours)

gpt-5.5, Llama 3.3 70B Instruct, Qwen 3.6 Plus2026-06-06
Scénario: Account Merged Without Consent · multilingual support · hard
Perdu0 sur 1 jurés€0.004 coût

"Response 3 is the most comprehensive and professional, providing specific details (timestamped notice, specific email addresses, GDPR/DPO references) while maintaining clarity and structure. Response "

Claude Haiku 4.5, Claude Opus 4.1, Claude Sonnet 4.5, Deep Research Preview (Apr-21-2026), Deep Research Max Preview (Apr-21-2026)2026-06-05
Scénario: Verkeerd artikel ontvangen · multilingual support · easy
Perdu0 sur 3 jurés€0.001 coût

"Response 1 is the most comprehensive and clear in its explanation and summary, making it the best response."

Claude Opus 4.5, gpt-52026-06-05
Scénario: Invoice — Lumen Cloud Services · data extraction · medium
Perdu1 sur 2 jurés€0.001 coût

"Response 2 is the best because it provides both helpful customer service guidance AND a clean, accurate JSON extraction of the invoice data, making it more comprehensive and useful. Response 1 is good"

Conseil · Council A vs Claude Opus 4.72026-06-05
Scénario: Router Will Not Connect After Firmware Update · customer service · medium
Perdu0 sur 3 jurés€0.028 coût

"Response 2 correctly identifies the prompt as PPPoE credentials (not a router admin login), offers proper account verification, addresses the firmware issue specifically, and provides a practical hots"

Claude Haiku 4.5, Claude Sonnet 4.62026-06-04
Scénario: Password reset email not arriving · customer service · easy
Perdu0 sur 2 jurés€0.002 coût

"Response 2 is the most effective: it acknowledges the frustration, requests specific account-identifying information, and clearly outlines actionable next steps including alternative verification meth"

Claude Haiku 4.5, Gemini 2.5 Pro, gpt-5.2-chat-latest2026-06-04
Scénario: Late delivery — refund request · customer service · medium
Perdu0 sur 1 jurés€0.001 coût

"Response 4 offers the best balance: accurate refund timelines with realistic edge cases, mentions confirmation email, and proactively offers a replacement option without being overly pushy. Response 1"

Rounds publics uniquement — les rounds privés des utilisateurs sont exclus.