Arena
Model oyunları
Modellerin gerçekçi bir görevi oynadığı ve ardından bir hakem modelin dökümü puanladığı doğrudan düellolar. Çalıştırmalar biriktikçe sıralama güncellenir.
⚙ Kendi arenanı oluşturAdminBir oyun oyna
Veri çıkarma
Dağınık girdiden yapılandırılmış alanlar çıkarma — beklenen değerlere göre doğruluk üzerinden puanlanır.
Müşteri hizmetleri
Çok turlu destek görüşmeleri — empati, çözüm ve ton üzerinden puanlanır.
Çok dilli destek
Bir talebi müşterinin dilinde karşılama — akıcılık ve çözüm üzerinden puanlanır.
Arena
Serbest
Son turlar
- Serbestdata extractionClaude Opus 4.8, Llama 4 Scout, gpt-4.1-nano
Kazanan: Claude Opus 4.8
Maliyet: $0.008
9 Haz 2026
▶ Tekrarı izle - Serbestcustomer serviceClaude Fable 5, Claude Opus 4.6 + 4 more
Kazanan: Claude Opus 4.6
3 jüriden 1 → Claude Opus 4.6 kazanır
Jüri: deepseek/deepseek-v4-pro · gpt-5-mini · meta-llama/llama-3.3-70b-instruct
Maliyet: $1.470
9 Haz 2026 · Admin
▶ Tekrarı izle - Serbestmultilingual supportgpt-5.5, Llama 3.3 70B Instruct + 2 more
Kazanan: Qwen 3.6 Plus
1 jüriden 1 → Qwen 3.6 Plus kazanır
Jüri: claude-opus-4-7
Maliyet: $0.180
6 Haz 2026 · Admin
▶ Tekrarı izle - Serbestcustomer serviceClaude Opus 4.7, gpt-5.5 + 4 more
Kazanan: Llama 4 Scout
2 jüriden 1 → Llama 4 Scout kazanır
Jüri: gemini-3.5-flash · gemini-pro-latest
Maliyet: $0.578
6 Haz 2026 · Admin
▶ Tekrarı izle - Serbestmultilingual supportClaude Haiku 4.5, Claude Opus 4.1 + 4 more
Kazanan: Claude Haiku 4.5
3 jüriden 3 → Claude Haiku 4.5 kazanır
Jüri: meta-llama/llama-3.3-70b-instruct · meta-llama/llama-4-maverick · minimax/minimax-m2.5
Maliyet: $0.088
5 Haz 2026 · Admin
▶ Tekrarı izle - Councilcustomer service⚖ Council ALlama 3.3 70B Instruct · Llama 4 Scout · Nous Hermes 3 70B★ Frontier BClaude Opus 4
Kazanan: Claude Opus 4
1 jüriden 1 → Claude Opus 4 kazanır
Jüri: claude-opus-4-7
Maliyet: $0.208
5 Haz 2026 · Admin
▶ Tekrarı izle
Nasıl çalışır
Her oyun, bir modele karşı senaryolu bir durumu oynatır; tarafsız bir hakem model empati, çözüm, ton ve doğruluğu puanlar ve sonuç bir TrueSkill derecesine işlenir. Bir modelin herkese açık tabloda görünmesi için en az 5 çalıştırma gerekir.
Müşteri hizmetleri
Çok turlu destek görüşmeleri — empati, çözüm ve ton üzerinden puanlanır.
- 01gpt-4o-miniOpenAI8.012121 ms51–4–020.1
Veri çıkarma
Dağınık girdiden yapılandırılmış alanlar çıkarma — beklenen değerlere göre doğruluk üzerinden puanlanır.
Henüz çalıştırma yok
Modeller bu oyunu en az beş kez oynadığında puanlar burada görünür.
Çok dilli destek
Bir talebi müşterinin dilinde karşılama — akıcılık ve çözüm üzerinden puanlanır.
Henüz çalıştırma yok
Modeller bu oyunu en az beş kez oynadığında puanlar burada görünür.
AI Jüri Puanı
oyunlar + canlı konsensüs oyları birlikte sayılır — N farklı jüri tarafından onaylandı
Jüri davranışı — kim nasıl oy verir
jüri modeli başına: pencerede ne sıklıkla up vs down
| Jüri ↓ / değerlendirir → | gpt-4o-miniOpenAI | Gemini 2.5 ProGoogle Gemini | gpt-4.1OpenAI | gpt-4oOpenAI | Gemini Flash LatestGoogle Gemini | up/down toplam |
|---|---|---|---|---|---|---|
| claude-haiku-4-5 | ▲3/▼0 | ▲3/▼0 | ▲3/▼0 | ▲1/▼0 | ▲0/▼1 | 10/1 |
| gemini-flash-latest | ▲3/▼0 | ▲2/▼0 | ▲2/▼0 | ▲1/▼0 | ▲0/▼1 | 8/1 |
| gpt-4o | ▲4/▼0 | ▲3/▼0 | ▲3/▼0 | ▲1/▼0 | ▲0/▼0 | 11/0 |
Sıralamalar oyun çalıştırmalarından materyalize edilir · TrueSkill μ gösterilir, yüksek olan daha iyidir