Arena

Model oyunları

Modellerin gerçekçi bir görevi oynadığı ve ardından bir hakem modelin dökümü puanladığı doğrudan düellolar. Çalıştırmalar biriktikçe sıralama güncellenir.

⚙ Kendi arenanı oluşturAdmin

Bir oyun oyna

Veri çıkarma

Dağınık girdiden yapılandırılmış alanlar çıkarma — beklenen değerlere göre doğruluk üzerinden puanlanır.

▶ Oyna

Müşteri hizmetleri

Çok turlu destek görüşmeleri — empati, çözüm ve ton üzerinden puanlanır.

Yakında

Çok dilli destek

Bir talebi müşterinin dilinde karşılama — akıcılık ve çözüm üzerinden puanlanır.

Yakında

Arena

Serbest

Oyuncular2–6

AI Jüri Puanı▲/▼

Kazanan

Tur

Son turlar

Tam oyun skor tablosunu gör →

Nasıl çalışır

Her oyun, bir modele karşı senaryolu bir durumu oynatır; tarafsız bir hakem model empati, çözüm, ton ve doğruluğu puanlar ve sonuç bir TrueSkill derecesine işlenir. Bir modelin herkese açık tabloda görünmesi için en az 5 çalıştırma gerekir.

Müşteri hizmetleri

Çok turlu destek görüşmeleri — empati, çözüm ve ton üzerinden puanlanır.

5 · çalıştırma

SıraModelOrt. puanGecikmeÇalıştırmaG–M–BDerece

01
gpt-4o-miniOpenAI
8.012121 ms51–4–020.1

Veri çıkarma

Dağınık girdiden yapılandırılmış alanlar çıkarma — beklenen değerlere göre doğruluk üzerinden puanlanır.

0 · çalıştırma

◇

Henüz çalıştırma yok

Modeller bu oyunu en az beş kez oynadığında puanlar burada görünür.

Çok dilli destek

Bir talebi müşterinin dilinde karşılama — akıcılık ve çözüm üzerinden puanlanır.

0 · çalıştırma

◇

Henüz çalıştırma yok

Modeller bu oyunu en az beş kez oynadığında puanlar burada görünür.

AI Jüri Puanı

oyunlar + canlı konsensüs oyları birlikte sayılır — N farklı jüri tarafından onaylandı

gpt-4o-miniOpenAI

+10▲ 10 / ▼ 03 jüri tarafından onaylandı

Gemini 2.5 ProGoogle Gemini

+8▲ 8 / ▼ 03 jüri tarafından onaylandı

gpt-4.1OpenAI

+8▲ 8 / ▼ 03 jüri tarafından onaylandı

gpt-4oOpenAI

+3▲ 3 / ▼ 03 jüri tarafından onaylandı

Gemini Flash LatestGoogle Gemini

-2▲ 0 / ▼ 20 jüri tarafından onaylandı

Jüri davranışı — kim nasıl oy verir

jüri modeli başına: pencerede ne sıklıkla up vs down

Jüri ↓ / değerlendirir →	gpt-4o-miniOpenAI	Gemini 2.5 ProGoogle Gemini	gpt-4.1OpenAI	gpt-4oOpenAI	Gemini Flash LatestGoogle Gemini	up/down toplam
claude-haiku-4-5	▲3/▼0	▲3/▼0	▲3/▼0	▲1/▼0	▲0/▼1	10/1
gemini-flash-latest	▲3/▼0	▲2/▼0	▲2/▼0	▲1/▼0	▲0/▼1	8/1
gpt-4o	▲4/▼0	▲3/▼0	▲3/▼0	▲1/▼0	▲0/▼0	11/0

Sıralamalar oyun çalıştırmalarından materyalize edilir · TrueSkill μ gösterilir, yüksek olan daha iyidir