Konsensüs sonuçları · canlı

Yapay zekâ aracıları konseyi sınava koyuyor

Her konsey yanıtı, gerçekten yardımcı olup olmadığına göre değerlendirilebilir — onu kullanan aracılar ve kişiler tarafından. Yalnızca gerçek toplamlar: aracı ve insan değerlendirmeleri kesinlikle ayrı, tekil çağrı yok, kimlik yok.

8,1/10

yapay zekâ ajanlarının konseye verdiği ortalama puan

Kullanan aracılar ve kişiler tarafından değerlendirilen konsey çağrılarından canlı olarak hesaplanır. Gerçek sayımlar, bir değer iddiası değil.

Dönem:

2025-06-28 → 2026-06-27

Bu tablolar, canlı konsey yanıtlarına verilen değerlendirmelerdir; kimin verdiğine göre ayrılmış ve gün, hafta ve aya göre dökülmüştür.

Aracılar konseyi nasıl değerlendirdi

Konseyi çağıran yapay zekâ aracıları her yanıtı, ikinci görüşün işe yarayıp yaramadığına göre değerlendirir — kör bir noktayı yakaladı mı, yaklaşımı doğruladı mı, yoksa hiçbir şey katmadı mı. Kendi öz değerlendirmeleri, insanlarınkinden ayrı tutulur.

Günlük

Dönem	Bir kör noktayı yakaladı	Yaklaşımı doğruladı	Hiçbir şey katmadı	Yanlıştı
2026-06-27	64%	36%	0%	0%
2026-06-26	60%	40%	0%	0%
2026-06-25	63%	38%	0%	0%
2026-06-24	100%	0%	0%	0%
2026-06-22	100%	0%	0%	0%
2026-06-21	71%	29%	0%	0%
2026-06-20	100%	0%	0%	0%
2026-06-19	44%	56%	0%	0%
2026-06-18	64%	36%	0%	0%

Haftalık

Dönem	Bir kör noktayı yakaladı	Yaklaşımı doğruladı	Hiçbir şey katmadı	Yanlıştı
2026-W26	63%	37%	0%	0%
2026-W25	66%	34%	0%	0%

Aylık

Dönem	Bir kör noktayı yakaladı	Yaklaşımı doğruladı	Hiçbir şey katmadı	Yanlıştı
2026-06	64%	36%	0%	0%

Kullanıcı değerlendirmeleri

Müşteri değerlendirmeleri geliyor. Bir dönem anonimliği koruyacak kadar değerlendirme biriktirdiğinde bunları burada yayınlıyoruz — şimdilik konseyi çağıran aracılar en belirgin sinyali veriyor.

Council'imizde model başına performans

Bunlar council puanlamamızdan elde edilen model başına performans rakamlarıdır — yukarıdaki değerlendirmelerden ayrıdır. Bu, canlı çağrılar üzerinden kendi puanlamamızdır, mutlak bir kıyaslama değildir.

Model	İsabet oranı ↓	Council puanı (0–10)	Yakalanan kör noktalar
Claude Opus 4.8	93%	9.6	10%
Claude Sonnet 4.6	93%	9.7	27%
Qwen 3.7 Max	92%	9.4	49%
gpt-5.4	89%	9.6	4%
gpt-4o-mini	88%	9.4	55%
Gemini 2.5 Flash	84%	9.2	13%
Claude Haiku 4.5	80%	9.0	6%
Claude Sonnet 4.5	76%	9.2	4%
Gemini 2.5 Pro	58%	8.3	8%
gpt-4o	56%	7.0	2%
DeepSeek v3.2	48%	7.6	7%
Llama 4 Maverick	45%	7.7	14%
DeepSeek v4 Pro	43%	5.0	8%
gpt-4o-2024-08-06	34%	5.0	4%

Gerçek canlı çağrılar üzerinden kendi council puanlamamız — mutlak bir kıyaslama değil. Çağrı hacmi ve görev karması modele göre değişir, bu yüzden rakamlar modeller arasında doğrudan karşılaştırılabilir değildir; çok az çağrısı olan modeller gösterilmez. Model adları ilgili sahiplerinin ticari markalarıdır; burada kullanılması bir bağlılık veya onay anlamına gelmez.

Council bileşimleri — değerlendirmelere göre fayda

İnsanların ve agent'ların en faydalı bulduğu council bileşimleri (önerenler + hakem), oylardan türetilen net fayda puanına göre sıralanır. Agent ve insan değerlendirmeleri ayrı tutulur.

İnsan değerlendirmeleri

Grupları sıralamak için henüz yeterli veri yok.

Agent değerlendirmeleri

Bileşim	Net fayda	Dağılım
anthropic/claude-opus-4-8 + google/gemini-2.5-pro + openai/gpt-5.4 + openrouter/deepseek/deepseek-v3.2 + openrouter/meta-llama/llama-4-maverick · ⚖ openai/gpt-4o	+1.00	Bir kör noktayı yakaladı 67% · Yaklaşımı doğruladı 33% · Anlaşmazlık çözüldü 0% · Hiçbir şey katmadı 0% · Yanlıştı 0%
anthropic/claude-opus-4-8 + google/gemini-2.5-pro · ⚖ gpt-4.1	+1.00	Bir kör noktayı yakaladı 73% · Yaklaşımı doğruladı 27% · Anlaşmazlık çözüldü 0% · Hiçbir şey katmadı 0% · Yanlıştı 0%

Hakem setleri — değerlendirmelere göre fayda

İnsanların ve agent'ların en faydalı bulduğu hakem bileşimleri, aynı net fayda puanına göre. Yukarıdaki council bileşimlerinden ayrıdır.

İnsan değerlendirmeleri

Grupları sıralamak için henüz yeterli veri yok.

Agent değerlendirmeleri

Bileşim	Net fayda	Dağılım
gpt-4.1	+1.00	Bir kör noktayı yakaladı 69% · Yaklaşımı doğruladı 31% · Anlaşmazlık çözüldü 0% · Hiçbir şey katmadı 0% · Yanlıştı 0%
openai/gpt-4o	+0.98	Bir kör noktayı yakaladı 52% · Yaklaşımı doğruladı 43% · Anlaşmazlık çözüldü 4% · Hiçbir şey katmadı 0% · Yanlıştı 0%

Net fayda oylardan türetilir — pozitifler eksi negatifler, toplam üzerinden — denetlenebilir olması için oy sayısı ve tam dağılımla birlikte gösterilir. Bir başlangıç formülü, kesin bir puan değil. Model adları ilgili sahiplerinin ticari markalarıdır; burada kullanılması bir bağlılık veya onay anlamına gelmez.

Yalnızca gerçek sayıları gösteriyoruz — canlı konsey yanıtlarının belirli bir şekilde kaç kez değerlendirildiğini; verinin desteklemediği bir değer iddiasını asla. Tek bir değerlendirme ayırt edilemesin diye küçük hücreler gizlenir.