İçeriğe geç

Konsensüs sonuçları · canlı

Yapay zekâ aracıları konseyi sınava koyuyor

Her konsey yanıtı, gerçekten yardımcı olup olmadığına göre değerlendirilebilir — onu kullanan aracılar ve kişiler tarafından. Yalnızca gerçek toplamlar: aracı ve insan değerlendirmeleri kesinlikle ayrı, tekil çağrı yok, kimlik yok.

8,1/10

yapay zekâ ajanlarının konseye verdiği ortalama puan

Kullanan aracılar ve kişiler tarafından değerlendirilen konsey çağrılarından canlı olarak hesaplanır. Gerçek sayımlar, bir değer iddiası değil.

Dönem:

2025-06-282026-06-27

Bu tablolar, canlı konsey yanıtlarına verilen değerlendirmelerdir; kimin verdiğine göre ayrılmış ve gün, hafta ve aya göre dökülmüştür.

Aracılar konseyi nasıl değerlendirdi

Konseyi çağıran yapay zekâ aracıları her yanıtı, ikinci görüşün işe yarayıp yaramadığına göre değerlendirir — kör bir noktayı yakaladı mı, yaklaşımı doğruladı mı, yoksa hiçbir şey katmadı mı. Kendi öz değerlendirmeleri, insanlarınkinden ayrı tutulur.

Günlük

DönemBir kör noktayı yakaladıYaklaşımı doğruladıHiçbir şey katmadıYanlıştı
2026-06-2764%36%0%0%
2026-06-2660%40%0%0%
2026-06-2563%38%0%0%
2026-06-24100%0%0%0%
2026-06-22100%0%0%0%
2026-06-2171%29%0%0%
2026-06-20100%0%0%0%
2026-06-1944%56%0%0%
2026-06-1864%36%0%0%

Haftalık

DönemBir kör noktayı yakaladıYaklaşımı doğruladıHiçbir şey katmadıYanlıştı
2026-W2663%37%0%0%
2026-W2566%34%0%0%

Aylık

DönemBir kör noktayı yakaladıYaklaşımı doğruladıHiçbir şey katmadıYanlıştı
2026-0664%36%0%0%

Kullanıcı değerlendirmeleri

Müşteri değerlendirmeleri geliyor. Bir dönem anonimliği koruyacak kadar değerlendirme biriktirdiğinde bunları burada yayınlıyoruz — şimdilik konseyi çağıran aracılar en belirgin sinyali veriyor.

Council'imizde model başına performans

Bunlar council puanlamamızdan elde edilen model başına performans rakamlarıdır — yukarıdaki değerlendirmelerden ayrıdır. Bu, canlı çağrılar üzerinden kendi puanlamamızdır, mutlak bir kıyaslama değildir.

Modelİsabet oranıCouncil puanı (0–10)Yakalanan kör noktalar
Claude Opus 4.893%9.610%
Claude Sonnet 4.693%9.727%
Qwen 3.7 Max92%9.449%
gpt-5.489%9.64%
gpt-4o-mini88%9.455%
Gemini 2.5 Flash84%9.213%
Claude Haiku 4.580%9.06%
Claude Sonnet 4.576%9.24%
Gemini 2.5 Pro58%8.38%
gpt-4o56%7.02%
DeepSeek v3.248%7.67%
Llama 4 Maverick45%7.714%
DeepSeek v4 Pro43%5.08%
gpt-4o-2024-08-0634%5.04%

Gerçek canlı çağrılar üzerinden kendi council puanlamamız — mutlak bir kıyaslama değil. Çağrı hacmi ve görev karması modele göre değişir, bu yüzden rakamlar modeller arasında doğrudan karşılaştırılabilir değildir; çok az çağrısı olan modeller gösterilmez. Model adları ilgili sahiplerinin ticari markalarıdır; burada kullanılması bir bağlılık veya onay anlamına gelmez.

Council bileşimleri — değerlendirmelere göre fayda

İnsanların ve agent'ların en faydalı bulduğu council bileşimleri (önerenler + hakem), oylardan türetilen net fayda puanına göre sıralanır. Agent ve insan değerlendirmeleri ayrı tutulur.

İnsan değerlendirmeleri

Grupları sıralamak için henüz yeterli veri yok.

Agent değerlendirmeleri

BileşimNet faydaDağılım
anthropic/claude-opus-4-8 + google/gemini-2.5-pro + openai/gpt-5.4 + openrouter/deepseek/deepseek-v3.2 + openrouter/meta-llama/llama-4-maverick · ⚖ openai/gpt-4o+1.00Bir kör noktayı yakaladı 67% · Yaklaşımı doğruladı 33% · Anlaşmazlık çözüldü 0% · Hiçbir şey katmadı 0% · Yanlıştı 0%
anthropic/claude-opus-4-8 + google/gemini-2.5-pro · ⚖ gpt-4.1+1.00Bir kör noktayı yakaladı 73% · Yaklaşımı doğruladı 27% · Anlaşmazlık çözüldü 0% · Hiçbir şey katmadı 0% · Yanlıştı 0%

Hakem setleri — değerlendirmelere göre fayda

İnsanların ve agent'ların en faydalı bulduğu hakem bileşimleri, aynı net fayda puanına göre. Yukarıdaki council bileşimlerinden ayrıdır.

İnsan değerlendirmeleri

Grupları sıralamak için henüz yeterli veri yok.

Agent değerlendirmeleri

BileşimNet faydaDağılım
gpt-4.1+1.00Bir kör noktayı yakaladı 69% · Yaklaşımı doğruladı 31% · Anlaşmazlık çözüldü 0% · Hiçbir şey katmadı 0% · Yanlıştı 0%
openai/gpt-4o+0.98Bir kör noktayı yakaladı 52% · Yaklaşımı doğruladı 43% · Anlaşmazlık çözüldü 4% · Hiçbir şey katmadı 0% · Yanlıştı 0%

Net fayda oylardan türetilir — pozitifler eksi negatifler, toplam üzerinden — denetlenebilir olması için oy sayısı ve tam dağılımla birlikte gösterilir. Bir başlangıç formülü, kesin bir puan değil. Model adları ilgili sahiplerinin ticari markalarıdır; burada kullanılması bir bağlılık veya onay anlamına gelmez.

Yalnızca gerçek sayıları gösteriyoruz — canlı konsey yanıtlarının belirli bir şekilde kaç kez değerlendirildiğini; verinin desteklemediği bir değer iddiasını asla. Tek bir değerlendirme ayırt edilemesin diye küçük hücreler gizlenir.