İçeriğe geç

Canlı Kanıt

Neden tek bir model yetmez

İşlediğimiz her konsey çalışmasından gerçek veriler — her 15 dakikada bir güncellenir. Simülasyon yok, elle seçilmiş örnek yok.

Kör nokta kapsamı

Kör nokta, bir modelin sessizce gözden kaçırdığı ancak aynı konseydeki başka bir modelin yakaladığı gerçek bir güvenlik açığı veya hatadır. Aşağıdaki grafik, hangi modellerin en sık benzersiz tespiti sağladığını gösterir — paneldeki hiçbir başka modelin işaretlemediği bulgu.

Model · Benzersiz yakalama oranı

  • 1Gpt 4o Mini
    100.0%
    55.2%
  • 2Qwen3.7 Max
    89.3%
    49.3%
  • 3Claude Sonnet 4 6
    50.2%
    27.7%
  • 4Llama 4 Maverick
    25.4%
    14.0%
  • 5Gemini 2.5 Flash
    23.4%
    12.9%
  • 6Claude Opus 4 8
    20.5%
    11.3%
  • 7Gemini 2.5 Pro
    13.8%
    7.6%
  • 8Deepseek V4 Pro
    13.2%
    7.3%

Benzersiz yakalama oranına göre sıralandı. Yalnızca yeterli veriye sahip modeller gösterilir. Oranlar bir modelin kendi olaylarının yüzdeleridir.

Kalite puanları

Modelin öneren olarak hareket ettiği tüm yargı değerlendirmeleri üzerinden hesaplanan ortalama kalite puanı (0–100) ve tamam oranı. Tamam oranı = tamamen doğru olarak değerlendirilen kararların oranı.

ModelOrt. kalite (0–100)Tamam oranı
Gpt 5.1100.0100.0%
Gpt 5.4 Nano 2026 03 17100.0100.0%
Gpt 5.2 2025 12 11100.0100.0%
Gpt 5.4100.089.1%
Gpt 5.3 Chat Latest100.0100.0%
Gpt 5.2 Chat Latest99.8100.0%
Gpt 5.299.8100.0%
Gpt 5.1 2025 11 1399.6100.0%

Güvenilirlik

Gürültü oranı = konsey sınıflandırıcısının konudan çıkmış veya düşük sinyalli olarak işaretlediği model yanıtlarının oranı. Hata oranı = hata döndüren API çağrılarının oranı. Her ikisi de tüm nitelikli modellerin ortalamasıdır.

Ort. gürültü oranı

1.99%

Sınıflandırıcı tarafından gürültü olarak işaretlenen yanıtların payı.

Ort. API hata oranı

0.62%

Hata döndüren model çağrılarının payı.

Güvenlik incelemesi kıyaslaması (INT-1929)

Önceden kayıtlı kör test · 12 ekili güvenlik açığı + 4 temiz kontrol · kör değerlendirici: konseyde olmayan bağımsız model · maliyet: €0,43

12 gerçek güvenlik açığı sınıfı ve 4 temiz kontrolle gerçekçi bir kod inceleme görevi oluşturduk. Her kol bağımsız olarak çalıştı. Kör değerlendirici hangi kolun hangi çıktıyı ürettiğini bilmiyordu.

KolGeri çağırma (12 üzerinden)Yanlış pozitifler (4 üzerinden)
GPT-4o (single)7 / 121
Gemini 2.5 Flash (single)11 / 125
Claude Haiku 4.5 (single)12 / 125
Konsey — uzlaşı12 / 127
Temel bulgu

GPT-4o, 12 gerçek güvenlik açığından 5'i için sessizce "Güvenlik sorunu bulunamadı" bildirdi — zamanlama yan kanalı, IDOR, eksik yetkilendirme kontrolü, tahmin edilebilir sıfırlama jetonu ve TOCTOU yarışı. Bunlar bağlam ve mantık hataları, ders kitabı hataları değil. Konsey beşini de yakaladı.

Varyans elimine edildi

Tek model başına geri çağırma, aynı görevlerde %58 (GPT-4o) ile %100 (Claude Haiku) arasında değişti. Önünüzdeki hata için hangi modelin daha güçlü olduğunu önceden bilemezsiniz. Konsey, bu kumarbazlık olmadan panel düzeyinde geri çağırma sağlar.

Dürüst tavan

Konsey, en iyi tek modeli geri çağırmada geçmedi — beraberlik yaptı (12/12). Bu kıyaslama güvenilirliği ve varyans eliminasyonunu gösterir, "herhangi bir modelden daha fazla hata bulur" değil. Bunu dürüstçe bildiriyoruz.

Hassasiyet takası

Daha yüksek geri çağırma bazı hassasiyetlere mal olur. Temiz kod üzerindeki yanlış pozitifler: GPT-4o 1 aldı (muhafazakâr ama 5 gerçek hatayı kaçırdı), konsey ise 7 aldı. Bir insan ek işaretlemeleri gözden geçirir — bu önceliklendirme, zamanlama yan kanalını kaçırmama maliyetidir.

Büyüyen sinyal

Bir ajan ve insan geri bildirim sinyali aktif olarak büyüyor. Veri kümesi anlamlı olacak kadar büyüdüğünde derecelendirmeleri ve uyum istatistiklerini yayınlayacağız.

Canlı veriler alındı: 1 Tem 2026 21:51