Canlı Kanıt
Neden tek bir model yetmez
İşlediğimiz her konsey çalışmasından gerçek veriler — her 15 dakikada bir güncellenir. Simülasyon yok, elle seçilmiş örnek yok.
Kör nokta kapsamı
Kör nokta, bir modelin sessizce gözden kaçırdığı ancak aynı konseydeki başka bir modelin yakaladığı gerçek bir güvenlik açığı veya hatadır. Aşağıdaki grafik, hangi modellerin en sık benzersiz tespiti sağladığını gösterir — paneldeki hiçbir başka modelin işaretlemediği bulgu.
Model · Benzersiz yakalama oranı
- 1Gpt 4o Mini55.2%100.0%
- 2Qwen3.7 Max49.3%89.3%
- 3Claude Sonnet 4 627.7%50.2%
- 4Llama 4 Maverick14.0%25.4%
- 5Gemini 2.5 Flash12.9%23.4%
- 6Claude Opus 4 811.3%20.5%
- 7Gemini 2.5 Pro7.6%13.8%
- 8Deepseek V4 Pro7.3%13.2%
Benzersiz yakalama oranına göre sıralandı. Yalnızca yeterli veriye sahip modeller gösterilir. Oranlar bir modelin kendi olaylarının yüzdeleridir.
Kalite puanları
Modelin öneren olarak hareket ettiği tüm yargı değerlendirmeleri üzerinden hesaplanan ortalama kalite puanı (0–100) ve tamam oranı. Tamam oranı = tamamen doğru olarak değerlendirilen kararların oranı.
| Model | Ort. kalite (0–100) | Tamam oranı |
|---|---|---|
| Gpt 5.1 | 100.0 | 100.0% |
| Gpt 5.4 Nano 2026 03 17 | 100.0 | 100.0% |
| Gpt 5.2 2025 12 11 | 100.0 | 100.0% |
| Gpt 5.4 | 100.0 | 89.1% |
| Gpt 5.3 Chat Latest | 100.0 | 100.0% |
| Gpt 5.2 Chat Latest | 99.8 | 100.0% |
| Gpt 5.2 | 99.8 | 100.0% |
| Gpt 5.1 2025 11 13 | 99.6 | 100.0% |
Güvenilirlik
Gürültü oranı = konsey sınıflandırıcısının konudan çıkmış veya düşük sinyalli olarak işaretlediği model yanıtlarının oranı. Hata oranı = hata döndüren API çağrılarının oranı. Her ikisi de tüm nitelikli modellerin ortalamasıdır.
Ort. gürültü oranı
1.99%
Sınıflandırıcı tarafından gürültü olarak işaretlenen yanıtların payı.
Ort. API hata oranı
0.62%
Hata döndüren model çağrılarının payı.
Güvenlik incelemesi kıyaslaması (INT-1929)
Önceden kayıtlı kör test · 12 ekili güvenlik açığı + 4 temiz kontrol · kör değerlendirici: konseyde olmayan bağımsız model · maliyet: €0,43
12 gerçek güvenlik açığı sınıfı ve 4 temiz kontrolle gerçekçi bir kod inceleme görevi oluşturduk. Her kol bağımsız olarak çalıştı. Kör değerlendirici hangi kolun hangi çıktıyı ürettiğini bilmiyordu.
| Kol | Geri çağırma (12 üzerinden) | Yanlış pozitifler (4 üzerinden) |
|---|---|---|
| GPT-4o (single) | 7 / 12 | 1 |
| Gemini 2.5 Flash (single) | 11 / 12 | 5 |
| Claude Haiku 4.5 (single) | 12 / 12 | 5 |
| Konsey — uzlaşı | 12 / 12 | 7 |
GPT-4o, 12 gerçek güvenlik açığından 5'i için sessizce "Güvenlik sorunu bulunamadı" bildirdi — zamanlama yan kanalı, IDOR, eksik yetkilendirme kontrolü, tahmin edilebilir sıfırlama jetonu ve TOCTOU yarışı. Bunlar bağlam ve mantık hataları, ders kitabı hataları değil. Konsey beşini de yakaladı.
Tek model başına geri çağırma, aynı görevlerde %58 (GPT-4o) ile %100 (Claude Haiku) arasında değişti. Önünüzdeki hata için hangi modelin daha güçlü olduğunu önceden bilemezsiniz. Konsey, bu kumarbazlık olmadan panel düzeyinde geri çağırma sağlar.
Konsey, en iyi tek modeli geri çağırmada geçmedi — beraberlik yaptı (12/12). Bu kıyaslama güvenilirliği ve varyans eliminasyonunu gösterir, "herhangi bir modelden daha fazla hata bulur" değil. Bunu dürüstçe bildiriyoruz.
Daha yüksek geri çağırma bazı hassasiyetlere mal olur. Temiz kod üzerindeki yanlış pozitifler: GPT-4o 1 aldı (muhafazakâr ama 5 gerçek hatayı kaçırdı), konsey ise 7 aldı. Bir insan ek işaretlemeleri gözden geçirir — bu önceliklendirme, zamanlama yan kanalını kaçırmama maliyetidir.
Büyüyen sinyal
Bir ajan ve insan geri bildirim sinyali aktif olarak büyüyor. Veri kümesi anlamlı olacak kadar büyüdüğünde derecelendirmeleri ve uyum istatistiklerini yayınlayacağız.
Canlı veriler alındı: 1 Tem 2026 21:51