Canlı Kanıt

Neden tek bir model yetmez

İşlediğimiz her konsey çalışmasından gerçek veriler — her 15 dakikada bir güncellenir. Simülasyon yok, elle seçilmiş örnek yok.

Kör nokta kapsamı

Kör nokta, bir modelin sessizce gözden kaçırdığı ancak aynı konseydeki başka bir modelin yakaladığı gerçek bir güvenlik açığı veya hatadır. Aşağıdaki grafik, hangi modellerin en sık benzersiz tespiti sağladığını gösterir — paneldeki hiçbir başka modelin işaretlemediği bulgu.

Model · Benzersiz yakalama oranı

1Gpt 4o Mini
100.0%
55.2%
2Qwen3.7 Max
89.3%
49.3%
3Claude Sonnet 4 6
50.2%
27.7%
4Llama 4 Maverick
25.4%
14.0%
5Gemini 2.5 Flash
23.4%
12.9%
6Claude Opus 4 8
20.5%
11.3%
7Gemini 2.5 Pro
13.8%
7.6%
8Deepseek V4 Pro
13.2%
7.3%

Benzersiz yakalama oranına göre sıralandı. Yalnızca yeterli veriye sahip modeller gösterilir. Oranlar bir modelin kendi olaylarının yüzdeleridir.

Kalite puanları

Modelin öneren olarak hareket ettiği tüm yargı değerlendirmeleri üzerinden hesaplanan ortalama kalite puanı (0–100) ve tamam oranı. Tamam oranı = tamamen doğru olarak değerlendirilen kararların oranı.

Model	Ort. kalite (0–100)	Tamam oranı
Gpt 5.1	100.0	100.0%
Gpt 5.4 Nano 2026 03 17	100.0	100.0%
Gpt 5.2 2025 12 11	100.0	100.0%
Gpt 5.4	100.0	89.1%
Gpt 5.3 Chat Latest	100.0	100.0%
Gpt 5.2 Chat Latest	99.8	100.0%
Gpt 5.2	99.8	100.0%
Gpt 5.1 2025 11 13	99.6	100.0%

Güvenilirlik

Gürültü oranı = konsey sınıflandırıcısının konudan çıkmış veya düşük sinyalli olarak işaretlediği model yanıtlarının oranı. Hata oranı = hata döndüren API çağrılarının oranı. Her ikisi de tüm nitelikli modellerin ortalamasıdır.

Ort. gürültü oranı

1.99%

Sınıflandırıcı tarafından gürültü olarak işaretlenen yanıtların payı.

Ort. API hata oranı

0.62%

Hata döndüren model çağrılarının payı.

Güvenlik incelemesi kıyaslaması (INT-1929)

Önceden kayıtlı kör test · 12 ekili güvenlik açığı + 4 temiz kontrol · kör değerlendirici: konseyde olmayan bağımsız model · maliyet: €0,43

12 gerçek güvenlik açığı sınıfı ve 4 temiz kontrolle gerçekçi bir kod inceleme görevi oluşturduk. Her kol bağımsız olarak çalıştı. Kör değerlendirici hangi kolun hangi çıktıyı ürettiğini bilmiyordu.

Kol	Geri çağırma (12 üzerinden)	Yanlış pozitifler (4 üzerinden)
GPT-4o (single)	7 / 12	1
Gemini 2.5 Flash (single)	11 / 12	5
Claude Haiku 4.5 (single)	12 / 12	5
Konsey — uzlaşı	12 / 12	7

Temel bulgu

GPT-4o, 12 gerçek güvenlik açığından 5'i için sessizce "Güvenlik sorunu bulunamadı" bildirdi — zamanlama yan kanalı, IDOR, eksik yetkilendirme kontrolü, tahmin edilebilir sıfırlama jetonu ve TOCTOU yarışı. Bunlar bağlam ve mantık hataları, ders kitabı hataları değil. Konsey beşini de yakaladı.

Varyans elimine edildi

Tek model başına geri çağırma, aynı görevlerde %58 (GPT-4o) ile %100 (Claude Haiku) arasında değişti. Önünüzdeki hata için hangi modelin daha güçlü olduğunu önceden bilemezsiniz. Konsey, bu kumarbazlık olmadan panel düzeyinde geri çağırma sağlar.

Dürüst tavan

Konsey, en iyi tek modeli geri çağırmada geçmedi — beraberlik yaptı (12/12). Bu kıyaslama güvenilirliği ve varyans eliminasyonunu gösterir, "herhangi bir modelden daha fazla hata bulur" değil. Bunu dürüstçe bildiriyoruz.

Hassasiyet takası

Daha yüksek geri çağırma bazı hassasiyetlere mal olur. Temiz kod üzerindeki yanlış pozitifler: GPT-4o 1 aldı (muhafazakâr ama 5 gerçek hatayı kaçırdı), konsey ise 7 aldı. Bir insan ek işaretlemeleri gözden geçirir — bu önceliklendirme, zamanlama yan kanalını kaçırmama maliyetidir.

Büyüyen sinyal

Bir ajan ve insan geri bildirim sinyali aktif olarak büyüyor. Veri kümesi anlamlı olacak kadar büyüdüğünde derecelendirmeleri ve uyum istatistiklerini yayınlayacağız.

Canlı veriler alındı: 1 Tem 2026 21:51