Kıyaslamalar
Görüntü kalite kontrolü: konsey vs. tekil modeller
Hangi yapay zeka modelleri gerçek fotoğraf hatalarını yakalıyor — hangileri çok fazla sahte alarm veriyor? İlk temel ölçüm, Haziran 2026.
Ne bulduk?
300 görüntüyü (160 gerçek hata, 140 temiz kontrol fotoğrafı) altı yapay zeka görüş modeline ve birlikte çalışan beş modellik bir konseye gönderdik. Konsey hataların %87,5'ini yakaladı. En iyi tekil model %66,9'unu buldu. Bu fark — 20,6 yüzde puanı — ana bulgudur.
Konsey geri çağırma
87.5%
doğru tespit edilen hatalar
Konsey avantajı
+20.6pp
en iyi tekil modele kıyasla
En iyi tekil model
66.9%
bir modelle maksimum geri çağırma
Model başına sonuçlar
| Model | Geri çağırma | Yanlış alarm | Kategori geri çağırma | Medyan gecikme | Ort. maliyet/görüntü |
|---|---|---|---|---|---|
KonseyKonseyBeş model birlikte oylar. Yalnızca yargıç adımı — model başına teklif gecikmesi eklenir. | 87.5% | 17.1% | 78.8% | 1.7 s | 0.267 c |
Konsey (temelli)Konsey (temelli)Görüntü temelli yargıçlı aynı konsey (A/B kolu). FP düşer ama geri çağırma da düşer; bayrak kapalı. | 70.6% | 10.0% | 57.7% | 2.2 s | 0.448 c |
claude-fable-5Tekil | 66.9% | 7.1% | 60.3% | 7.5 s | 3.421 c |
gpt-4oTekil | 66.9% | 15.7% | 59.6% | 2.3 s | 0.437 c |
gemini-2.5-proTekil | 60.6% | 3.6% | 48.7% | 11.8 s | 1.431 c |
gemini-2.5-flashTekil | 36.9% | 7.9% | 34.6% | 5.2 s | 0.238 c |
gpt-4o-miniTekil | 34.4% | 16.4% | 30.1% | 3.4 s | 0.366 c |
Mistral-Small-3.2-24B-Instruct-2506Tekil | 9.4% | 12.1% | 9.0% | 3.3 s | 0.017 c |
Yargıç temellendirme A/B: yanlış alarmlar için yararlı, geri çağırma için maliyetli
Yargıca görüntü temellendirme eklemek yanlış alarmaları %17,1'den %10,0'a düşürdü. Ancak geri çağırmayı da 16,9 puan azalttı (p < 0,001). Yanlış alarm iyileştirmesi n=140'ta p ≈ 0,08 değerindedir — yönlendirici ama henüz istatistiksel olarak anlamlı değil. Bayrak kapalı kalır.
Konsey gecikme notu
Konsey satırları için gösterilen gecikme yalnızca yargıç adımıdır. Canlı bir konsey çağrısı beş panel modelinin en yavaşını da bekler.
Teknik detaylar (+)
Veri kümesi bileşimi
Toplam 300 görüntü. 160 hatalı görüntü: 130 LOKI insan etiketli + 30 sentetik hata. 140 kontrol görüntüsü: 120 gerçek fotoğraf + 20 ek kontrol. Tüm görüntüler JPEG q90, maks 1024px olarak normalleştirildi.
Rubrik ve hata sınıfları
Rubrik versiyonu v2. Sınıflar: anatomi, fizik (ışık/gölge), doku, arka plan, diğer.
Same-proposer tekrar oynatma tasarımı
Tekil modeller her görüntüde bağımsız çalıştı. Konsey kolları yargıcı depolanan tekil model bulgularında çalıştırdı.
İstatistik notları
Temellendirme ile FPR iyileştirmesi: %17,1 → %10,0, p ≈ 0,08 (Fisher kesin, n=140). Konsey geri çağırma vs. en iyi tekil: p < 0,001 (ki-kare, n=160). Sonuçlar bir başlangıç noktasıdır, ürün garantisi değildir.