Kıyaslamalar

Görüntü kalite kontrolü: konsey vs. tekil modeller

Hangi yapay zeka modelleri gerçek fotoğraf hatalarını yakalıyor — hangileri çok fazla sahte alarm veriyor? İlk temel ölçüm, Haziran 2026.

Pilot · ilk temel ölçümmediaqc-v3-2026-06-10 · n=300 · 2026-06-10

Ne bulduk?

300 görüntüyü (160 gerçek hata, 140 temiz kontrol fotoğrafı) altı yapay zeka görüş modeline ve birlikte çalışan beş modellik bir konseye gönderdik. Konsey hataların %87,5'ini yakaladı. En iyi tekil model %66,9'unu buldu. Bu fark — 20,6 yüzde puanı — ana bulgudur.

Konsey geri çağırma

87.5%

doğru tespit edilen hatalar

Konsey avantajı

+20.6pp

en iyi tekil modele kıyasla

En iyi tekil model

66.9%

bir modelle maksimum geri çağırma

Geri çağırma (recall) = modelin bulduğu gerçek hataların oranı. %87,5 geri çağırma, modelin 100 hatalı görüntüden 87,5'ini doğru işaretlediği anlamına gelir.

Yanlış alarm oranı = temiz fotoğrafların hatalı olarak işaretlenme oranı. Düşük sayı daha iyidir.

Kategori geri çağırma = model yalnızca görüntüyü işaretlemekle kalmadı, aynı zamanda doğru hata kategorisini de belirledi (örn. 'anatomi' yerine 'ışıklandırma').

Model başına sonuçlar

Model	Geri çağırma	Yanlış alarm	Kategori geri çağırma	Medyan gecikme	Ort. maliyet/görüntü
KonseyKonseyBeş model birlikte oylar. Yalnızca yargıç adımı — model başına teklif gecikmesi eklenir.	87.5%	17.1%	78.8%	1.7 s	0.267 c
Konsey (temelli)Konsey (temelli)Görüntü temelli yargıçlı aynı konsey (A/B kolu). FP düşer ama geri çağırma da düşer; bayrak kapalı.	70.6%	10.0%	57.7%	2.2 s	0.448 c
claude-fable-5Tekil	66.9%	7.1%	60.3%	7.5 s	3.421 c
gpt-4oTekil	66.9%	15.7%	59.6%	2.3 s	0.437 c
gemini-2.5-proTekil	60.6%	3.6%	48.7%	11.8 s	1.431 c
gemini-2.5-flashTekil	36.9%	7.9%	34.6%	5.2 s	0.238 c
gpt-4o-miniTekil	34.4%	16.4%	30.1%	3.4 s	0.366 c
Mistral-Small-3.2-24B-Instruct-2506Tekil	9.4%	12.1%	9.0%	3.3 s	0.017 c

Yargıç temellendirme A/B: yanlış alarmlar için yararlı, geri çağırma için maliyetli

Yargıca görüntü temellendirme eklemek yanlış alarmaları %17,1'den %10,0'a düşürdü. Ancak geri çağırmayı da 16,9 puan azalttı (p < 0,001). Yanlış alarm iyileştirmesi n=140'ta p ≈ 0,08 değerindedir — yönlendirici ama henüz istatistiksel olarak anlamlı değil. Bayrak kapalı kalır.

Konsey gecikme notu

Konsey satırları için gösterilen gecikme yalnızca yargıç adımıdır. Canlı bir konsey çağrısı beş panel modelinin en yavaşını da bekler.

Teknik detaylar (+)

Veri kümesi bileşimi

Toplam 300 görüntü. 160 hatalı görüntü: 130 LOKI insan etiketli + 30 sentetik hata. 140 kontrol görüntüsü: 120 gerçek fotoğraf + 20 ek kontrol. Tüm görüntüler JPEG q90, maks 1024px olarak normalleştirildi.

Rubrik ve hata sınıfları

Rubrik versiyonu v2. Sınıflar: anatomi, fizik (ışık/gölge), doku, arka plan, diğer.

Same-proposer tekrar oynatma tasarımı

Tekil modeller her görüntüde bağımsız çalıştı. Konsey kolları yargıcı depolanan tekil model bulgularında çalıştırdı.

İstatistik notları

Temellendirme ile FPR iyileştirmesi: %17,1 → %10,0, p ≈ 0,08 (Fisher kesin, n=140). Konsey geri çağırma vs. en iyi tekil: p < 0,001 (ki-kare, n=160). Sonuçlar bir başlangıç noktasıdır, ürün garantisi değildir.

Bu bir ilk temel ölçümdür, sürekli kıyaslama veya ürün garantisi değildir. Veri kümesi: mediaqc-v3-2026-06-10. Ölçüm tarihi: 2026-06-10.

← Kıyaslamalar