Benchmarks
Beeldkwaliteitscontrole: raad versus losse modellen
Welke AI-modellen vinden echte fotofouten — en welke keuren te veel goede foto's af? Eerste beginmeting, juni 2026.
Wat vonden we?
We stuurden 300 afbeeldingen (160 met een echte fout, 140 goede controlefoto's) naar zes AI-visiemodellen en een raad van vijf modellen die samenwerken. De raad vond 87,5% van de fouten. Het beste losse model vond 66,9%. Dat verschil — 20,6 procentpunt — is de hoofdbevinding. Een raad van modellen mist veel minder fouten dan een enkel model.
Recall raad
87.5%
fouten correct gevonden
Raadvoordeel
+20.6pp
t.o.v. het beste losse model
Beste losse model
66.9%
maximale recall met één model
Resultaten per model
| Model | Recall | Vals-alarm | Categorierecall | Mediane latency | Gem. kosten/afb. |
|---|---|---|---|---|---|
RaadRaadVijf modellen stemmen samen. Alleen de judge-stap — de feitelijke voorsteltijd per model komt er bij. | 87.5% | 17.1% | 78.8% | 1.7 s | 0.267 c |
Raad (gegrond)Raad (gegrond)Dezelfde raad met afbeeldingsgeronde judge (A/B-arm). FP daalt maar recall daalt ook; vlag blijft uit. | 70.6% | 10.0% | 57.7% | 2.2 s | 0.448 c |
claude-fable-5Solo | 66.9% | 7.1% | 60.3% | 7.5 s | 3.421 c |
gpt-4oSolo | 66.9% | 15.7% | 59.6% | 2.3 s | 0.437 c |
gemini-2.5-proSolo | 60.6% | 3.6% | 48.7% | 11.8 s | 1.431 c |
gemini-2.5-flashSolo | 36.9% | 7.9% | 34.6% | 5.2 s | 0.238 c |
gpt-4o-miniSolo | 34.4% | 16.4% | 30.1% | 3.4 s | 0.366 c |
Mistral-Small-3.2-24B-Instruct-2506Solo | 9.4% | 12.1% | 9.0% | 3.3 s | 0.017 c |
Judge grounding A/B: nuttig voor valse alarmen, duur voor recall
Het toevoegen van afbeeldingsgrounding aan de judge verlaagde valse alarmen van 17,1% naar 10,0% — een echte verbetering. Maar het sneed ook 16,9 procentpunt van de recall af (p < 0,001). De verbetering van het vals-alarmpercentage heeft p ≈ 0,08 bij n=140, wat richtinggevend overtuigend is maar nog niet statistisch significant. Gezien de recall-kosten blijft de gegronde judge-vlag uit totdat een oplossing is gevonden.
Opmerking over raad-latency
De getoonde latency voor raadrijen betreft alleen de judge-stap (uitgevoerd over opgeslagen voorstellen). Een live raad-aanroep wacht ook op het langzaamste van de vijf paneelmodellen. Verwachte end-to-end latency voor een live raad: ruwweg het langzaamste losse model plus de judge-stap.
Technische uitleg (+)
Samenstelling dataset
300 afbeeldingen totaal. 160 defecte afbeeldingen: 130 LOKI door mensen geannoteerde AI-gegenereerde afbeeldingen met ground-truth foutlabels + 30 synthetische defecten. 140 controlesafbeeldingen: 120 echte foto's (geen AI-artefacten) + 20 extra controls. Alle afbeeldingen genormaliseerd naar JPEG q90, maximaal 1024px op de lange kant.
Rubric en foutklassen
Rubric versie v2. Foutklassen: anatomie (ledematen, vingers, gezichten), fysica (belichting, schaduwen, reflecties), textuur (oppervlakken, materialen), achtergrond (incoherente elementen), overig. Een model moet de juiste klasse noemen om mee te tellen voor de categorierecall.
Same-proposer replay-ontwerp
Losse modellen draaiden onafhankelijk op elke afbeelding. De raad-arms draaiden de judge over de opgeslagen bevindingen van de losse modellen — geen herhaalde API-aanroepen voor al beoordeelde afbeeldingen. Dit controleert voor promptvariatie en isoleert het effect van raadstemmen van individuele modelkwaliteit.
Statistische opmerkingen
Judge grounding FPR-verbetering: van 17,1% naar 10,0%, p ≈ 0,08 (Fisher exact, n=140 controls) — richtinggevend maar niet significant. Raad recall versus beste solo: p < 0,001 (chi-kwadraat, n=160 defecten). Alle betrouwbaarheidsintervallen gebaseerd op normale benadering; n is klein genoeg dat resultaten een startpunt zijn, geen productgarantie.