Benchmarks

Beeldkwaliteitscontrole: raad versus losse modellen

Welke AI-modellen vinden echte fotofouten — en welke keuren te veel goede foto's af? Eerste beginmeting, juni 2026.

Pilot · eerste beginmetingmediaqc-v3-2026-06-10 · n=300 · 2026-06-10

Wat vonden we?

We stuurden 300 afbeeldingen (160 met een echte fout, 140 goede controlefoto's) naar zes AI-visiemodellen en een raad van vijf modellen die samenwerken. De raad vond 87,5% van de fouten. Het beste losse model vond 66,9%. Dat verschil — 20,6 procentpunt — is de hoofdbevinding. Een raad van modellen mist veel minder fouten dan een enkel model.

Recall raad

87.5%

fouten correct gevonden

Raadvoordeel

+20.6pp

t.o.v. het beste losse model

Beste losse model

66.9%

maximale recall met één model

Recall = het aandeel echte fouten dat het model heeft gevonden. 87,5% recall betekent dat het model 87,5 van elke 100 defecte afbeeldingen correct heeft gemarkeerd.

Vals alarm (false positive) = het aandeel goede foto's dat toch werd afgekeurd. Een lager getal is beter.

Categorierecall = het model markeerde niet alleen de afbeelding, maar deed dat ook voor de juiste categorie fout (bijv. 'anatomie' in plaats van 'belichting'). Dit is een strengere toets.

Resultaten per model

Model	Recall	Vals-alarm	Categorierecall	Mediane latency	Gem. kosten/afb.
RaadRaadVijf modellen stemmen samen. Alleen de judge-stap — de feitelijke voorsteltijd per model komt er bij.	87.5%	17.1%	78.8%	1.7 s	0.267 c
Raad (gegrond)Raad (gegrond)Dezelfde raad met afbeeldingsgeronde judge (A/B-arm). FP daalt maar recall daalt ook; vlag blijft uit.	70.6%	10.0%	57.7%	2.2 s	0.448 c
claude-fable-5Solo	66.9%	7.1%	60.3%	7.5 s	3.421 c
gpt-4oSolo	66.9%	15.7%	59.6%	2.3 s	0.437 c
gemini-2.5-proSolo	60.6%	3.6%	48.7%	11.8 s	1.431 c
gemini-2.5-flashSolo	36.9%	7.9%	34.6%	5.2 s	0.238 c
gpt-4o-miniSolo	34.4%	16.4%	30.1%	3.4 s	0.366 c
Mistral-Small-3.2-24B-Instruct-2506Solo	9.4%	12.1%	9.0%	3.3 s	0.017 c

Judge grounding A/B: nuttig voor valse alarmen, duur voor recall

Het toevoegen van afbeeldingsgrounding aan de judge verlaagde valse alarmen van 17,1% naar 10,0% — een echte verbetering. Maar het sneed ook 16,9 procentpunt van de recall af (p < 0,001). De verbetering van het vals-alarmpercentage heeft p ≈ 0,08 bij n=140, wat richtinggevend overtuigend is maar nog niet statistisch significant. Gezien de recall-kosten blijft de gegronde judge-vlag uit totdat een oplossing is gevonden.

Opmerking over raad-latency

De getoonde latency voor raadrijen betreft alleen de judge-stap (uitgevoerd over opgeslagen voorstellen). Een live raad-aanroep wacht ook op het langzaamste van de vijf paneelmodellen. Verwachte end-to-end latency voor een live raad: ruwweg het langzaamste losse model plus de judge-stap.

Technische uitleg (+)

Samenstelling dataset

300 afbeeldingen totaal. 160 defecte afbeeldingen: 130 LOKI door mensen geannoteerde AI-gegenereerde afbeeldingen met ground-truth foutlabels + 30 synthetische defecten. 140 controlesafbeeldingen: 120 echte foto's (geen AI-artefacten) + 20 extra controls. Alle afbeeldingen genormaliseerd naar JPEG q90, maximaal 1024px op de lange kant.

Rubric en foutklassen

Rubric versie v2. Foutklassen: anatomie (ledematen, vingers, gezichten), fysica (belichting, schaduwen, reflecties), textuur (oppervlakken, materialen), achtergrond (incoherente elementen), overig. Een model moet de juiste klasse noemen om mee te tellen voor de categorierecall.

Same-proposer replay-ontwerp

Losse modellen draaiden onafhankelijk op elke afbeelding. De raad-arms draaiden de judge over de opgeslagen bevindingen van de losse modellen — geen herhaalde API-aanroepen voor al beoordeelde afbeeldingen. Dit controleert voor promptvariatie en isoleert het effect van raadstemmen van individuele modelkwaliteit.

Statistische opmerkingen

Judge grounding FPR-verbetering: van 17,1% naar 10,0%, p ≈ 0,08 (Fisher exact, n=140 controls) — richtinggevend maar niet significant. Raad recall versus beste solo: p < 0,001 (chi-kwadraat, n=160 defecten). Alle betrouwbaarheidsintervallen gebaseerd op normale benadering; n is klein genoeg dat resultaten een startpunt zijn, geen productgarantie.

Dit is een eerste beginmeting, geen continu benchmark of productgarantie. Dataset: mediaqc-v3-2026-06-10. Meetdatum: 2026-06-10.

← Benchmarks