Benchmarks

Bildqualitätskontrolle: Rat vs. Einzelmodelle

Welche KI-Modelle erkennen echte Bildfehler — und welche markieren zu viele gute Fotos? Erste Basismessung, Juni 2026.

Pilot · erste Basismessungmediaqc-v3-2026-06-10 · n=300 · 2026-06-10

Was haben wir gefunden?

Wir haben 300 Bilder (160 mit echten Fehlern, 140 fehlerfreie Kontrollfotos) an sechs KI-Visionsmodelle und einen Rat aus fünf Modellen gesendet. Der Rat erkannte 87,5% der Fehler. Das beste Einzelmodell erkannte 66,9%. Diese Lücke — 20,6 Prozentpunkte — ist der Hauptbefund. Ein Modellrat übersieht deutlich weniger Fehler als ein einzelnes Modell.

Rat-Recall

87.5%

Fehler korrekt erkannt

Ratvorteil

+20.6pp

gegenüber bestem Einzelmodell

Bestes Einzelmodell

66.9%

maximaler Recall mit einem Modell

Recall = Anteil der echten Fehler, den das Modell gefunden hat. 87,5% Recall bedeutet, dass das Modell 87,5 von 100 fehlerhaften Bildern korrekt markiert hat.

Fehlalarmrate (False Positive) = Anteil der fehlerfreien Fotos, die fälschlicherweise als fehlerhaft markiert wurden. Ein niedrigerer Wert ist besser.

Kategorie-Recall = das Modell hat nicht nur das Bild markiert, sondern auch die richtige Fehlerkategorie erkannt (z.B. 'Anatomie' statt 'Beleuchtung'). Dies ist ein strengerer Test.

Ergebnisse pro Modell

Modell	Recall	Fehlalarmrate	Kategorie-Recall	Mediane Latenz	Ø Kosten/Bild
RatRatFünf Modelle stimmen gemeinsam ab. Nur Judge-Schritt — tatsächliche Vorschlagslatenz pro Modell kommt hinzu.	87.5%	17.1%	78.8%	1.7 s	0.267 c
Rat (geerdet)Rat (geerdet)Gleicher Rat mit bild-geerdeter Judge (A/B-Arm). FP sinkt, aber Recall sinkt ebenfalls; Flag bleibt aus.	70.6%	10.0%	57.7%	2.2 s	0.448 c
claude-fable-5Solo	66.9%	7.1%	60.3%	7.5 s	3.421 c
gpt-4oSolo	66.9%	15.7%	59.6%	2.3 s	0.437 c
gemini-2.5-proSolo	60.6%	3.6%	48.7%	11.8 s	1.431 c
gemini-2.5-flashSolo	36.9%	7.9%	34.6%	5.2 s	0.238 c
gpt-4o-miniSolo	34.4%	16.4%	30.1%	3.4 s	0.366 c
Mistral-Small-3.2-24B-Instruct-2506Solo	9.4%	12.1%	9.0%	3.3 s	0.017 c

Judge-Grounding A/B: nützlich für Fehlalarme, teuer für Recall

Das Hinzufügen von Bildgrounding zur Judge reduzierte Fehlalarme von 17,1% auf 10,0% — eine echte Verbesserung. Es senkte aber auch den Recall um 16,9 Prozentpunkte (p < 0,001). Die Fehlalarm-Verbesserung hat p ≈ 0,08 bei n=140, was richtungsmäßig überzeugend, aber noch nicht statistisch signifikant ist. Angesichts der Recall-Kosten bleibt das gegrundete Judge-Flag aus.

Hinweis zur Rat-Latenz

Die angezeigte Latenz für Rat-Zeilen ist nur der Judge-Schritt. Ein Live-Rat-Aufruf wartet auch auf das langsamste der fünf Panel-Modelle. Erwartete End-to-End-Latenz: ungefähr das langsamste Einzelmodell plus Judge-Schritt.

Technische Details (+)

Datensatz-Zusammensetzung

300 Bilder gesamt. 160 fehlerhafte Bilder: 130 LOKI menschlich annotierte KI-generierte Bilder mit Ground-Truth-Fehlerbezeichnungen + 30 synthetische Fehler. 140 Kontrollbilder: 120 echte Fotos (keine KI-Artefakte) + 20 zusätzliche Kontrollen. Alle Bilder normalisiert auf JPEG q90, maximal 1024px auf der langen Seite.

Rubrik und Fehlerklassen

Rubrik-Version v2. Fehlerklassen: Anatomie (Gliedmaßen, Finger, Gesichter), Physik (Beleuchtung, Schatten, Reflexionen), Textur (Oberflächen, Materialien), Hintergrund (inkohärente Elemente), Sonstiges.

Same-Proposer-Replay-Design

Einzelmodelle liefen unabhängig auf jedem Bild. Die Rat-Arme ließen die Judge über gespeicherte Einzelmodel-Befunde laufen — keine wiederholten API-Aufrufe für bereits bewertete Bilder.

Statistische Hinweise

Judge-Grounding FPR-Verbesserung: von 17,1% auf 10,0%, p ≈ 0,08 (Fisher-Exakt, n=140 Kontrollen) — richtungsmäßig, aber nicht signifikant. Rat-Recall vs. bestes Solo: p < 0,001 (Chi-Quadrat, n=160 Fehler). Ergebnisse sind ein Ausgangspunkt, keine Produktgarantie.

Dies ist eine erste Basismessung, keine kontinuierliche Benchmarking oder Produktgarantie. Datensatz: mediaqc-v3-2026-06-10. Messdatum: 2026-06-10.

← Benchmarks