Zum Inhalt

Benchmarks

Bildqualitätskontrolle: Rat vs. Einzelmodelle

Welche KI-Modelle erkennen echte Bildfehler — und welche markieren zu viele gute Fotos? Erste Basismessung, Juni 2026.

Pilot · erste Basismessungmediaqc-v3-2026-06-10 · n=300 · 2026-06-10

Was haben wir gefunden?

Wir haben 300 Bilder (160 mit echten Fehlern, 140 fehlerfreie Kontrollfotos) an sechs KI-Visionsmodelle und einen Rat aus fünf Modellen gesendet. Der Rat erkannte 87,5% der Fehler. Das beste Einzelmodell erkannte 66,9%. Diese Lücke — 20,6 Prozentpunkte — ist der Hauptbefund. Ein Modellrat übersieht deutlich weniger Fehler als ein einzelnes Modell.

Rat-Recall

87.5%

Fehler korrekt erkannt

Ratvorteil

+20.6pp

gegenüber bestem Einzelmodell

Bestes Einzelmodell

66.9%

maximaler Recall mit einem Modell

Recall = Anteil der echten Fehler, den das Modell gefunden hat. 87,5% Recall bedeutet, dass das Modell 87,5 von 100 fehlerhaften Bildern korrekt markiert hat.
Fehlalarmrate (False Positive) = Anteil der fehlerfreien Fotos, die fälschlicherweise als fehlerhaft markiert wurden. Ein niedrigerer Wert ist besser.
Kategorie-Recall = das Modell hat nicht nur das Bild markiert, sondern auch die richtige Fehlerkategorie erkannt (z.B. 'Anatomie' statt 'Beleuchtung'). Dies ist ein strengerer Test.

Ergebnisse pro Modell

ModellRecallFehlalarmrateKategorie-RecallMediane LatenzØ Kosten/Bild
RatRatFünf Modelle stimmen gemeinsam ab. Nur Judge-Schritt — tatsächliche Vorschlagslatenz pro Modell kommt hinzu.
87.5%17.1%78.8%1.7 s0.267 c
Rat (geerdet)Rat (geerdet)Gleicher Rat mit bild-geerdeter Judge (A/B-Arm). FP sinkt, aber Recall sinkt ebenfalls; Flag bleibt aus.
70.6%10.0%57.7%2.2 s0.448 c
claude-fable-5Solo
66.9%7.1%60.3%7.5 s3.421 c
gpt-4oSolo
66.9%15.7%59.6%2.3 s0.437 c
gemini-2.5-proSolo
60.6%3.6%48.7%11.8 s1.431 c
gemini-2.5-flashSolo
36.9%7.9%34.6%5.2 s0.238 c
gpt-4o-miniSolo
34.4%16.4%30.1%3.4 s0.366 c
Mistral-Small-3.2-24B-Instruct-2506Solo
9.4%12.1%9.0%3.3 s0.017 c

Judge-Grounding A/B: nützlich für Fehlalarme, teuer für Recall

Das Hinzufügen von Bildgrounding zur Judge reduzierte Fehlalarme von 17,1% auf 10,0% — eine echte Verbesserung. Es senkte aber auch den Recall um 16,9 Prozentpunkte (p < 0,001). Die Fehlalarm-Verbesserung hat p ≈ 0,08 bei n=140, was richtungsmäßig überzeugend, aber noch nicht statistisch signifikant ist. Angesichts der Recall-Kosten bleibt das gegrundete Judge-Flag aus.

Hinweis zur Rat-Latenz

Die angezeigte Latenz für Rat-Zeilen ist nur der Judge-Schritt. Ein Live-Rat-Aufruf wartet auch auf das langsamste der fünf Panel-Modelle. Erwartete End-to-End-Latenz: ungefähr das langsamste Einzelmodell plus Judge-Schritt.

Technische Details (+)

Datensatz-Zusammensetzung

300 Bilder gesamt. 160 fehlerhafte Bilder: 130 LOKI menschlich annotierte KI-generierte Bilder mit Ground-Truth-Fehlerbezeichnungen + 30 synthetische Fehler. 140 Kontrollbilder: 120 echte Fotos (keine KI-Artefakte) + 20 zusätzliche Kontrollen. Alle Bilder normalisiert auf JPEG q90, maximal 1024px auf der langen Seite.

Rubrik und Fehlerklassen

Rubrik-Version v2. Fehlerklassen: Anatomie (Gliedmaßen, Finger, Gesichter), Physik (Beleuchtung, Schatten, Reflexionen), Textur (Oberflächen, Materialien), Hintergrund (inkohärente Elemente), Sonstiges.

Same-Proposer-Replay-Design

Einzelmodelle liefen unabhängig auf jedem Bild. Die Rat-Arme ließen die Judge über gespeicherte Einzelmodel-Befunde laufen — keine wiederholten API-Aufrufe für bereits bewertete Bilder.

Statistische Hinweise

Judge-Grounding FPR-Verbesserung: von 17,1% auf 10,0%, p ≈ 0,08 (Fisher-Exakt, n=140 Kontrollen) — richtungsmäßig, aber nicht signifikant. Rat-Recall vs. bestes Solo: p < 0,001 (Chi-Quadrat, n=160 Fehler). Ergebnisse sind ein Ausgangspunkt, keine Produktgarantie.

Dies ist eine erste Basismessung, keine kontinuierliche Benchmarking oder Produktgarantie. Datensatz: mediaqc-v3-2026-06-10. Messdatum: 2026-06-10.