Benchmarks
Bildqualitätskontrolle: Rat vs. Einzelmodelle
Welche KI-Modelle erkennen echte Bildfehler — und welche markieren zu viele gute Fotos? Erste Basismessung, Juni 2026.
Was haben wir gefunden?
Wir haben 300 Bilder (160 mit echten Fehlern, 140 fehlerfreie Kontrollfotos) an sechs KI-Visionsmodelle und einen Rat aus fünf Modellen gesendet. Der Rat erkannte 87,5% der Fehler. Das beste Einzelmodell erkannte 66,9%. Diese Lücke — 20,6 Prozentpunkte — ist der Hauptbefund. Ein Modellrat übersieht deutlich weniger Fehler als ein einzelnes Modell.
Rat-Recall
87.5%
Fehler korrekt erkannt
Ratvorteil
+20.6pp
gegenüber bestem Einzelmodell
Bestes Einzelmodell
66.9%
maximaler Recall mit einem Modell
Ergebnisse pro Modell
| Modell | Recall | Fehlalarmrate | Kategorie-Recall | Mediane Latenz | Ø Kosten/Bild |
|---|---|---|---|---|---|
RatRatFünf Modelle stimmen gemeinsam ab. Nur Judge-Schritt — tatsächliche Vorschlagslatenz pro Modell kommt hinzu. | 87.5% | 17.1% | 78.8% | 1.7 s | 0.267 c |
Rat (geerdet)Rat (geerdet)Gleicher Rat mit bild-geerdeter Judge (A/B-Arm). FP sinkt, aber Recall sinkt ebenfalls; Flag bleibt aus. | 70.6% | 10.0% | 57.7% | 2.2 s | 0.448 c |
claude-fable-5Solo | 66.9% | 7.1% | 60.3% | 7.5 s | 3.421 c |
gpt-4oSolo | 66.9% | 15.7% | 59.6% | 2.3 s | 0.437 c |
gemini-2.5-proSolo | 60.6% | 3.6% | 48.7% | 11.8 s | 1.431 c |
gemini-2.5-flashSolo | 36.9% | 7.9% | 34.6% | 5.2 s | 0.238 c |
gpt-4o-miniSolo | 34.4% | 16.4% | 30.1% | 3.4 s | 0.366 c |
Mistral-Small-3.2-24B-Instruct-2506Solo | 9.4% | 12.1% | 9.0% | 3.3 s | 0.017 c |
Judge-Grounding A/B: nützlich für Fehlalarme, teuer für Recall
Das Hinzufügen von Bildgrounding zur Judge reduzierte Fehlalarme von 17,1% auf 10,0% — eine echte Verbesserung. Es senkte aber auch den Recall um 16,9 Prozentpunkte (p < 0,001). Die Fehlalarm-Verbesserung hat p ≈ 0,08 bei n=140, was richtungsmäßig überzeugend, aber noch nicht statistisch signifikant ist. Angesichts der Recall-Kosten bleibt das gegrundete Judge-Flag aus.
Hinweis zur Rat-Latenz
Die angezeigte Latenz für Rat-Zeilen ist nur der Judge-Schritt. Ein Live-Rat-Aufruf wartet auch auf das langsamste der fünf Panel-Modelle. Erwartete End-to-End-Latenz: ungefähr das langsamste Einzelmodell plus Judge-Schritt.
Technische Details (+)
Datensatz-Zusammensetzung
300 Bilder gesamt. 160 fehlerhafte Bilder: 130 LOKI menschlich annotierte KI-generierte Bilder mit Ground-Truth-Fehlerbezeichnungen + 30 synthetische Fehler. 140 Kontrollbilder: 120 echte Fotos (keine KI-Artefakte) + 20 zusätzliche Kontrollen. Alle Bilder normalisiert auf JPEG q90, maximal 1024px auf der langen Seite.
Rubrik und Fehlerklassen
Rubrik-Version v2. Fehlerklassen: Anatomie (Gliedmaßen, Finger, Gesichter), Physik (Beleuchtung, Schatten, Reflexionen), Textur (Oberflächen, Materialien), Hintergrund (inkohärente Elemente), Sonstiges.
Same-Proposer-Replay-Design
Einzelmodelle liefen unabhängig auf jedem Bild. Die Rat-Arme ließen die Judge über gespeicherte Einzelmodel-Befunde laufen — keine wiederholten API-Aufrufe für bereits bewertete Bilder.
Statistische Hinweise
Judge-Grounding FPR-Verbesserung: von 17,1% auf 10,0%, p ≈ 0,08 (Fisher-Exakt, n=140 Kontrollen) — richtungsmäßig, aber nicht signifikant. Rat-Recall vs. bestes Solo: p < 0,001 (Chi-Quadrat, n=160 Fehler). Ergebnisse sind ein Ausgangspunkt, keine Produktgarantie.