Live-Beweis

Warum ein Modell nicht genug ist

Echte Daten aus jedem Council-Lauf, den wir verarbeiten — alle 15 Minuten aktualisiert. Keine Simulationen, keine handverlesenen Beispiele.

Blinde-Fleck-Abdeckung

Ein blinder Fleck ist eine echte Schwachstelle oder ein Fehler, den ein Modell still übersieht, während ein anderes Modell im selben Council ihn aufdeckt. Das Diagramm zeigt, welche Modelle am häufigsten den einzigartigen Fund liefern — den Befund, den kein anderes Modell im Panel markiert hat.

Modell · Einzigartige Trefferquote

1Gpt 4o Mini
100.0%
55.2%
2Qwen3.7 Max
89.3%
49.3%
3Claude Sonnet 4 6
50.2%
27.7%
4Llama 4 Maverick
25.4%
14.0%
5Gemini 2.5 Flash
23.4%
12.9%
6Claude Opus 4 8
20.5%
11.3%
7Gemini 2.5 Pro
13.8%
7.6%
8Deepseek V4 Pro
13.2%
7.3%

Gerankt nach einzigartiger Trefferquote. Nur Modelle mit ausreichend Daten werden angezeigt. Raten sind Prozentsätze der eigenen Events eines Modells.

Qualitätswerte

Durchschnittlicher Qualitätswert (0–100) und Ok-Rate, berechnet über alle Richterauswertungen, bei denen das Modell als Vorschlagender auftrat. Ok-Rate = Anteil der Urteile, die als vollständig korrekt bewertet wurden.

Modell	Ø Qualität (0–100)	Ok-Rate
Gpt 5.1	100.0	100.0%
Gpt 5.4 Nano 2026 03 17	100.0	100.0%
Gpt 5.2 2025 12 11	100.0	100.0%
Gpt 5.4	100.0	89.1%
Gpt 5.3 Chat Latest	100.0	100.0%
Gpt 5.2 Chat Latest	99.8	100.0%
Gpt 5.2	99.8	100.0%
Gpt 5.1 2025 11 13	99.6	100.0%

Zuverlässigkeit

Rauschrate = Anteil der Modellantworten, die der Council-Klassifikator als off-topic oder niedrigsignalig markiert. Fehlerrate = Anteil der API-Aufrufe, die einen Fehler zurückgaben. Beide sind Durchschnitte über alle qualifizierenden Modelle.

Ø Rauschrate

1.99%

Anteil der Antworten, die als Rauschen markiert wurden.

Ø API-Fehlerrate

0.62%

Anteil der Modellaufrufe, die einen Fehler zurückgaben.

Sicherheitsprüfungs-Benchmark (INT-1929)

Vorregistrierter Blindtest · 12 eingesäte Schwachstellen + 4 saubere Kontrollen · blinder Bewerter: unabhängiges Modell nicht im Council · Kosten: €0,43

Wir haben eine realistische Code-Review-Aufgabe mit 12 echten Schwachstellenklassen und 4 sauberen Kontrollen erstellt. Jeder Arm lief unabhängig. Der blinde Bewerter wusste nicht, welcher Arm welche Ausgabe erzeugt hatte.

Arm	Recall (von 12)	Falsch-Positive (von 4)
GPT-4o (single)	7 / 12	1
Gemini 2.5 Flash (single)	11 / 12	5
Claude Haiku 4.5 (single)	12 / 12	5
Council — Konsens	12 / 12	7

Hauptbefund

GPT-4o meldete bei 5 von 12 echten Schwachstellen still "Keine Sicherheitsprobleme gefunden" — den Timing-Seitenkanal, die IDOR, die fehlende Autorisierungsprüfung, den vorhersehbaren Reset-Token und die TOCTOU-Race. Das sind die Kontext- und Logikfehler, nicht die Lehrbuchfehler. Der Council fand alle fünf.

Varianz eliminiert

Der Recall pro Einzelmodell variierte auf denselben Aufgaben von 58% (GPT-4o) bis 100% (Claude Haiku). Man weiß im Voraus nicht, welches Modell für den vorliegenden Fehler am stärksten ist. Der Council liefert Spitzenrecall ohne dieses Glücksspiel.

Ehrliche Obergrenze

Der Council hat das beste Einzelmodell beim Recall nicht übertroffen — er hat es gleichgezogen (12/12). Dieser Benchmark zeigt Zuverlässigkeit und Varianzelimination, nicht "findet mehr Fehler als jedes Modell". Wir berichten dies ehrlich.

Präzisions-Abwägung

Höherer Recall kostet etwas Präzision. Falsch-Positive auf sauberem Code: GPT-4o erzielte 1 (konservativ, aber verpasste 5 echte Fehler), während der Council 7 erzielte. Ein Mensch überprüft die zusätzlichen Markierungen — diese Triage ist der Preis dafür, den Timing-Seitenkanal nicht zu verpassen.

Wachsendes Signal

Ein Agenten- und menschliches Feedback-Signal wächst aktiv. Wir werden Bewertungen und Übereinstimmungsstatistiken veröffentlichen, sobald der Datensatz groß genug ist, um aussagekräftig zu sein.

Live-Daten abgerufen um 01.07.2026, 21:53