Live-Beweis
Warum ein Modell nicht genug ist
Echte Daten aus jedem Council-Lauf, den wir verarbeiten — alle 15 Minuten aktualisiert. Keine Simulationen, keine handverlesenen Beispiele.
Blinde-Fleck-Abdeckung
Ein blinder Fleck ist eine echte Schwachstelle oder ein Fehler, den ein Modell still übersieht, während ein anderes Modell im selben Council ihn aufdeckt. Das Diagramm zeigt, welche Modelle am häufigsten den einzigartigen Fund liefern — den Befund, den kein anderes Modell im Panel markiert hat.
Modell · Einzigartige Trefferquote
- 1Gpt 4o Mini55.2%100.0%
- 2Qwen3.7 Max49.3%89.3%
- 3Claude Sonnet 4 627.7%50.2%
- 4Llama 4 Maverick14.0%25.4%
- 5Gemini 2.5 Flash12.9%23.4%
- 6Claude Opus 4 811.3%20.5%
- 7Gemini 2.5 Pro7.6%13.8%
- 8Deepseek V4 Pro7.3%13.2%
Gerankt nach einzigartiger Trefferquote. Nur Modelle mit ausreichend Daten werden angezeigt. Raten sind Prozentsätze der eigenen Events eines Modells.
Qualitätswerte
Durchschnittlicher Qualitätswert (0–100) und Ok-Rate, berechnet über alle Richterauswertungen, bei denen das Modell als Vorschlagender auftrat. Ok-Rate = Anteil der Urteile, die als vollständig korrekt bewertet wurden.
| Modell | Ø Qualität (0–100) | Ok-Rate |
|---|---|---|
| Gpt 5.1 | 100.0 | 100.0% |
| Gpt 5.4 Nano 2026 03 17 | 100.0 | 100.0% |
| Gpt 5.2 2025 12 11 | 100.0 | 100.0% |
| Gpt 5.4 | 100.0 | 89.1% |
| Gpt 5.3 Chat Latest | 100.0 | 100.0% |
| Gpt 5.2 Chat Latest | 99.8 | 100.0% |
| Gpt 5.2 | 99.8 | 100.0% |
| Gpt 5.1 2025 11 13 | 99.6 | 100.0% |
Zuverlässigkeit
Rauschrate = Anteil der Modellantworten, die der Council-Klassifikator als off-topic oder niedrigsignalig markiert. Fehlerrate = Anteil der API-Aufrufe, die einen Fehler zurückgaben. Beide sind Durchschnitte über alle qualifizierenden Modelle.
Ø Rauschrate
1.99%
Anteil der Antworten, die als Rauschen markiert wurden.
Ø API-Fehlerrate
0.62%
Anteil der Modellaufrufe, die einen Fehler zurückgaben.
Sicherheitsprüfungs-Benchmark (INT-1929)
Vorregistrierter Blindtest · 12 eingesäte Schwachstellen + 4 saubere Kontrollen · blinder Bewerter: unabhängiges Modell nicht im Council · Kosten: €0,43
Wir haben eine realistische Code-Review-Aufgabe mit 12 echten Schwachstellenklassen und 4 sauberen Kontrollen erstellt. Jeder Arm lief unabhängig. Der blinde Bewerter wusste nicht, welcher Arm welche Ausgabe erzeugt hatte.
| Arm | Recall (von 12) | Falsch-Positive (von 4) |
|---|---|---|
| GPT-4o (single) | 7 / 12 | 1 |
| Gemini 2.5 Flash (single) | 11 / 12 | 5 |
| Claude Haiku 4.5 (single) | 12 / 12 | 5 |
| Council — Konsens | 12 / 12 | 7 |
GPT-4o meldete bei 5 von 12 echten Schwachstellen still "Keine Sicherheitsprobleme gefunden" — den Timing-Seitenkanal, die IDOR, die fehlende Autorisierungsprüfung, den vorhersehbaren Reset-Token und die TOCTOU-Race. Das sind die Kontext- und Logikfehler, nicht die Lehrbuchfehler. Der Council fand alle fünf.
Der Recall pro Einzelmodell variierte auf denselben Aufgaben von 58% (GPT-4o) bis 100% (Claude Haiku). Man weiß im Voraus nicht, welches Modell für den vorliegenden Fehler am stärksten ist. Der Council liefert Spitzenrecall ohne dieses Glücksspiel.
Der Council hat das beste Einzelmodell beim Recall nicht übertroffen — er hat es gleichgezogen (12/12). Dieser Benchmark zeigt Zuverlässigkeit und Varianzelimination, nicht "findet mehr Fehler als jedes Modell". Wir berichten dies ehrlich.
Höherer Recall kostet etwas Präzision. Falsch-Positive auf sauberem Code: GPT-4o erzielte 1 (konservativ, aber verpasste 5 echte Fehler), während der Council 7 erzielte. Ein Mensch überprüft die zusätzlichen Markierungen — diese Triage ist der Preis dafür, den Timing-Seitenkanal nicht zu verpassen.
Wachsendes Signal
Ein Agenten- und menschliches Feedback-Signal wächst aktiv. Wir werden Bewertungen und Übereinstimmungsstatistiken veröffentlichen, sobald der Datensatz groß genug ist, um aussagekräftig zu sein.
Live-Daten abgerufen um 01.07.2026, 21:53