Live bewijs

Waarom één model niet genoeg is

Echte data van elke council-run die we verwerken — elke 15 minuten bijgewerkt. Geen simulaties, geen handgeplukte voorbeelden.

Blinde-vlek dekking

Een blinde vlek is een echte kwetsbaarheid of fout die één model stil mist terwijl een ander model in dezelfde council het wél oppikt. De grafiek toont welke modellen het vaakst de unieke vondst leveren — de bevinding die geen enkel ander model in het panel had gemarkeerd.

Model · Uniek-vangst percentage

1Gpt 4o Mini
100.0%
55.2%
2Qwen3.7 Max
89.3%
49.3%
3Claude Sonnet 4 6
50.2%
27.7%
4Llama 4 Maverick
25.4%
14.0%
5Gemini 2.5 Flash
23.4%
12.9%
6Claude Opus 4 8
20.5%
11.3%
7Gemini 2.5 Pro
13.8%
7.6%
8Deepseek V4 Pro
13.2%
7.3%

Gerangschikt op uniek-vangst percentage. Alleen modellen met voldoende data worden getoond. Percentages zijn relatief aan het eigen aantal events van een model.

Kwaliteitsscores

Gemiddelde kwaliteitsscore (0–100) en ok-percentage, berekend over alle rechter-evaluaties waarbij het model als voorsteller optrad. Ok-percentage = deel van de uitspraken dat volledig correct is beoordeeld.

Model	Gem. kwaliteit (0–100)	Ok-percentage
Gpt 5.1	100.0	100.0%
Gpt 5.4 Nano 2026 03 17	100.0	100.0%
Gpt 5.2 2025 12 11	100.0	100.0%
Gpt 5.4	100.0	89.1%
Gpt 5.3 Chat Latest	100.0	100.0%
Gpt 5.2 Chat Latest	99.8	100.0%
Gpt 5.2	99.8	100.0%
Gpt 5.1 2025 11 13	99.6	100.0%

Betrouwbaarheid

Ruispercentage = deel van modelreacties dat de council-classifier als off-topic of laagwaardig markeert. Foutpercentage = deel van API-aanroepen dat een fout retourneerde. Beide zijn gemiddelden over alle kwalificerende modellen.

Gem. ruispercentage

1.99%

Deel van reacties dat als ruis is gemarkeerd door de council-classifier.

Gem. API-foutpercentage

0.62%

Deel van modelaanroepen dat een fout retourneerde.

Beveiligingsreview benchmark (INT-1929)

Vooraf geregistreerde blinde test · 12 ingezaaide kwetsbaarheden + 4 schone controles · blinde beoordelaar: onafhankelijk model niet in de council · kosten: €0,43

We hebben een realistische code-review taak opgezet met 12 echte kwetsbaarheidsklassen en 4 schone controles. Elke arm liep onafhankelijk. De blinde beoordelaar wist niet welke arm welke uitvoer had geproduceerd.

Arm	Recall (van 12)	Valse positieven (van 4)
GPT-4o (single)	7 / 12	1
Gemini 2.5 Flash (single)	11 / 12	5
Claude Haiku 4.5 (single)	12 / 12	5
Council — consensus	12 / 12	7

Kernbevinding

GPT-4o rapporteerde stil "geen beveiligingsproblemen gevonden" bij 5 van de 12 echte kwetsbaarheden — het timing side-channel, de IDOR, de ontbrekende autorisatiecontrole, het voorspelbare reset-token en de TOCTOU-race. Dit zijn de context- en logicabugs, niet de leerboekfouten. De council vond ze alle vijf.

Variantie geëlimineerd

De recall per single model varieerde van 58% (GPT-4o) tot 100% (Claude Haiku) op dezelfde taken. Je weet van tevoren niet welk model het sterkst is voor de bug die voor je ligt. De council levert top-panel recall zonder dat gokje.

Eerlijk plafond

De council heeft het beste single model qua recall niet verslagen — het eindigde gelijk (12/12). Deze benchmark toont betrouwbaarheid en variantie-eliminatie, niet "vindt meer bugs dan welk model dan ook". Wij rapporteren dit eerlijk.

Precisie afweging

Hogere recall kost wat precisie. Valse positieven op schone code: GPT-4o scoorde 1 (conservatief maar miste 5 echte bugs), terwijl de council 7 scoorde. Een mens bekijkt de extra markeringen — die triage is de prijs voor het niet missen van het timing side-channel.

Groeiend signaal

Een agent- en menselijk feedbacksignaal groeit actief. We publiceren beoordelingen en overeenkomststatistieken zodra de dataset groot genoeg is om betekenisvol te zijn.

Livedata opgehaald om 1 jul 2026, 21:53