Live bewijs
Waarom één model niet genoeg is
Echte data van elke council-run die we verwerken — elke 15 minuten bijgewerkt. Geen simulaties, geen handgeplukte voorbeelden.
Blinde-vlek dekking
Een blinde vlek is een echte kwetsbaarheid of fout die één model stil mist terwijl een ander model in dezelfde council het wél oppikt. De grafiek toont welke modellen het vaakst de unieke vondst leveren — de bevinding die geen enkel ander model in het panel had gemarkeerd.
Model · Uniek-vangst percentage
- 1Gpt 4o Mini55.2%100.0%
- 2Qwen3.7 Max49.3%89.3%
- 3Claude Sonnet 4 627.7%50.2%
- 4Llama 4 Maverick14.0%25.4%
- 5Gemini 2.5 Flash12.9%23.4%
- 6Claude Opus 4 811.3%20.5%
- 7Gemini 2.5 Pro7.6%13.8%
- 8Deepseek V4 Pro7.3%13.2%
Gerangschikt op uniek-vangst percentage. Alleen modellen met voldoende data worden getoond. Percentages zijn relatief aan het eigen aantal events van een model.
Kwaliteitsscores
Gemiddelde kwaliteitsscore (0–100) en ok-percentage, berekend over alle rechter-evaluaties waarbij het model als voorsteller optrad. Ok-percentage = deel van de uitspraken dat volledig correct is beoordeeld.
| Model | Gem. kwaliteit (0–100) | Ok-percentage |
|---|---|---|
| Gpt 5.1 | 100.0 | 100.0% |
| Gpt 5.4 Nano 2026 03 17 | 100.0 | 100.0% |
| Gpt 5.2 2025 12 11 | 100.0 | 100.0% |
| Gpt 5.4 | 100.0 | 89.1% |
| Gpt 5.3 Chat Latest | 100.0 | 100.0% |
| Gpt 5.2 Chat Latest | 99.8 | 100.0% |
| Gpt 5.2 | 99.8 | 100.0% |
| Gpt 5.1 2025 11 13 | 99.6 | 100.0% |
Betrouwbaarheid
Ruispercentage = deel van modelreacties dat de council-classifier als off-topic of laagwaardig markeert. Foutpercentage = deel van API-aanroepen dat een fout retourneerde. Beide zijn gemiddelden over alle kwalificerende modellen.
Gem. ruispercentage
1.99%
Deel van reacties dat als ruis is gemarkeerd door de council-classifier.
Gem. API-foutpercentage
0.62%
Deel van modelaanroepen dat een fout retourneerde.
Beveiligingsreview benchmark (INT-1929)
Vooraf geregistreerde blinde test · 12 ingezaaide kwetsbaarheden + 4 schone controles · blinde beoordelaar: onafhankelijk model niet in de council · kosten: €0,43
We hebben een realistische code-review taak opgezet met 12 echte kwetsbaarheidsklassen en 4 schone controles. Elke arm liep onafhankelijk. De blinde beoordelaar wist niet welke arm welke uitvoer had geproduceerd.
| Arm | Recall (van 12) | Valse positieven (van 4) |
|---|---|---|
| GPT-4o (single) | 7 / 12 | 1 |
| Gemini 2.5 Flash (single) | 11 / 12 | 5 |
| Claude Haiku 4.5 (single) | 12 / 12 | 5 |
| Council — consensus | 12 / 12 | 7 |
GPT-4o rapporteerde stil "geen beveiligingsproblemen gevonden" bij 5 van de 12 echte kwetsbaarheden — het timing side-channel, de IDOR, de ontbrekende autorisatiecontrole, het voorspelbare reset-token en de TOCTOU-race. Dit zijn de context- en logicabugs, niet de leerboekfouten. De council vond ze alle vijf.
De recall per single model varieerde van 58% (GPT-4o) tot 100% (Claude Haiku) op dezelfde taken. Je weet van tevoren niet welk model het sterkst is voor de bug die voor je ligt. De council levert top-panel recall zonder dat gokje.
De council heeft het beste single model qua recall niet verslagen — het eindigde gelijk (12/12). Deze benchmark toont betrouwbaarheid en variantie-eliminatie, niet "vindt meer bugs dan welk model dan ook". Wij rapporteren dit eerlijk.
Hogere recall kost wat precisie. Valse positieven op schone code: GPT-4o scoorde 1 (conservatief maar miste 5 echte bugs), terwijl de council 7 scoorde. Een mens bekijkt de extra markeringen — die triage is de prijs voor het niet missen van het timing side-channel.
Groeiend signaal
Een agent- en menselijk feedbacksignaal groeit actief. We publiceren beoordelingen en overeenkomststatistieken zodra de dataset groot genoeg is om betekenisvol te zijn.
Livedata opgehaald om 1 jul 2026, 21:53