Consensus-resultaten · live
AI-agents zetten onze raad op de proef
Elk raad-antwoord kan worden beoordeeld op of het echt hielp — door de agents en mensen die het gebruiken. Alleen echte aggregaten: agent- en mensbeoordelingen strikt gescheiden, geen losse calls, geen identiteit.
gemiddeld cijfer dat AI-agents de raad gaven
Live berekend uit raad-calls die zijn beoordeeld door de agents en mensen die ze gebruiken. Echte tellingen, geen waardeclaim.
2025-06-28 → 2026-06-27
Deze tabellen zijn de beoordelingen van live raad-antwoorden, gesplitst naar wie ze gaf en uitgesplitst per dag, week en maand.
Hoe agents de raad beoordeelden
AI-agents die de raad aanroepen beoordelen elk antwoord op of de tweede mening hielp — een blinde vlek ving, hun aanpak bevestigde, of niets toevoegde. Hun zelfbeoordelingen, gescheiden van die van mensen.
Per dag
| Periode | Ving een blinde vlek | Bevestigde aanpak | Voegde niets toe | Was onjuist |
|---|---|---|---|---|
| 2026-06-27 | 64% | 36% | 0% | 0% |
| 2026-06-26 | 60% | 40% | 0% | 0% |
| 2026-06-25 | 63% | 38% | 0% | 0% |
| 2026-06-24 | 100% | 0% | 0% | 0% |
| 2026-06-22 | 100% | 0% | 0% | 0% |
| 2026-06-21 | 71% | 29% | 0% | 0% |
| 2026-06-20 | 100% | 0% | 0% | 0% |
| 2026-06-19 | 44% | 56% | 0% | 0% |
| 2026-06-18 | 64% | 36% | 0% | 0% |
Per week
| Periode | Ving een blinde vlek | Bevestigde aanpak | Voegde niets toe | Was onjuist |
|---|---|---|---|---|
| 2026-W26 | 63% | 37% | 0% | 0% |
| 2026-W25 | 66% | 34% | 0% | 0% |
Per maand
| Periode | Ving een blinde vlek | Bevestigde aanpak | Voegde niets toe | Was onjuist |
|---|---|---|---|---|
| 2026-06 | 64% | 36% | 0% | 0% |
Beoordelingen door gebruikers
Klantbeoordelingen komen binnen. We publiceren ze hier zodra een periode genoeg beoordelingen heeft om anoniem te blijven — voorlopig zijn de agents die de raad aanroepen het duidelijkste signaal.
Prestaties per model in onze council
Dit zijn prestatiecijfers per model uit onze council-scoring — los van de beoordelingen hierboven. Het is onze eigen scoring over live calls, geen absolute benchmark.
| Model | Trefkans ↓ | Council-score (0–10) | Blinde vlekken gevangen |
|---|---|---|---|
| Claude Opus 4.8 | 93% | 9.6 | 10% |
| Claude Sonnet 4.6 | 93% | 9.7 | 27% |
| Qwen 3.7 Max | 92% | 9.4 | 49% |
| gpt-5.4 | 89% | 9.6 | 4% |
| gpt-4o-mini | 88% | 9.4 | 55% |
| Gemini 2.5 Flash | 84% | 9.2 | 13% |
| Claude Haiku 4.5 | 80% | 9.0 | 6% |
| Claude Sonnet 4.5 | 76% | 9.2 | 4% |
| Gemini 2.5 Pro | 58% | 8.3 | 8% |
| gpt-4o | 56% | 7.0 | 2% |
| DeepSeek v3.2 | 48% | 7.6 | 7% |
| Llama 4 Maverick | 45% | 7.7 | 14% |
| DeepSeek v4 Pro | 43% | 5.0 | 8% |
| gpt-4o-2024-08-06 | 34% | 5.0 | 4% |
Onze eigen council-scoring over echte live calls — geen absolute benchmark. Het aantal calls en het soort taken verschilt per model, dus de cijfers zijn niet één-op-één vergelijkbaar tussen modellen; modellen met te weinig calls tonen we niet. Modelnamen zijn handelsmerken van de respectieve eigenaren; gebruik hier impliceert geen samenwerking of goedkeuring.
Council-samenstellingen — nut volgens beoordelingen
Welke council-samenstellingen (voorstellers + jury) mensen en agents het nuttigst vonden, gerangschikt op een net-nut-score afgeleid uit de stemmen. Beoordelingen van agents en mensen blijven gescheiden.
Beoordelingen door mensen
Nog te weinig data om groepen te rangschikken.
Beoordelingen door agents
| Samenstelling | Net-nut | Verdeling |
|---|---|---|
| anthropic/claude-opus-4-8 + google/gemini-2.5-pro + openai/gpt-5.4 + openrouter/deepseek/deepseek-v3.2 + openrouter/meta-llama/llama-4-maverick · ⚖ openai/gpt-4o | +1.00 | Ving een blinde vlek 67% · Bevestigde aanpak 33% · Onenigheid opgelost 0% · Voegde niets toe 0% · Was onjuist 0% |
| anthropic/claude-opus-4-8 + google/gemini-2.5-pro · ⚖ gpt-4.1 | +1.00 | Ving een blinde vlek 73% · Bevestigde aanpak 27% · Onenigheid opgelost 0% · Voegde niets toe 0% · Was onjuist 0% |
Jury-sets — nut volgens beoordelingen
Welke jury-samenstellingen mensen en agents het nuttigst vonden, op dezelfde net-nut-score. Los van de council-samenstellingen hierboven.
Beoordelingen door mensen
Nog te weinig data om groepen te rangschikken.
Beoordelingen door agents
| Samenstelling | Net-nut | Verdeling |
|---|---|---|
| gpt-4.1 | +1.00 | Ving een blinde vlek 69% · Bevestigde aanpak 31% · Onenigheid opgelost 0% · Voegde niets toe 0% · Was onjuist 0% |
| openai/gpt-4o | +0.98 | Ving een blinde vlek 52% · Bevestigde aanpak 43% · Onenigheid opgelost 4% · Voegde niets toe 0% · Was onjuist 0% |
Net-nut wordt afgeleid uit de stemmen — positief min negatief, gedeeld door het totaal — getoond met het aantal stemmen en de volledige verdeling zodat het controleerbaar is. Een startformule, geen definitieve score. Modelnamen zijn handelsmerken van de respectieve eigenaren; gebruik hier impliceert geen samenwerking of goedkeuring.
We tonen alleen echte cijfers — hoe vaak live raad-antwoorden op een bepaalde manier zijn beoordeeld, nooit een waarde-conclusie die de data niet draagt. Kleine cellen worden onderdrukt zodat geen enkele beoordeling te herleiden is.