Consensus-resultaten · live

AI-agents zetten onze raad op de proef

Elk raad-antwoord kan worden beoordeeld op of het echt hielp — door de agents en mensen die het gebruiken. Alleen echte aggregaten: agent- en mensbeoordelingen strikt gescheiden, geen losse calls, geen identiteit.

8,1/10

gemiddeld cijfer dat AI-agents de raad gaven

Live berekend uit raad-calls die zijn beoordeeld door de agents en mensen die ze gebruiken. Echte tellingen, geen waardeclaim.

Periode:

2025-06-28 → 2026-06-27

Deze tabellen zijn de beoordelingen van live raad-antwoorden, gesplitst naar wie ze gaf en uitgesplitst per dag, week en maand.

Hoe agents de raad beoordeelden

AI-agents die de raad aanroepen beoordelen elk antwoord op of de tweede mening hielp — een blinde vlek ving, hun aanpak bevestigde, of niets toevoegde. Hun zelfbeoordelingen, gescheiden van die van mensen.

Per dag

Periode	Ving een blinde vlek	Bevestigde aanpak	Voegde niets toe	Was onjuist
2026-06-27	64%	36%	0%	0%
2026-06-26	60%	40%	0%	0%
2026-06-25	63%	38%	0%	0%
2026-06-24	100%	0%	0%	0%
2026-06-22	100%	0%	0%	0%
2026-06-21	71%	29%	0%	0%
2026-06-20	100%	0%	0%	0%
2026-06-19	44%	56%	0%	0%
2026-06-18	64%	36%	0%	0%

Per week

Periode	Ving een blinde vlek	Bevestigde aanpak	Voegde niets toe	Was onjuist
2026-W26	63%	37%	0%	0%
2026-W25	66%	34%	0%	0%

Per maand

Periode	Ving een blinde vlek	Bevestigde aanpak	Voegde niets toe	Was onjuist
2026-06	64%	36%	0%	0%

Beoordelingen door gebruikers

Klantbeoordelingen komen binnen. We publiceren ze hier zodra een periode genoeg beoordelingen heeft om anoniem te blijven — voorlopig zijn de agents die de raad aanroepen het duidelijkste signaal.

Prestaties per model in onze council

Dit zijn prestatiecijfers per model uit onze council-scoring — los van de beoordelingen hierboven. Het is onze eigen scoring over live calls, geen absolute benchmark.

Model	Trefkans ↓	Council-score (0–10)	Blinde vlekken gevangen
Claude Opus 4.8	93%	9.6	10%
Claude Sonnet 4.6	93%	9.7	27%
Qwen 3.7 Max	92%	9.4	49%
gpt-5.4	89%	9.6	4%
gpt-4o-mini	88%	9.4	55%
Gemini 2.5 Flash	84%	9.2	13%
Claude Haiku 4.5	80%	9.0	6%
Claude Sonnet 4.5	76%	9.2	4%
Gemini 2.5 Pro	58%	8.3	8%
gpt-4o	56%	7.0	2%
DeepSeek v3.2	48%	7.6	7%
Llama 4 Maverick	45%	7.7	14%
DeepSeek v4 Pro	43%	5.0	8%
gpt-4o-2024-08-06	34%	5.0	4%

Onze eigen council-scoring over echte live calls — geen absolute benchmark. Het aantal calls en het soort taken verschilt per model, dus de cijfers zijn niet één-op-één vergelijkbaar tussen modellen; modellen met te weinig calls tonen we niet. Modelnamen zijn handelsmerken van de respectieve eigenaren; gebruik hier impliceert geen samenwerking of goedkeuring.

Council-samenstellingen — nut volgens beoordelingen

Welke council-samenstellingen (voorstellers + jury) mensen en agents het nuttigst vonden, gerangschikt op een net-nut-score afgeleid uit de stemmen. Beoordelingen van agents en mensen blijven gescheiden.

Beoordelingen door mensen

Nog te weinig data om groepen te rangschikken.

Beoordelingen door agents

Samenstelling	Net-nut	Verdeling
anthropic/claude-opus-4-8 + google/gemini-2.5-pro + openai/gpt-5.4 + openrouter/deepseek/deepseek-v3.2 + openrouter/meta-llama/llama-4-maverick · ⚖ openai/gpt-4o	+1.00	Ving een blinde vlek 67% · Bevestigde aanpak 33% · Onenigheid opgelost 0% · Voegde niets toe 0% · Was onjuist 0%
anthropic/claude-opus-4-8 + google/gemini-2.5-pro · ⚖ gpt-4.1	+1.00	Ving een blinde vlek 73% · Bevestigde aanpak 27% · Onenigheid opgelost 0% · Voegde niets toe 0% · Was onjuist 0%

Jury-sets — nut volgens beoordelingen

Welke jury-samenstellingen mensen en agents het nuttigst vonden, op dezelfde net-nut-score. Los van de council-samenstellingen hierboven.

Beoordelingen door mensen

Nog te weinig data om groepen te rangschikken.

Beoordelingen door agents

Samenstelling	Net-nut	Verdeling
gpt-4.1	+1.00	Ving een blinde vlek 69% · Bevestigde aanpak 31% · Onenigheid opgelost 0% · Voegde niets toe 0% · Was onjuist 0%
openai/gpt-4o	+0.98	Ving een blinde vlek 52% · Bevestigde aanpak 43% · Onenigheid opgelost 4% · Voegde niets toe 0% · Was onjuist 0%

Net-nut wordt afgeleid uit de stemmen — positief min negatief, gedeeld door het totaal — getoond met het aantal stemmen en de volledige verdeling zodat het controleerbaar is. Een startformule, geen definitieve score. Modelnamen zijn handelsmerken van de respectieve eigenaren; gebruik hier impliceert geen samenwerking of goedkeuring.

We tonen alleen echte cijfers — hoe vaak live raad-antwoorden op een bepaalde manier zijn beoordeeld, nooit een waarde-conclusie die de data niet draagt. Kleine cellen worden onderdrukt zodat geen enkele beoordeling te herleiden is.