Naar inhoud

Consensus-resultaten · live

AI-agents zetten onze raad op de proef

Elk raad-antwoord kan worden beoordeeld op of het echt hielp — door de agents en mensen die het gebruiken. Alleen echte aggregaten: agent- en mensbeoordelingen strikt gescheiden, geen losse calls, geen identiteit.

8,1/10

gemiddeld cijfer dat AI-agents de raad gaven

Live berekend uit raad-calls die zijn beoordeeld door de agents en mensen die ze gebruiken. Echte tellingen, geen waardeclaim.

Periode:

2025-06-282026-06-27

Deze tabellen zijn de beoordelingen van live raad-antwoorden, gesplitst naar wie ze gaf en uitgesplitst per dag, week en maand.

Hoe agents de raad beoordeelden

AI-agents die de raad aanroepen beoordelen elk antwoord op of de tweede mening hielp — een blinde vlek ving, hun aanpak bevestigde, of niets toevoegde. Hun zelfbeoordelingen, gescheiden van die van mensen.

Per dag

PeriodeVing een blinde vlekBevestigde aanpakVoegde niets toeWas onjuist
2026-06-2764%36%0%0%
2026-06-2660%40%0%0%
2026-06-2563%38%0%0%
2026-06-24100%0%0%0%
2026-06-22100%0%0%0%
2026-06-2171%29%0%0%
2026-06-20100%0%0%0%
2026-06-1944%56%0%0%
2026-06-1864%36%0%0%

Per week

PeriodeVing een blinde vlekBevestigde aanpakVoegde niets toeWas onjuist
2026-W2663%37%0%0%
2026-W2566%34%0%0%

Per maand

PeriodeVing een blinde vlekBevestigde aanpakVoegde niets toeWas onjuist
2026-0664%36%0%0%

Beoordelingen door gebruikers

Klantbeoordelingen komen binnen. We publiceren ze hier zodra een periode genoeg beoordelingen heeft om anoniem te blijven — voorlopig zijn de agents die de raad aanroepen het duidelijkste signaal.

Prestaties per model in onze council

Dit zijn prestatiecijfers per model uit onze council-scoring — los van de beoordelingen hierboven. Het is onze eigen scoring over live calls, geen absolute benchmark.

ModelTrefkansCouncil-score (0–10)Blinde vlekken gevangen
Claude Opus 4.893%9.610%
Claude Sonnet 4.693%9.727%
Qwen 3.7 Max92%9.449%
gpt-5.489%9.64%
gpt-4o-mini88%9.455%
Gemini 2.5 Flash84%9.213%
Claude Haiku 4.580%9.06%
Claude Sonnet 4.576%9.24%
Gemini 2.5 Pro58%8.38%
gpt-4o56%7.02%
DeepSeek v3.248%7.67%
Llama 4 Maverick45%7.714%
DeepSeek v4 Pro43%5.08%
gpt-4o-2024-08-0634%5.04%

Onze eigen council-scoring over echte live calls — geen absolute benchmark. Het aantal calls en het soort taken verschilt per model, dus de cijfers zijn niet één-op-één vergelijkbaar tussen modellen; modellen met te weinig calls tonen we niet. Modelnamen zijn handelsmerken van de respectieve eigenaren; gebruik hier impliceert geen samenwerking of goedkeuring.

Council-samenstellingen — nut volgens beoordelingen

Welke council-samenstellingen (voorstellers + jury) mensen en agents het nuttigst vonden, gerangschikt op een net-nut-score afgeleid uit de stemmen. Beoordelingen van agents en mensen blijven gescheiden.

Beoordelingen door mensen

Nog te weinig data om groepen te rangschikken.

Beoordelingen door agents

SamenstellingNet-nutVerdeling
anthropic/claude-opus-4-8 + google/gemini-2.5-pro + openai/gpt-5.4 + openrouter/deepseek/deepseek-v3.2 + openrouter/meta-llama/llama-4-maverick · ⚖ openai/gpt-4o+1.00Ving een blinde vlek 67% · Bevestigde aanpak 33% · Onenigheid opgelost 0% · Voegde niets toe 0% · Was onjuist 0%
anthropic/claude-opus-4-8 + google/gemini-2.5-pro · ⚖ gpt-4.1+1.00Ving een blinde vlek 73% · Bevestigde aanpak 27% · Onenigheid opgelost 0% · Voegde niets toe 0% · Was onjuist 0%

Jury-sets — nut volgens beoordelingen

Welke jury-samenstellingen mensen en agents het nuttigst vonden, op dezelfde net-nut-score. Los van de council-samenstellingen hierboven.

Beoordelingen door mensen

Nog te weinig data om groepen te rangschikken.

Beoordelingen door agents

SamenstellingNet-nutVerdeling
gpt-4.1+1.00Ving een blinde vlek 69% · Bevestigde aanpak 31% · Onenigheid opgelost 0% · Voegde niets toe 0% · Was onjuist 0%
openai/gpt-4o+0.98Ving een blinde vlek 52% · Bevestigde aanpak 43% · Onenigheid opgelost 4% · Voegde niets toe 0% · Was onjuist 0%

Net-nut wordt afgeleid uit de stemmen — positief min negatief, gedeeld door het totaal — getoond met het aantal stemmen en de volledige verdeling zodat het controleerbaar is. Een startformule, geen definitieve score. Modelnamen zijn handelsmerken van de respectieve eigenaren; gebruik hier impliceert geen samenwerking of goedkeuring.

We tonen alleen echte cijfers — hoe vaak live raad-antwoorden op een bepaalde manier zijn beoordeeld, nooit een waarde-conclusie die de data niet draagt. Kleine cellen worden onderdrukt zodat geen enkele beoordeling te herleiden is.