Naar inhoud
Multi-model consensus · neutrale judge

Breng de fout aan het licht die één model mist.

Eén prompt gaat parallel naar de beste modellen. Een neutrale judge van een ander lab signaleert waar ze het oneens zijn — en bundelt ze tot één verdedigbaar antwoord. EU-gehost, volledig traceerbaar.

Verminder de fouten die één model zou missen.

131
modellen gevolgd
13,593
benchmark-runs
6
talen
Nieuw · early access

5 AI-modellen inspecteren je beeld — vóór je publiek het doet.

Beeld-consensus: een raad van vijf vision-modellen vangt anatomie-, fysica- en licht-fouten in AI-beelden die één model mist.

91%
defecten gevonden
0
valse alarmen · echte foto's
~71%
max. met één model alleen
Zet me op de wachtlijst

Meer over image-consensus →
Pilot 2026-06 · LOKI-35 + echte controle-foto's · geen productgarantie.

DEFECTAI-gegenereerd
SCHOONechte foto
Council:gemini-2.5-progpt-4ofable-5gemini-flashgpt-4o-mini

3 van 5 zagen het. Eén model alleen had het gemist — daarom een raad.

Live rankings

Top modellen deze week

Full leaderboard →

Sample data

Top models — Scientific Reasoning

  • 01Mistral Large 3

    780ms

  • 02Claude Sonnet 4.6

    920ms·

  • 03Llama 3.3 405B

    1.18s

  • 04Gemini 2.5 Pro

    1.42s

  • 05GPT-5o

    1.64s·

  • 06Claude Opus 4.7

    1.82s

Sample · methodology pending

how we test →

Judge verdicts

3,735 evaluations across 63 models — counts only, no customer prompts

⚖️Most endorsed: Claude Opus 4.6 (99% accurate)

Claude Fable 5 — intelligentietest

Onafhankelijke, door een jury beoordeelde resultaten over onze taakcategorieën — uit echte testruns, doorlopend ververst.

Lees de volledige Fable 5-analyse
93
Totaalscore · /100
20 jury-beoordeelde runs

Score per taakcategorie

Meertalig
100
Redeneren
99
Programmeren
99
Creatief
97
Feitelijk
70

Mediane reactietijd

Meertalig9.1s
Redeneren9.5s
Programmeren11.1s
Creatief5.7s
Feitelijk7.0s

Elk antwoord krijgt 0–100 van een onafhankelijk jurymodel op feitelijkheid, volledigheid, redenering en vorm. Lagere feitelijkheidsscores komen door onze bewust moeilijke kennisvragen.

Release-notes
Blinde-vlekken-detectie

Zie waar de modellen uit elkaar lopen.

In onze wekelijkse intelligentietests beoordeelt een neutrale judge elk model. Dit zijn de vragen waarover de modellen het meest van mening verschilden — de blinde vlekken die één model verborgen zou hebben gehouden. Geanonimiseerd; er worden nooit klantprompts getoond.

63
modellen beoordeeld
1
afzonderlijke judge
3,735
beoordeelde runs
Modeleens · judge gemarkeerd
Gemini 2.5 Flash
16 · 60
Gemini 2.5 Pro
18 · 55
Gemini Pro Latest
26 · 49
Gemini 3.1 Pro Preview Custom Tools
29 · 47
Gemini 3.1 Pro Preview
30 · 46
Gemini 3.5 Flash
4 · 5
Pricing

Geen fee op losse calls. De fee betaal je alleen bij consensus.

Vraag je één model, dan betaal je alleen de tokens plus een kleine tier-marge — geen platformfee. De per-call-fee geldt uitsluitend voor multi-model consensuschecks. 100 consensuschecks gratis per maand, geen kaart nodig; bundels vanaf €10/maand voor 500 calls. Elke token uitgesplitst, niets verborgen.

Gratis

€0/mnd

100 calls/mnd

tokengebruik: provider +5%

Starter

€10/mnd

500 calls

tokengebruik: provider +4%

Studio

€25/mnd

2.000 calls

tokengebruik: provider +3%

Scale

€50/mnd

5.000 calls

tokengebruik: provider +2%

Founders-prijzen, vast t/m 2027 · PAYG ook beschikbaar · "tokenmargin" = het kleine % dat wij opboeken op de tokenprijs van de modelprovider, lager bij hogere tiers

Losse model-call
Wat je betaalt: tokens + marge
Details: Geen call-fee — alleen consensuschecks dragen de per-call-fee. Je betaalt de tokenprijs van de modelprovider plus je tier-marge (+2–5%). Voorbeeld: een klein model op ~4k tokens ≈ €0,001.
Consensuscall
Wat je betaalt: call-fee + tokens + marge
Details: De call-fee varieert per pakket (PAYG founders: 2c/proposer + 3c/judge, een 3+1-council = 9c; bundels: telt mee met je maandquotum; boven quotum: 1,5c/call). Daarboven: de tokens van de provider + je tier-marge.
Eigen sleutel (BYOK)
Wat je betaalt: alleen call-fee
Details: Bij consensus betaal je alleen de pakket-call-fee — je eigen sleutel rekent rechtstreeks bij de provider af, geen tokenkosten en geen marge van ons. Een losse model-BYOK-call kost niets.

Geen per-seat-fee. Nooit een fee op losse calls. Elk consensusoverzicht uitgesplitst per model, per token, in en uit.

Elke cent, uitgesplitst

illustrative example
model                 in      out     cost
──────────────────────────────────────────────────
claude-haiku-4.5      812     540     €0.0041
gpt-4o                812     610     €0.0072
gemini-2.5-flash      812     498     €0.0029
judge (gpt-4o)        240     €0.0038
──────────────────────────────────────────────────
orchestratie                          included
totaal                                €0.0180

Accurate to the last token · your real receipt contains your exact counts

Schat je kosten

500
1005k

€10.00

Bundelprijs — overschot tegen 1,5c/call boven quotum

€10.00

schatting / maand

Zo testen we

Echte prompts, echte latency, echte scores. Drie tiers houden de kosten in toom zonder transparantie op te offeren.

Tier A

Volledige dekking

Snelheid + intelligentie elke dag in vier talen.

Tier B

Alleen snelheid

Latency en uptime, vier keer per dag bemonsterd.

Tier C

Health-ping

Up/down-controle elke vijftien minuten.

Live · 130+ modellen beschikbaar

Probeer elk model — hier ter plekke

Kies een model, typ een prompt, zie het antwoord live verschijnen. Geen aanmelden, geen creditcard, geen context-switch.

Open de live tester