Zum Inhalt
Multi-Modell-Consensus · neutraler Judge

Bringen Sie den Fehler ans Licht, den ein Modell übersieht.

Ein Prompt wird parallel an die besten Modelle verteilt. Ein neutraler Judge aus einem anderen Lab markiert Unstimmigkeiten — und führt sie zu einer einzigen, belastbaren Antwort zusammen. EU-gehostet, vollständig nachvollziehbar.

Reduzieren Sie die Fehler, die ein Modell übersehen würde.

131
verfolgte Modelle
13,593
Benchmark-Läufe
6
Sprachen
Neu · Early Access

5 KI-Modelle prüfen Ihr Bild — bevor Ihr Publikum es tut.

Bild-Consensus: Ein Rat aus fünf Vision-Modellen erkennt Anatomie-, Physik- und Lichtfehler in KI-Bildern, die ein einzelnes Modell übersieht.

91%
Defekte erkannt
0
Falsch-Positive · echte Fotos
~71%
Max. mit einem Modell allein
Auf die Warteliste

Mehr über Image-Consensus →
Pilot 2026-06 · LOKI-35 + echte Kontrollfotos · keine Produktgarantie.

DEFEKTKI-generiert
SAUBERechtes Foto
Rat:gemini-2.5-progpt-4ofable-5gemini-flashgpt-4o-mini

3 von 5 haben es gesehen. Ein Modell allein hätte es übersehen — darum ein Rat.

Live rankings

Top-Modelle diese Woche

Full leaderboard →

Sample data

Top models — Scientific Reasoning

  • 01Mistral Large 3

    780ms

  • 02Claude Sonnet 4.6

    920ms·

  • 03Llama 3.3 405B

    1.18s

  • 04Gemini 2.5 Pro

    1.42s

  • 05GPT-5o

    1.64s·

  • 06Claude Opus 4.7

    1.82s

Sample · methodology pending

how we test →

Judge verdicts

3,735 evaluations across 63 models — counts only, no customer prompts

⚖️Most endorsed: Claude Opus 4.6 (99% accurate)

Claude Fable 5 — Intelligenztest

Unabhängige, jurybewertete Ergebnisse über unsere Aufgabenkategorien — aus echten Testläufen, laufend aktualisiert.

Vollständige Fable-5-Analyse lesen
93
Gesamtwertung · /100
20 jurybewertete Durchläufe

Wertung nach Aufgabenkategorie

Mehrsprachig
100
Schlussfolgern
99
Programmierung
99
Kreativität
97
Faktenwissen
70

Mediane Antwortzeit

Mehrsprachig9.1s
Schlussfolgern9.5s
Programmierung11.1s
Kreativität5.7s
Faktenwissen7.0s

Jede Antwort wird von einem unabhängigen Jury-Modell mit 0–100 auf Faktentreue, Vollständigkeit, Argumentation und Form bewertet. Niedrigere Faktenwerte spiegeln unsere bewusst schweren Wissensfragen wider.

Release-Notes
Blinde-Flecken-Erkennung

Sehen Sie, wo die Modelle auseinandergehen.

In unseren wöchentlichen Intelligenztests bewertet ein neutraler Judge jedes Modell. Dies sind die Fragen, bei denen die Modelle am stärksten voneinander abwichen — die blinden Flecken, die ein einzelnes Modell verborgen hätte. Anonymisiert; Kundenprompts werden nie angezeigt.

63
bewertete Modelle
1
verschiedener Judge
3,735
beurteilte Durchläufe
Modellübereinstimmend · Judge markiert
Gemini 2.5 Flash
16 · 60
Gemini 2.5 Pro
18 · 55
Gemini Pro Latest
26 · 49
Gemini 3.1 Pro Preview Custom Tools
29 · 47
Gemini 3.1 Pro Preview
30 · 46
Gemini 3.5 Flash
4 · 5
Pricing

Keine Gebühr auf einzelne Anfragen. Die Gebühr fällt nur bei Konsensus an.

Fragen Sie ein einzelnes Modell, zahlen Sie nur die Token plus eine kleine Tier-Marge — keine Plattformgebühr. Die Pro-Call-Gebühr gilt ausschließlich für Multi-Modell-Konsensus-Prüfungen. 100 Konsensus-Prüfungen pro Monat kostenlos, keine Kreditkarte nötig; Pakete ab €10/Monat für 500 Anfragen. Jeder Token aufgelistet, nichts versteckt.

Kostenlos

€0/Monat

100 Anfragen/Monat

Token-Nutzung: Anbieter +5 %

Starter

€10/Monat

500 Anfragen

Token-Nutzung: Anbieter +4 %

Studio

€25/Monat

2.000 Anfragen

Token-Nutzung: Anbieter +3 %

Scale

€50/Monat

5.000 Anfragen

Token-Nutzung: Anbieter +2 %

Gründerpreise, fest bis Ende 2027 · PAYG ebenfalls verfügbar · "Token-Marge" = der kleine %-Aufschlag auf den Token-Preis des Anbieters, geringer bei höheren Tarifen

Einzelne Modellanfrage
Was Sie zahlen: Token + Marge
Details: Keine Anfrage-Gebühr — nur Konsensus-Prüfungen tragen die Pro-Call-Gebühr. Sie zahlen den Token-Preis des Modellanbieters plus Ihre Tier-Marge (+2–5 %). Beispiel: kleines Modell auf ~4k Token ≈ €0,001.
Konsensus-Anfrage
Was Sie zahlen: Anfrage-Gebühr + Token + Marge
Details: Die Gebühr variiert je nach Paket (PAYG Gründerpreis: 2 Ct/Proposer + 3 Ct/Judge, ein 3+1-Council = 9 Ct; Pakete: zählt gegen Ihr Monatskontingent; über Kontingent: 1,5 Ct/Call). Dazu: Token des Anbieters + Ihre Tier-Marge.
Eigenen API-Schlüssel mitbringen (BYOK)
Was Sie zahlen: nur Anfrage-Gebühr
Details: Bei Konsensus zahlen Sie nur die paketspezifische Gebühr — Ihr eigener Schlüssel rechnet direkt mit dem Anbieter ab, keine Token-Kosten und keine Marge von uns. Eine einzelne BYOK-Anfrage kostet nichts.

Keine Lizenzgebühr. Keine Gebühr auf einzelne Anfragen. Jede Konsensus-Abrechnung aufgelistet — pro Modell, pro Token, ein- und ausgehend.

Jeder Cent aufgelistet

illustrative example
model                 in      out     cost
──────────────────────────────────────────────────
claude-haiku-4.5      812     540     €0.0041
gpt-4o                812     610     €0.0072
gemini-2.5-flash      812     498     €0.0029
judge (gpt-4o)        240     €0.0038
──────────────────────────────────────────────────
Orchestrierung                        included
Gesamt                                €0.0180

Accurate to the last token · your real receipt contains your exact counts

Kosten schätzen

500
1005k

€10.00

Paketpreis — Überschreitung zu 1,5 Ct/Call über Kontingent

€10.00

Schätzung / Monat

So testen wir

Echte Prompts, echte Latenz, echte Bewertungen. Drei Tiers halten die Kosten im Griff, ohne die Transparenz zu opfern.

Tier A

Volle Abdeckung

Geschwindigkeit + Intelligenz täglich in vier Sprachen.

Tier B

Nur Geschwindigkeit

Latenz und Verfügbarkeit, viermal täglich erhoben.

Tier C

Health-Ping

Up/Down-Prüfung alle fünfzehn Minuten.

Live · 130+ Modelle verfügbar

Jedes Modell ausprobieren — direkt hier

Modell wählen, Prompt eingeben, Antwort live anschauen. Keine Anmeldung, keine Zahlung, kein Kontextwechsel.

Live-Tester öffnen