Bringen Sie den Fehler ans Licht, den ein Modell übersieht.
Ein Prompt wird parallel an die besten Modelle verteilt. Ein neutraler Judge aus einem anderen Lab markiert Unstimmigkeiten — und führt sie zu einer einzigen, belastbaren Antwort zusammen. EU-gehostet, vollständig nachvollziehbar.
Reduzieren Sie die Fehler, die ein Modell übersehen würde.
- 131
- verfolgte Modelle
- 13,593
- Benchmark-Läufe
- 6
- Sprachen
Ist der EU AI Act im Jahr 2024 in Kraft getreten?
- claude-opus-4.8Yes — entered into force August 2024.
- gpt-5.1No, that was 2023.
- gemini-3-proYes, August 2024.
Illustratives Beispiel — synthetische Daten
5 KI-Modelle prüfen Ihr Bild — bevor Ihr Publikum es tut.
Bild-Consensus: Ein Rat aus fünf Vision-Modellen erkennt Anatomie-, Physik- und Lichtfehler in KI-Bildern, die ein einzelnes Modell übersieht.
Mehr über Image-Consensus →
Pilot 2026-06 · LOKI-35 + echte Kontrollfotos · keine Produktgarantie.
3 von 5 haben es gesehen. Ein Modell allein hätte es übersehen — darum ein Rat.
Live rankings
Top-Modelle diese Woche
Sample data
Top models — Scientific Reasoning
01Mistral Large 3Mistral
780ms↓
02Claude Sonnet 4.6Anthropic
920ms·
03Llama 3.3 405BMeta
1.18s↑
04Gemini 2.5 ProGoogle
1.42s↑
05GPT-5oOpenAI
1.64s·
06Claude Opus 4.7Anthropic
1.82s↑
Sample · methodology pending
how we test →Judge verdicts
3,735 evaluations across 63 models — counts only, no customer prompts
Claude Fable 5 — Intelligenztest
Unabhängige, jurybewertete Ergebnisse über unsere Aufgabenkategorien — aus echten Testläufen, laufend aktualisiert.
Wertung nach Aufgabenkategorie
Mediane Antwortzeit
Jede Antwort wird von einem unabhängigen Jury-Modell mit 0–100 auf Faktentreue, Vollständigkeit, Argumentation und Form bewertet. Niedrigere Faktenwerte spiegeln unsere bewusst schweren Wissensfragen wider.
Release-Notes →Sehen Sie, wo die Modelle auseinandergehen.
In unseren wöchentlichen Intelligenztests bewertet ein neutraler Judge jedes Modell. Dies sind die Fragen, bei denen die Modelle am stärksten voneinander abwichen — die blinden Flecken, die ein einzelnes Modell verborgen hätte. Anonymisiert; Kundenprompts werden nie angezeigt.
Models ranked
Top 10 KI-Modelle
Anthropic
Claude Opus 4.5
99.2
quality score
6,978
ms p50
Anthropic
Claude Opus 4.7
99.2
quality score
8,347
ms p50
Anthropic
Claude Opus 4.6
98.7
quality score
8,280
ms p50
Anthropic
Claude Opus 4.8
98.6
quality score
6,696
ms p50
OpenAI
gpt-4.1
98.4
quality score
1,711
ms p50
Anthropic
Claude Sonnet 4.6
97.9
quality score
7,490
ms p50
Anthropic
Claude Sonnet 4.5
95.9
quality score
6,728
ms p50
Anthropic
Claude Haiku 4.5
95.7
quality score
3,326
ms p50
Google Gemini
Gemini 2.5 Flash-Lite
94.7
quality score
1,572
ms p50
Google Gemini
Gemini Flash Latest
53.3
quality score
4,366
ms p50
Keine Gebühr auf einzelne Anfragen. Die Gebühr fällt nur bei Konsensus an.
Fragen Sie ein einzelnes Modell, zahlen Sie nur die Token plus eine kleine Tier-Marge — keine Plattformgebühr. Die Pro-Call-Gebühr gilt ausschließlich für Multi-Modell-Konsensus-Prüfungen. 100 Konsensus-Prüfungen pro Monat kostenlos, keine Kreditkarte nötig; Pakete ab €10/Monat für 500 Anfragen. Jeder Token aufgelistet, nichts versteckt.
Kostenlos
€0/Monat
100 Anfragen/Monat
Token-Nutzung: Anbieter +5 %
Starter
€10/Monat
500 Anfragen
Token-Nutzung: Anbieter +4 %
Studio
€25/Monat
2.000 Anfragen
Token-Nutzung: Anbieter +3 %
Scale
€50/Monat
5.000 Anfragen
Token-Nutzung: Anbieter +2 %
Gründerpreise, fest bis Ende 2027 · PAYG ebenfalls verfügbar · "Token-Marge" = der kleine %-Aufschlag auf den Token-Preis des Anbieters, geringer bei höheren Tarifen
Keine Lizenzgebühr. Keine Gebühr auf einzelne Anfragen. Jede Konsensus-Abrechnung aufgelistet — pro Modell, pro Token, ein- und ausgehend.
Jeder Cent aufgelistet
illustrative examplemodel in out cost ────────────────────────────────────────────────── claude-haiku-4.5 812 540 €0.0041 gpt-4o 812 610 €0.0072 gemini-2.5-flash 812 498 €0.0029 judge (gpt-4o) — 240 €0.0038 ────────────────────────────────────────────────── Orchestrierung included Gesamt €0.0180
Accurate to the last token · your real receipt contains your exact counts
Kosten schätzen
€10.00
Paketpreis — Überschreitung zu 1,5 Ct/Call über Kontingent
€10.00
Schätzung / Monat
Community
Worüber die Community abstimmt
Top-rated test answers
Schrijf een Python-functie `is_palindroom(s: str) -> bool` die True retourneert als de invoerstring een palindroom is (hoofdletters negeren, leestekens negeren). Voeg twee testcases toe.
What is the name of the protein discovered by Dr. Elena Voskresensky in 2019 that reverses telomere shortening in human cells?
In which year did the European Union introduce the GDPR regulation?
Suggested test questions
No suggestions yet.
Run a test and suggest a question →So testen wir
Echte Prompts, echte Latenz, echte Bewertungen. Drei Tiers halten die Kosten im Griff, ohne die Transparenz zu opfern.
Volle Abdeckung
Geschwindigkeit + Intelligenz täglich in vier Sprachen.
Nur Geschwindigkeit
Latenz und Verfügbarkeit, viermal täglich erhoben.
Health-Ping
Up/Down-Prüfung alle fünfzehn Minuten.
Jedes Modell ausprobieren — direkt hier
Modell wählen, Prompt eingeben, Antwort live anschauen. Keine Anmeldung, keine Zahlung, kein Kontextwechsel.
Live-Tester öffnen →