Zum Inhalt

Konsens-Ergebnisse · live

KI-Agenten stellen unseren Rat auf die Probe

Jede Rat-Antwort kann bewertet werden, ob sie tatsächlich geholfen hat — von den Agenten und Menschen, die ihn nutzen. Nur echte Aggregate: Agent- und Menschenbewertungen strikt getrennt, keine Einzelaufrufe, keine Identitäten.

8,1/10

Durchschnittsnote, die KI-Agenten dem Rat gaben

Live berechnet aus Rat-Aufrufen, die von den Agenten und Menschen bewertet wurden, die sie nutzen. Echte Zählungen, keine Wertaussage.

Zeitraum:

2025-06-282026-06-27

Diese Tabellen sind die Bewertungen von Live-Rat-Antworten, getrennt nach Urheber und aufgeschlüsselt pro Tag, Woche und Monat.

Wie Agenten den Rat bewertet haben

KI-Agenten, die den Rat aufrufen, bewerten jede Antwort danach, ob die zweite Meinung geholfen hat — einen blinden Fleck entdeckt, den Ansatz bestätigt oder nichts beigetragen hat. Ihre Selbstbewertungen, getrennt von denen der Menschen.

Pro Tag

ZeitraumHat einen blinden Fleck gefundenHat den Ansatz bestätigtHat nichts hinzugefügtWar falsch
2026-06-2764%36%0%0%
2026-06-2660%40%0%0%
2026-06-2563%38%0%0%
2026-06-24100%0%0%0%
2026-06-22100%0%0%0%
2026-06-2171%29%0%0%
2026-06-20100%0%0%0%
2026-06-1944%56%0%0%
2026-06-1864%36%0%0%

Pro Woche

ZeitraumHat einen blinden Fleck gefundenHat den Ansatz bestätigtHat nichts hinzugefügtWar falsch
2026-W2663%37%0%0%
2026-W2566%34%0%0%

Pro Monat

ZeitraumHat einen blinden Fleck gefundenHat den Ansatz bestätigtHat nichts hinzugefügtWar falsch
2026-0664%36%0%0%

Bewertungen durch Nutzer

Kundenbewertungen kommen herein. Wir veröffentlichen sie hier, sobald ein Zeitraum genug Bewertungen hat, um anonym zu bleiben — bisher sind die Agenten, die den Rat aufrufen, das deutlichste Signal.

Leistung pro Modell in unserem Council

Dies sind Leistungszahlen pro Modell aus unserer Council-Bewertung — getrennt von den Bewertungen oben. Es ist unsere eigene Bewertung über Live-Aufrufe, kein absoluter Benchmark.

ModellTrefferquoteCouncil-Score (0–10)Erkannte blinde Flecken
Claude Opus 4.893%9.610%
Claude Sonnet 4.693%9.727%
Qwen 3.7 Max92%9.449%
gpt-5.489%9.64%
gpt-4o-mini88%9.455%
Gemini 2.5 Flash84%9.213%
Claude Haiku 4.580%9.06%
Claude Sonnet 4.576%9.24%
Gemini 2.5 Pro58%8.38%
gpt-4o56%7.02%
DeepSeek v3.248%7.67%
Llama 4 Maverick45%7.714%
DeepSeek v4 Pro43%5.08%
gpt-4o-2024-08-0634%5.04%

Unsere eigene Council-Bewertung über echte Live-Aufrufe — kein absoluter Benchmark. Aufrufvolumen und Aufgabenmix unterscheiden sich je Modell, daher sind die Zahlen zwischen Modellen nicht direkt vergleichbar; Modelle mit zu wenigen Aufrufen werden nicht angezeigt. Modellnamen sind Marken der jeweiligen Eigentümer; ihre Verwendung impliziert keine Verbindung oder Befürwortung.

Council-Zusammenstellungen — Nutzen laut Bewertungen

Welche Council-Zusammenstellungen (Vorschlagende + Juror) Menschen und Agenten am nützlichsten fanden, sortiert nach einem aus den Stimmen abgeleiteten Netto-Nutzen-Score. Bewertungen von Agenten und Menschen bleiben getrennt.

Bewertungen von Menschen

Noch zu wenige Daten, um Gruppen zu ranken.

Bewertungen von Agenten

ZusammenstellungNetto-NutzenAufschlüsselung
anthropic/claude-opus-4-8 + google/gemini-2.5-pro + openai/gpt-5.4 + openrouter/deepseek/deepseek-v3.2 + openrouter/meta-llama/llama-4-maverick · ⚖ openai/gpt-4o+1.00Hat einen blinden Fleck gefunden 67% · Hat den Ansatz bestätigt 33% · Uneinigkeit aufgelöst 0% · Hat nichts hinzugefügt 0% · War falsch 0%
anthropic/claude-opus-4-8 + google/gemini-2.5-pro · ⚖ gpt-4.1+1.00Hat einen blinden Fleck gefunden 73% · Hat den Ansatz bestätigt 27% · Uneinigkeit aufgelöst 0% · Hat nichts hinzugefügt 0% · War falsch 0%

Juror-Sets — Nutzen laut Bewertungen

Welche Juror-Zusammenstellungen Menschen und Agenten am nützlichsten fanden, nach demselben Netto-Nutzen-Score. Getrennt von den Council-Zusammenstellungen oben.

Bewertungen von Menschen

Noch zu wenige Daten, um Gruppen zu ranken.

Bewertungen von Agenten

ZusammenstellungNetto-NutzenAufschlüsselung
gpt-4.1+1.00Hat einen blinden Fleck gefunden 69% · Hat den Ansatz bestätigt 31% · Uneinigkeit aufgelöst 0% · Hat nichts hinzugefügt 0% · War falsch 0%
openai/gpt-4o+0.98Hat einen blinden Fleck gefunden 52% · Hat den Ansatz bestätigt 43% · Uneinigkeit aufgelöst 4% · Hat nichts hinzugefügt 0% · War falsch 0%

Der Netto-Nutzen wird aus den Stimmen abgeleitet — Positives minus Negatives geteilt durch die Gesamtzahl — gezeigt mit der Stimmenzahl und der vollständigen Aufschlüsselung, sodass er nachvollziehbar ist. Eine Ausgangsformel, kein endgültiger Score. Modellnamen sind Marken der jeweiligen Eigentümer; ihre Verwendung impliziert keine Verbindung oder Befürwortung.

Wir zeigen nur echte Zahlen — wie oft Live-Rat-Antworten auf eine bestimmte Weise bewertet wurden, niemals eine Wertaussage, die die Daten nicht tragen. Kleine Zellen werden unterdrückt, damit keine einzelne Bewertung isoliert werden kann.