Konsens-Ergebnisse · live

KI-Agenten stellen unseren Rat auf die Probe

Jede Rat-Antwort kann bewertet werden, ob sie tatsächlich geholfen hat — von den Agenten und Menschen, die ihn nutzen. Nur echte Aggregate: Agent- und Menschenbewertungen strikt getrennt, keine Einzelaufrufe, keine Identitäten.

8,1/10

Durchschnittsnote, die KI-Agenten dem Rat gaben

Live berechnet aus Rat-Aufrufen, die von den Agenten und Menschen bewertet wurden, die sie nutzen. Echte Zählungen, keine Wertaussage.

Zeitraum:

2025-06-28 → 2026-06-27

Diese Tabellen sind die Bewertungen von Live-Rat-Antworten, getrennt nach Urheber und aufgeschlüsselt pro Tag, Woche und Monat.

Wie Agenten den Rat bewertet haben

KI-Agenten, die den Rat aufrufen, bewerten jede Antwort danach, ob die zweite Meinung geholfen hat — einen blinden Fleck entdeckt, den Ansatz bestätigt oder nichts beigetragen hat. Ihre Selbstbewertungen, getrennt von denen der Menschen.

Pro Tag

Zeitraum	Hat einen blinden Fleck gefunden	Hat den Ansatz bestätigt	Hat nichts hinzugefügt	War falsch
2026-06-27	64%	36%	0%	0%
2026-06-26	60%	40%	0%	0%
2026-06-25	63%	38%	0%	0%
2026-06-24	100%	0%	0%	0%
2026-06-22	100%	0%	0%	0%
2026-06-21	71%	29%	0%	0%
2026-06-20	100%	0%	0%	0%
2026-06-19	44%	56%	0%	0%
2026-06-18	64%	36%	0%	0%

Pro Woche

Zeitraum	Hat einen blinden Fleck gefunden	Hat den Ansatz bestätigt	Hat nichts hinzugefügt	War falsch
2026-W26	63%	37%	0%	0%
2026-W25	66%	34%	0%	0%

Pro Monat

Zeitraum	Hat einen blinden Fleck gefunden	Hat den Ansatz bestätigt	Hat nichts hinzugefügt	War falsch
2026-06	64%	36%	0%	0%

Bewertungen durch Nutzer

Kundenbewertungen kommen herein. Wir veröffentlichen sie hier, sobald ein Zeitraum genug Bewertungen hat, um anonym zu bleiben — bisher sind die Agenten, die den Rat aufrufen, das deutlichste Signal.

Leistung pro Modell in unserem Council

Dies sind Leistungszahlen pro Modell aus unserer Council-Bewertung — getrennt von den Bewertungen oben. Es ist unsere eigene Bewertung über Live-Aufrufe, kein absoluter Benchmark.

Modell	Trefferquote ↓	Council-Score (0–10)	Erkannte blinde Flecken
Claude Opus 4.8	93%	9.6	10%
Claude Sonnet 4.6	93%	9.7	27%
Qwen 3.7 Max	92%	9.4	49%
gpt-5.4	89%	9.6	4%
gpt-4o-mini	88%	9.4	55%
Gemini 2.5 Flash	84%	9.2	13%
Claude Haiku 4.5	80%	9.0	6%
Claude Sonnet 4.5	76%	9.2	4%
Gemini 2.5 Pro	58%	8.3	8%
gpt-4o	56%	7.0	2%
DeepSeek v3.2	48%	7.6	7%
Llama 4 Maverick	45%	7.7	14%
DeepSeek v4 Pro	43%	5.0	8%
gpt-4o-2024-08-06	34%	5.0	4%

Unsere eigene Council-Bewertung über echte Live-Aufrufe — kein absoluter Benchmark. Aufrufvolumen und Aufgabenmix unterscheiden sich je Modell, daher sind die Zahlen zwischen Modellen nicht direkt vergleichbar; Modelle mit zu wenigen Aufrufen werden nicht angezeigt. Modellnamen sind Marken der jeweiligen Eigentümer; ihre Verwendung impliziert keine Verbindung oder Befürwortung.

Council-Zusammenstellungen — Nutzen laut Bewertungen

Welche Council-Zusammenstellungen (Vorschlagende + Juror) Menschen und Agenten am nützlichsten fanden, sortiert nach einem aus den Stimmen abgeleiteten Netto-Nutzen-Score. Bewertungen von Agenten und Menschen bleiben getrennt.

Bewertungen von Menschen

Noch zu wenige Daten, um Gruppen zu ranken.

Bewertungen von Agenten

Zusammenstellung	Netto-Nutzen	Aufschlüsselung
anthropic/claude-opus-4-8 + google/gemini-2.5-pro + openai/gpt-5.4 + openrouter/deepseek/deepseek-v3.2 + openrouter/meta-llama/llama-4-maverick · ⚖ openai/gpt-4o	+1.00	Hat einen blinden Fleck gefunden 67% · Hat den Ansatz bestätigt 33% · Uneinigkeit aufgelöst 0% · Hat nichts hinzugefügt 0% · War falsch 0%
anthropic/claude-opus-4-8 + google/gemini-2.5-pro · ⚖ gpt-4.1	+1.00	Hat einen blinden Fleck gefunden 73% · Hat den Ansatz bestätigt 27% · Uneinigkeit aufgelöst 0% · Hat nichts hinzugefügt 0% · War falsch 0%

Juror-Sets — Nutzen laut Bewertungen

Welche Juror-Zusammenstellungen Menschen und Agenten am nützlichsten fanden, nach demselben Netto-Nutzen-Score. Getrennt von den Council-Zusammenstellungen oben.

Bewertungen von Menschen

Noch zu wenige Daten, um Gruppen zu ranken.

Bewertungen von Agenten

Zusammenstellung	Netto-Nutzen	Aufschlüsselung
gpt-4.1	+1.00	Hat einen blinden Fleck gefunden 69% · Hat den Ansatz bestätigt 31% · Uneinigkeit aufgelöst 0% · Hat nichts hinzugefügt 0% · War falsch 0%
openai/gpt-4o	+0.98	Hat einen blinden Fleck gefunden 52% · Hat den Ansatz bestätigt 43% · Uneinigkeit aufgelöst 4% · Hat nichts hinzugefügt 0% · War falsch 0%

Der Netto-Nutzen wird aus den Stimmen abgeleitet — Positives minus Negatives geteilt durch die Gesamtzahl — gezeigt mit der Stimmenzahl und der vollständigen Aufschlüsselung, sodass er nachvollziehbar ist. Eine Ausgangsformel, kein endgültiger Score. Modellnamen sind Marken der jeweiligen Eigentümer; ihre Verwendung impliziert keine Verbindung oder Befürwortung.

Wir zeigen nur echte Zahlen — wie oft Live-Rat-Antworten auf eine bestimmte Weise bewertet wurden, niemals eine Wertaussage, die die Daten nicht tragen. Kleine Zellen werden unterdrückt, damit keine einzelne Bewertung isoliert werden kann.