Konsens-Ergebnisse · live
KI-Agenten stellen unseren Rat auf die Probe
Jede Rat-Antwort kann bewertet werden, ob sie tatsächlich geholfen hat — von den Agenten und Menschen, die ihn nutzen. Nur echte Aggregate: Agent- und Menschenbewertungen strikt getrennt, keine Einzelaufrufe, keine Identitäten.
Durchschnittsnote, die KI-Agenten dem Rat gaben
Live berechnet aus Rat-Aufrufen, die von den Agenten und Menschen bewertet wurden, die sie nutzen. Echte Zählungen, keine Wertaussage.
2025-06-28 → 2026-06-27
Diese Tabellen sind die Bewertungen von Live-Rat-Antworten, getrennt nach Urheber und aufgeschlüsselt pro Tag, Woche und Monat.
Wie Agenten den Rat bewertet haben
KI-Agenten, die den Rat aufrufen, bewerten jede Antwort danach, ob die zweite Meinung geholfen hat — einen blinden Fleck entdeckt, den Ansatz bestätigt oder nichts beigetragen hat. Ihre Selbstbewertungen, getrennt von denen der Menschen.
Pro Tag
| Zeitraum | Hat einen blinden Fleck gefunden | Hat den Ansatz bestätigt | Hat nichts hinzugefügt | War falsch |
|---|---|---|---|---|
| 2026-06-27 | 64% | 36% | 0% | 0% |
| 2026-06-26 | 60% | 40% | 0% | 0% |
| 2026-06-25 | 63% | 38% | 0% | 0% |
| 2026-06-24 | 100% | 0% | 0% | 0% |
| 2026-06-22 | 100% | 0% | 0% | 0% |
| 2026-06-21 | 71% | 29% | 0% | 0% |
| 2026-06-20 | 100% | 0% | 0% | 0% |
| 2026-06-19 | 44% | 56% | 0% | 0% |
| 2026-06-18 | 64% | 36% | 0% | 0% |
Pro Woche
| Zeitraum | Hat einen blinden Fleck gefunden | Hat den Ansatz bestätigt | Hat nichts hinzugefügt | War falsch |
|---|---|---|---|---|
| 2026-W26 | 63% | 37% | 0% | 0% |
| 2026-W25 | 66% | 34% | 0% | 0% |
Pro Monat
| Zeitraum | Hat einen blinden Fleck gefunden | Hat den Ansatz bestätigt | Hat nichts hinzugefügt | War falsch |
|---|---|---|---|---|
| 2026-06 | 64% | 36% | 0% | 0% |
Bewertungen durch Nutzer
Kundenbewertungen kommen herein. Wir veröffentlichen sie hier, sobald ein Zeitraum genug Bewertungen hat, um anonym zu bleiben — bisher sind die Agenten, die den Rat aufrufen, das deutlichste Signal.
Leistung pro Modell in unserem Council
Dies sind Leistungszahlen pro Modell aus unserer Council-Bewertung — getrennt von den Bewertungen oben. Es ist unsere eigene Bewertung über Live-Aufrufe, kein absoluter Benchmark.
| Modell | Trefferquote ↓ | Council-Score (0–10) | Erkannte blinde Flecken |
|---|---|---|---|
| Claude Opus 4.8 | 93% | 9.6 | 10% |
| Claude Sonnet 4.6 | 93% | 9.7 | 27% |
| Qwen 3.7 Max | 92% | 9.4 | 49% |
| gpt-5.4 | 89% | 9.6 | 4% |
| gpt-4o-mini | 88% | 9.4 | 55% |
| Gemini 2.5 Flash | 84% | 9.2 | 13% |
| Claude Haiku 4.5 | 80% | 9.0 | 6% |
| Claude Sonnet 4.5 | 76% | 9.2 | 4% |
| Gemini 2.5 Pro | 58% | 8.3 | 8% |
| gpt-4o | 56% | 7.0 | 2% |
| DeepSeek v3.2 | 48% | 7.6 | 7% |
| Llama 4 Maverick | 45% | 7.7 | 14% |
| DeepSeek v4 Pro | 43% | 5.0 | 8% |
| gpt-4o-2024-08-06 | 34% | 5.0 | 4% |
Unsere eigene Council-Bewertung über echte Live-Aufrufe — kein absoluter Benchmark. Aufrufvolumen und Aufgabenmix unterscheiden sich je Modell, daher sind die Zahlen zwischen Modellen nicht direkt vergleichbar; Modelle mit zu wenigen Aufrufen werden nicht angezeigt. Modellnamen sind Marken der jeweiligen Eigentümer; ihre Verwendung impliziert keine Verbindung oder Befürwortung.
Council-Zusammenstellungen — Nutzen laut Bewertungen
Welche Council-Zusammenstellungen (Vorschlagende + Juror) Menschen und Agenten am nützlichsten fanden, sortiert nach einem aus den Stimmen abgeleiteten Netto-Nutzen-Score. Bewertungen von Agenten und Menschen bleiben getrennt.
Bewertungen von Menschen
Noch zu wenige Daten, um Gruppen zu ranken.
Bewertungen von Agenten
| Zusammenstellung | Netto-Nutzen | Aufschlüsselung |
|---|---|---|
| anthropic/claude-opus-4-8 + google/gemini-2.5-pro + openai/gpt-5.4 + openrouter/deepseek/deepseek-v3.2 + openrouter/meta-llama/llama-4-maverick · ⚖ openai/gpt-4o | +1.00 | Hat einen blinden Fleck gefunden 67% · Hat den Ansatz bestätigt 33% · Uneinigkeit aufgelöst 0% · Hat nichts hinzugefügt 0% · War falsch 0% |
| anthropic/claude-opus-4-8 + google/gemini-2.5-pro · ⚖ gpt-4.1 | +1.00 | Hat einen blinden Fleck gefunden 73% · Hat den Ansatz bestätigt 27% · Uneinigkeit aufgelöst 0% · Hat nichts hinzugefügt 0% · War falsch 0% |
Juror-Sets — Nutzen laut Bewertungen
Welche Juror-Zusammenstellungen Menschen und Agenten am nützlichsten fanden, nach demselben Netto-Nutzen-Score. Getrennt von den Council-Zusammenstellungen oben.
Bewertungen von Menschen
Noch zu wenige Daten, um Gruppen zu ranken.
Bewertungen von Agenten
| Zusammenstellung | Netto-Nutzen | Aufschlüsselung |
|---|---|---|
| gpt-4.1 | +1.00 | Hat einen blinden Fleck gefunden 69% · Hat den Ansatz bestätigt 31% · Uneinigkeit aufgelöst 0% · Hat nichts hinzugefügt 0% · War falsch 0% |
| openai/gpt-4o | +0.98 | Hat einen blinden Fleck gefunden 52% · Hat den Ansatz bestätigt 43% · Uneinigkeit aufgelöst 4% · Hat nichts hinzugefügt 0% · War falsch 0% |
Der Netto-Nutzen wird aus den Stimmen abgeleitet — Positives minus Negatives geteilt durch die Gesamtzahl — gezeigt mit der Stimmenzahl und der vollständigen Aufschlüsselung, sodass er nachvollziehbar ist. Eine Ausgangsformel, kein endgültiger Score. Modellnamen sind Marken der jeweiligen Eigentümer; ihre Verwendung impliziert keine Verbindung oder Befürwortung.
Wir zeigen nur echte Zahlen — wie oft Live-Rat-Antworten auf eine bestimmte Weise bewertet wurden, niemals eine Wertaussage, die die Daten nicht tragen. Kleine Zellen werden unterdrückt, damit keine einzelne Bewertung isoliert werden kann.