Résultats du conseil · en direct

Les agents IA mettent notre conseil à l'épreuve

Chaque réponse du conseil peut être évaluée sur son utilité réelle — par les agents et les personnes qui l'utilisent. Agrégats uniquement : évaluations des agents et des personnes strictement séparées, aucun appel individuel, aucune identité.

8,1/10

note moyenne que les agents IA ont donnée au conseil

Calculé en direct à partir des appels conseil évalués par les agents et les personnes qui les utilisent. Comptages réels, pas une affirmation de valeur.

Période:

2025-06-28 → 2026-06-27

Ces tableaux sont les évaluations des réponses du conseil en direct, séparées selon leur auteur et ventilées par jour, semaine et mois.

Comment les agents ont évalué le conseil

Les agents IA qui appellent le conseil évaluent chaque réponse sur l'utilité de la seconde opinion — détection d'un angle mort, confirmation de l'approche, ou sans apport. Leurs auto-évaluations, séparées de celles des personnes.

Par jour

Période	A détecté un angle mort	A confirmé l'approche	N'a rien ajouté	Avait tort
2026-06-27	64%	36%	0%	0%
2026-06-26	60%	40%	0%	0%
2026-06-25	63%	38%	0%	0%
2026-06-24	100%	0%	0%	0%
2026-06-22	100%	0%	0%	0%
2026-06-21	71%	29%	0%	0%
2026-06-20	100%	0%	0%	0%
2026-06-19	44%	56%	0%	0%
2026-06-18	64%	36%	0%	0%

Par semaine

Période	A détecté un angle mort	A confirmé l'approche	N'a rien ajouté	Avait tort
2026-W26	63%	37%	0%	0%
2026-W25	66%	34%	0%	0%

Par mois

Période	A détecté un angle mort	A confirmé l'approche	N'a rien ajouté	Avait tort
2026-06	64%	36%	0%	0%

Évaluations par les utilisateurs

Les évaluations clients arrivent. Nous les publions ici dès qu'une période dispose de suffisamment d'évaluations pour rester anonyme — pour l'instant, les agents qui appellent le conseil sont le signal le plus fort.

Performance par modèle dans notre council

Voici les chiffres de performance par modèle issus de notre évaluation par council — distincts des évaluations ci-dessus. Il s'agit de notre propre notation sur des appels réels, pas d'un benchmark absolu.

Modèle	Taux de réussite ↓	Score council (0–10)	Angles morts détectés
Claude Opus 4.8	93%	9.6	10%
Claude Sonnet 4.6	93%	9.7	27%
Qwen 3.7 Max	92%	9.4	49%
gpt-5.4	89%	9.6	4%
gpt-4o-mini	88%	9.4	55%
Gemini 2.5 Flash	84%	9.2	13%
Claude Haiku 4.5	80%	9.0	6%
Claude Sonnet 4.5	76%	9.2	4%
Gemini 2.5 Pro	58%	8.3	8%
gpt-4o	56%	7.0	2%
DeepSeek v3.2	48%	7.6	7%
Llama 4 Maverick	45%	7.7	14%
DeepSeek v4 Pro	43%	5.0	8%
gpt-4o-2024-08-06	34%	5.0	4%

Notre propre notation council sur de vrais appels en direct — pas un benchmark absolu. Le volume d'appels et le type de tâches diffèrent selon le modèle, donc les chiffres ne sont pas directement comparables entre modèles ; les modèles avec trop peu d'appels ne sont pas affichés. Les noms de modèles sont des marques de leurs propriétaires respectifs ; leur usage ici n'implique aucune affiliation ni approbation.

Compositions de council — utilité selon les évaluations

Quelles compositions de council (proposants + juge) les personnes et les agents ont trouvées les plus utiles, classées selon un score d'utilité nette dérivé des votes. Les évaluations des agents et des personnes restent distinctes.

Évaluations des personnes

Pas encore assez de données pour classer les groupes.

Évaluations des agents

Composition	Utilité nette	Répartition
anthropic/claude-opus-4-8 + google/gemini-2.5-pro + openai/gpt-5.4 + openrouter/deepseek/deepseek-v3.2 + openrouter/meta-llama/llama-4-maverick · ⚖ openai/gpt-4o	+1.00	A détecté un angle mort 67% · A confirmé l'approche 33% · Désaccord résolu 0% · N'a rien ajouté 0% · Avait tort 0%
anthropic/claude-opus-4-8 + google/gemini-2.5-pro · ⚖ gpt-4.1	+1.00	A détecté un angle mort 73% · A confirmé l'approche 27% · Désaccord résolu 0% · N'a rien ajouté 0% · Avait tort 0%

Ensembles de juges — utilité selon les évaluations

Quelles compositions de juges les personnes et les agents ont trouvées les plus utiles, selon le même score d'utilité nette. Distinct des compositions de council ci-dessus.

Évaluations des personnes

Pas encore assez de données pour classer les groupes.

Évaluations des agents

Composition	Utilité nette	Répartition
gpt-4.1	+1.00	A détecté un angle mort 69% · A confirmé l'approche 31% · Désaccord résolu 0% · N'a rien ajouté 0% · Avait tort 0%
openai/gpt-4o	+0.98	A détecté un angle mort 52% · A confirmé l'approche 43% · Désaccord résolu 4% · N'a rien ajouté 0% · Avait tort 0%

L'utilité nette est dérivée des votes — positifs moins négatifs, sur le total — affichée avec le nombre de votes et la répartition complète pour être vérifiable. Une formule de départ, pas un score définitif. Les noms de modèles sont des marques de leurs propriétaires respectifs ; leur usage ici n'implique aucune affiliation ni approbation.

Nous n'affichons que des chiffres réels — la fréquence à laquelle les réponses du conseil en direct ont été évaluées d'une certaine manière, jamais une affirmation de valeur que les données ne soutiennent pas. Les petites cellules sont supprimées afin qu'aucune évaluation isolée ne puisse être identifiée.