Preuve en direct

Pourquoi un seul modèle ne suffit pas

Données réelles de chaque exécution du conseil que nous traitons — mises à jour toutes les 15 minutes. Pas de simulations, pas d'exemples triés sur le volet.

Couverture des angles morts

Un angle mort est une vraie vulnérabilité ou erreur qu'un modèle rate silencieusement pendant qu'un autre modèle du même conseil la détecte. Le graphique montre quels modèles fournissent le plus souvent la découverte unique — le résultat qu'aucun autre modèle du panel n'avait signalé.

Modèle · Taux de détection unique

1Gpt 4o Mini
100.0%
55.2%
2Qwen3.7 Max
89.3%
49.3%
3Claude Sonnet 4 6
50.2%
27.7%
4Llama 4 Maverick
25.4%
14.0%
5Gemini 2.5 Flash
23.4%
12.9%
6Claude Opus 4 8
20.5%
11.3%
7Gemini 2.5 Pro
13.8%
7.6%
8Deepseek V4 Pro
13.2%
7.3%

Classé par taux de détection unique. Seuls les modèles avec suffisamment de données sont affichés. Les taux sont des pourcentages des propres événements d'un modèle.

Scores de qualité

Score de qualité moyen (0–100) et taux ok, calculés sur toutes les évaluations de juge où le modèle agissait comme proposant. Taux ok = fraction des verdicts évalués comme entièrement corrects.

Modèle	Qualité moy. (0–100)	Taux ok
Gpt 5.1	100.0	100.0%
Gpt 5.4 Nano 2026 03 17	100.0	100.0%
Gpt 5.2 2025 12 11	100.0	100.0%
Gpt 5.4	100.0	89.1%
Gpt 5.3 Chat Latest	100.0	100.0%
Gpt 5.2 Chat Latest	99.8	100.0%
Gpt 5.2	99.8	100.0%
Gpt 5.1 2025 11 13	99.6	100.0%

Fiabilité

Taux de bruit = fraction des réponses du modèle que le classificateur du conseil marque comme hors-sujet ou à faible signal. Taux d'erreur = fraction des appels API ayant retourné une erreur. Les deux sont des moyennes sur tous les modèles qualifiés.

Taux de bruit moy.

1.99%

Part des réponses marquées comme bruit par le classificateur.

Taux d'erreur API moy.

0.62%

Part des appels de modèle ayant retourné une erreur.

Benchmark d'analyse de sécurité (INT-1929)

Test en aveugle pré-enregistré · 12 vulnérabilités ensemencées + 4 contrôles propres · évaluateur aveugle : modèle indépendant non dans le conseil · coût : 0,43 €

Nous avons créé une tâche réaliste d'examen de code avec 12 vraies classes de vulnérabilité et 4 contrôles propres. Chaque bras a fonctionné indépendamment. L'évaluateur aveugle ne savait pas quel bras avait produit quelle sortie.

Bras	Rappel (sur 12)	Faux positifs (sur 4)
GPT-4o (single)	7 / 12	1
Gemini 2.5 Flash (single)	11 / 12	5
Claude Haiku 4.5 (single)	12 / 12	5
Conseil — consensus	12 / 12	7

Résultat clé

GPT-4o a silencieusement signalé "Aucun problème de sécurité trouvé" pour 5 des 12 vraies vulnérabilités — le canal latéral de timing, l'IDOR, la vérification d'autorisation manquante, le token de réinitialisation prévisible et la course TOCTOU. Ce sont les bugs de contexte et de logique, pas les erreurs manuelles. Le conseil les a tous trouvés.

Variance éliminée

Le rappel par modèle unique variait de 58% (GPT-4o) à 100% (Claude Haiku) sur les mêmes tâches. On ne sait pas à l'avance quel modèle est le plus fort pour le bug en question. Le conseil délivre un rappel de premier plan sans ce pari.

Plafond honnête

Le conseil n'a pas battu le meilleur modèle unique en rappel — il l'a égalé (12/12). Ce benchmark montre la fiabilité et l'élimination de la variance, pas "trouve plus de bugs que n'importe quel modèle". Nous le rapportons honnêtement.

Compromis de précision

Un rappel plus élevé coûte un peu de précision. Faux positifs sur code propre : GPT-4o a obtenu 1 (conservateur mais a raté 5 vrais bugs), tandis que le conseil a obtenu 7. Un humain examine les signalements supplémentaires — ce triage est le coût de ne pas manquer le canal latéral de timing.

Signal croissant

Un signal de rétroaction d'agent et humain est en croissance active. Nous publierons des évaluations et des statistiques d'accord une fois que l'ensemble de données sera assez grand pour être significatif.

Données en direct récupérées à 1 juil. 2026, 21:52