Preuve en direct
Pourquoi un seul modèle ne suffit pas
Données réelles de chaque exécution du conseil que nous traitons — mises à jour toutes les 15 minutes. Pas de simulations, pas d'exemples triés sur le volet.
Couverture des angles morts
Un angle mort est une vraie vulnérabilité ou erreur qu'un modèle rate silencieusement pendant qu'un autre modèle du même conseil la détecte. Le graphique montre quels modèles fournissent le plus souvent la découverte unique — le résultat qu'aucun autre modèle du panel n'avait signalé.
Modèle · Taux de détection unique
- 1Gpt 4o Mini55.2%100.0%
- 2Qwen3.7 Max49.3%89.3%
- 3Claude Sonnet 4 627.7%50.2%
- 4Llama 4 Maverick14.0%25.4%
- 5Gemini 2.5 Flash12.9%23.4%
- 6Claude Opus 4 811.3%20.5%
- 7Gemini 2.5 Pro7.6%13.8%
- 8Deepseek V4 Pro7.3%13.2%
Classé par taux de détection unique. Seuls les modèles avec suffisamment de données sont affichés. Les taux sont des pourcentages des propres événements d'un modèle.
Scores de qualité
Score de qualité moyen (0–100) et taux ok, calculés sur toutes les évaluations de juge où le modèle agissait comme proposant. Taux ok = fraction des verdicts évalués comme entièrement corrects.
| Modèle | Qualité moy. (0–100) | Taux ok |
|---|---|---|
| Gpt 5.1 | 100.0 | 100.0% |
| Gpt 5.4 Nano 2026 03 17 | 100.0 | 100.0% |
| Gpt 5.2 2025 12 11 | 100.0 | 100.0% |
| Gpt 5.4 | 100.0 | 89.1% |
| Gpt 5.3 Chat Latest | 100.0 | 100.0% |
| Gpt 5.2 Chat Latest | 99.8 | 100.0% |
| Gpt 5.2 | 99.8 | 100.0% |
| Gpt 5.1 2025 11 13 | 99.6 | 100.0% |
Fiabilité
Taux de bruit = fraction des réponses du modèle que le classificateur du conseil marque comme hors-sujet ou à faible signal. Taux d'erreur = fraction des appels API ayant retourné une erreur. Les deux sont des moyennes sur tous les modèles qualifiés.
Taux de bruit moy.
1.99%
Part des réponses marquées comme bruit par le classificateur.
Taux d'erreur API moy.
0.62%
Part des appels de modèle ayant retourné une erreur.
Benchmark d'analyse de sécurité (INT-1929)
Test en aveugle pré-enregistré · 12 vulnérabilités ensemencées + 4 contrôles propres · évaluateur aveugle : modèle indépendant non dans le conseil · coût : 0,43 €
Nous avons créé une tâche réaliste d'examen de code avec 12 vraies classes de vulnérabilité et 4 contrôles propres. Chaque bras a fonctionné indépendamment. L'évaluateur aveugle ne savait pas quel bras avait produit quelle sortie.
| Bras | Rappel (sur 12) | Faux positifs (sur 4) |
|---|---|---|
| GPT-4o (single) | 7 / 12 | 1 |
| Gemini 2.5 Flash (single) | 11 / 12 | 5 |
| Claude Haiku 4.5 (single) | 12 / 12 | 5 |
| Conseil — consensus | 12 / 12 | 7 |
GPT-4o a silencieusement signalé "Aucun problème de sécurité trouvé" pour 5 des 12 vraies vulnérabilités — le canal latéral de timing, l'IDOR, la vérification d'autorisation manquante, le token de réinitialisation prévisible et la course TOCTOU. Ce sont les bugs de contexte et de logique, pas les erreurs manuelles. Le conseil les a tous trouvés.
Le rappel par modèle unique variait de 58% (GPT-4o) à 100% (Claude Haiku) sur les mêmes tâches. On ne sait pas à l'avance quel modèle est le plus fort pour le bug en question. Le conseil délivre un rappel de premier plan sans ce pari.
Le conseil n'a pas battu le meilleur modèle unique en rappel — il l'a égalé (12/12). Ce benchmark montre la fiabilité et l'élimination de la variance, pas "trouve plus de bugs que n'importe quel modèle". Nous le rapportons honnêtement.
Un rappel plus élevé coûte un peu de précision. Faux positifs sur code propre : GPT-4o a obtenu 1 (conservateur mais a raté 5 vrais bugs), tandis que le conseil a obtenu 7. Un humain examine les signalements supplémentaires — ce triage est le coût de ne pas manquer le canal latéral de timing.
Signal croissant
Un signal de rétroaction d'agent et humain est en croissance active. Nous publierons des évaluations et des statistiques d'accord une fois que l'ensemble de données sera assez grand pour être significatif.
Données en direct récupérées à 1 juil. 2026, 21:52