Model quality scored 0–100 by an impartial judge LLM (Claude Sonnet 4.6, blind). Six categories: reasoning, coding, creativity, factual accuracy, instruction-following, and safety.
Nous utilisons des cookies strictement nécessaires pour faire fonctionner Tokonomix. Avec ton accord, nous utilisons aussi des analytics pour améliorer le produit. Lire notre politique de confidentialité. Politique de confidentialité