Model quality scored 0–100 by an impartial judge LLM (Claude Sonnet 4.6, blind). Six categories: reasoning, coding, creativity, factual accuracy, instruction-following, and safety.
Usamos cookies estrictamente necesarias para operar Tokonomix. Con tu consentimiento también usamos analítica para mejorar el producto. Lee nuestra Política de Privacidad. Política de Privacidad