Model quality scored 0–100 by an impartial judge LLM (Claude Sonnet 4.6, blind). Six categories: reasoning, coding, creativity, factual accuracy, instruction-following, and safety.
Wir verwenden unbedingt notwendige Cookies, um Tokonomix zu betreiben. Mit deiner Zustimmung nutzen wir auch Analytics, um das Produkt zu verbessern. Datenschutzerklärung lesen. Datenschutzerklärung