Model quality scored 0–100 by an impartial judge LLM (Claude Sonnet 4.6, blind). Six categories: reasoning, coding, creativity, factual accuracy, instruction-following, and safety.
We gebruiken strikt noodzakelijke cookies om Tokonomix te laten werken. Met jouw toestemming gebruiken we ook analytics om het product te verbeteren. Lees ons privacybeleid. Privacybeleid