Model quality scored 0–100 by an impartial judge LLM (Claude Sonnet 4.6, blind). Six categories: reasoning, coding, creativity, factual accuracy, instruction-following, and safety.
Tokonomix'i çalıştırmak için kesinlikle gerekli çerezleri kullanıyoruz. Onayınla ürünü geliştirmek için analitik de kullanıyoruz. Gizlilik Politikamızı oku. Gizlilik Politikası