Aller au contenu
Tier A — Frontier
Fonctionne en :Multi-regionCréé en :China
OpenRouter

Qwen 3.7 Max

Tier A — Frontier · 1M tokens · undisclosed

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

Qwen 3.7 Max est un grand modèle de langage développé par l'équipe Qwen d'Alibaba Cloud, proposé via la plateforme OpenRouter. Ce modèle représente une option de gamme intermédiaire dans la famille Qwen, équilibrant capacité et efficacité. Il dispose d'une fenêtre de contexte exceptionnellement large d'1 million de tokens, lui permettant de traiter et de maintenir la cohérence sur des documents très longs, des conversations prolongées ou des tâches complexes multi-documents. Le modèle est conçu comme un système multilingue avec une force particulière sur les tâches en langue chinoise, tout en conservant des performances compétentes dans les autres langues majeures. Il prend en charge l'appel de fonctions et l'utilisation d'outils, ce qui lui permet de s'intégrer à des API externes et d'exécuter des tâches structurées au-delà de la simple génération de texte. Ces capacités le rendent adapté aux applications nécessitant à la fois polyvalence linguistique et intégration technique, telles que les systèmes de service client, les pipelines d'analyse de contenu et les outils d'assistance à la recherche. Au sein de la gamme de modèles Qwen, la variante 3.7 Max occupe une position intermédiaire, offrant des capacités plus avancées que les modèles Qwen plus petits tout en restant plus accessible que les variantes phares. Sa large fenêtre de contexte la distingue comme particulièrement adaptée aux tâches impliquant de longs documents, un historique de conversation étendu, ou des scénarios exigeant une conscience contextuelle élargie. Le modèle s'adresse aux utilisateurs ayant besoin de performances multilingues fiables, en particulier pour les applications bilingues chinois-anglais, sans exiger la charge de calcul des plus grands modèles disponibles.

Qwen 3.7 Max d Alibaba Cloud dispose d une fenêtre de contexte d un million de tokens et de solides capacités multilingues via OpenRouter.

Synthèse benchmark Tokonomix
Section 01

Analyse de vitesse

Latence mesurée sur toutes les exécutions de benchmark. P50 (médiane) et P95 (95e percentile) donnent une image réaliste de la vitesse de réponse en charge normale et de pointe.

Latence P50 (médiane)Latence P9568 runs
639207635134950638705-2406-09ms
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — Qwen 3.7 Max
$1.25 par 1M de tokens d'entrée
$3.75 par 1M de tokens de sortie
≈ $0.0015 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$1.25
par 1M de tokens de sortie$3.75

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

▼ −50% since first

$3.75

output / 1M

▼ −50% since first

2026-05-312026-06-072026-06-07
Input
Output
Price change
⟳ synced weekly
Section 03

Tokens par seconde

Débit en tokens par seconde, dérivé de la latence P50 mesurée. Plus haut est mieux ; les fluctuations reflètent la charge côté fournisseur.

Débit (tokens / s)230 / avg 216
310101

Estimé à partir de la latence P50 × 200 tokens de sortie — le chiffre absolu dépend de cette hypothèse ; c'est la tendance qui compte.

Section 04

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Contexte d un million de tokensExcellence bilingue chinois-anglaisFunction calling et intégration d outilsTraitement de documents très longsSupport multilingue étenduRaisonnement général solide

Faiblesses

Ressources pour contexte d 1 million de tokensLatence potentiellement élevée pour grand contexteDonnées routées via OpenRouterMoins optimisé pour le français que Mistral
Section 05

Capacités

toolschineselong contextmultilingual
Section 06

Questions fréquentes

Oui, c est l un de ses atouts distinctifs. La fenêtre d un million de tokens permet de charger des rapports, archives ou bases de données texte très volumineuses.

Un million de tokens de contexte avec function calling et fort support du chinois pour les applications mondiales.

Synthèse benchmark Tokonomix
Section 07

Verdicts benchmark Tokonomix

2026-06-07

Qwen 3.7 Max adds tool use and expanded language support

Qwen 3.7 Max has expanded its capabilities with the addition of tool use functionality, alongside confirmed support for Chinese, long context processing, and multilingual tasks. These additions position the model as a more versatile option for developers requiring multi-modal language assistance and function calling capabilities. The model maintains its focus on Chinese language excellence while supporting a broader range of international use cases. With long context support now confirmed, users can process extended documents and conversations more effectively. The tool use capability enables integration with external functions and APIs, a critical feature for building practical applications. Users should note that while the model offers strong multilingual performance, its primary strength remains in Chinese language tasks. The expanded feature set makes this model particularly suitable for developers building applications that require both Asian language support and modern LLM capabilities like function calling. The combination of these features suggests Qwen 3.7 Max is targeting enterprise and developer audiences who need reliable multilingual performance with practical integration options.

Quality

Latency p50

Test runs

0

Tool use capability added Long context support confirmed Expanded multilingual functionality
Section 08

Profil complet du modèle

Qwen 3.7 Max — illustration 1
Qwen 3.7 Max : L'offensive d'Alibaba pour la domination multilingue à contexte long

Quand les géants technologiques chinois parlent d'IA, les développeurs occidentaux classent souvent ça sous "intéressant mais pas pour moi." Qwen 3.7 Max est le modèle qui remet en question cet instinct. L'équipe Qwen d'Alibaba a tranquillement itéré à travers plusieurs générations de modèles pendant qu'OpenAI et Anthropic accaparaient les gros titres, et ce dernier modèle phare—disponible via des agrégateurs comme OpenRouter—arrive avec une prétention crédible au raisonnement multilingue de premier ordre et une fenêtre contextuelle d'un million de tokens qui fonctionne réellement. Si votre flux de travail touche les marchés chinois, traite du contenu alternant les langues, ou exige une synthèse de contexte véritablement long au-delà des démos de résumé habituelles, ce modèle mérite un examen plus approfondi que ne le suggérerait sa notoriété occidentale relativement faible.

La désignation "3.7" s'inscrit maladroitement dans un monde où tout le monde claironne le nombre de paramètres. Alibaba n'a pas divulgué la taille de l'architecture, ce qui signale généralement soit un modèle de base plus petit que prévu avec un post-entraînement agressif, soit une conception de mélange d'experts où les chiffres d'annonce induisent en erreur. Ce qui compte, c'est que Qwen niveau Max rivalise avec les performances de classe GPT-4 sur les tâches en langue chinoise tout en tenant bon en anglais, avec des capacités d'utilisation d'outils et une fenêtre contextuelle qui surpasse la plupart de ses pairs. C'est un tarif premium—vous n'économisez pas par rapport à Claude 3.5 Sonnet ou GPT-4—mais vous achetez l'accès à des capacités que les trois grands ne privilégient pas.

Capacités et lignée d'entraînement

L'évolution de Qwen remonte au besoin d'Alibaba de servir le commerce électronique chinois, l'infrastructure cloud et la modération de contenu à grande échelle. Les premiers modèles Qwen étaient compétents mais quelconques ; la série 2.5 a commencé à attirer l'attention des chercheurs travaillant sur des benchmarks multilingues. Avec la version 3.7, l'équipe a clairement investi dans la fidélité au suivi d'instructions, l'intégration d'outils et le type de post-entraînement qui donne à un modèle l'impression d'être prêt pour la production plutôt qu'un artefact de recherche.

La fenêtre contextuelle d'un million de tokens est la fonctionnalité vedette, mais les fenêtres contextuelles sont l'endroit où le marketing diverge le plus souvent de la réalité. Qwen 3.7 Max démontre un rappel et une synthèse véritables sur des documents de 200K à 500K tokens—au-delà de ça, vous observez la dégradation typique où le modèle "sait" que l'information est présente mais peine à la récupérer précisément. L'avantage pratique est réel : vous pouvez déposer un dossier réglementaire entier, un module de base de code complet, ou une suite de contrats bilingues dans une seule invite et obtenir une analyse cohérente sans stratégies de découpage. Cela le place devant les 128K annoncés de GPT-4 Turbo (qui plafonne effectivement autour de 80K pour un raisonnement complexe) et à peu près à égalité avec les 200K de Claude 3.5 Sonnet, bien que Claude garde encore une longueur d'avance sur le suivi d'instructions nuancé dans cette fenêtre.

Là où Qwen se distingue, c'est dans l'alternance codique chinois-anglais et la capacité à raisonner sur le mélange linguistique. Si vous travaillez sur l'assurance qualité de localisation, traduisez du contenu marketing qui intègre des références culturelles, ou construisez des agents qui servent des marchés où le mandarin et l'anglais s'entremêlent naturellement, Qwen gère la tâche avec moins d'assistance. Le modèle ne se contente pas de traduire—il comprend le registre, les changements de formalité et quand un terme doit rester non traduit parce que forcer l'équivalence brise le sens. Ce n'est pas exotique : ce sont les bases pour la fintech sud-est asiatique, les plateformes de commerce électronique transfrontalier et tout développeur servant les communautés diasporiques.

Le support de l'utilisation d'outils signifie que Qwen peut router vers des appels de fonction, suivre des schémas de sortie structurés et enchaîner le raisonnement à travers les frontières d'API. La qualité d'implémentation compte ici plus que la fonctionnalité cochée, et Qwen se situe dans le niveau "suffisamment fiable pour la production avec des garde-fous normaux". Ce n'est pas aussi poli que l'appel de fonctions de GPT-4, qui a eu deux ans d'endurcissement dans le monde réel, mais c'est nettement mieux que les modèles open-weight où l'utilisation d'outils ressemble encore à un tour de passe-passe. Vous écrirez du code d'analyse défensif et validerez les sorties, mais vous le faites de toute façon.

Où Qwen 3.7 Max excelle

Le point fort évident est le développement de produits bilingues où le chinois n'est pas une réflexion après coup. Vous construisez un agent de support client pour une plateforme avec des utilisateurs en Chine continentale ? Qwen gère les requêtes en mandarin avec la même profondeur de raisonnement qu'il apporte à l'anglais, et il comprend le contexte culturel qui rend les interactions de service client chinois différentes—l'indirection, les signaux hiérarchiques, l'importance du langage préservant la face. Vous n'expédiez pas une couche de traduction sur un modèle anglais d'abord ; vous travaillez avec un système qui pense dans les deux langues nativement.

Les flux de travail d'analyse de longs documents sont le deuxième ajustement naturel. Révision de contrats juridiques, synthèse de documents de conformité, enquêtes de littérature de recherche—toute tâche où vous découpiez auparavant des documents, les intégriez et priiez pour que votre système de récupération trouve les bons passages—peut souvent s'effondrer en une seule invite avec la fenêtre contextuelle de Qwen. Un fonds de capital-risque analysant des mémos d'investissement sur des présentations de 50 pages, une équipe réglementaire recoupant des documents de politique avec des directives internes, une équipe de recherche synthétisant des résultats d'une pile de papiers académiques : ces flux de travail deviennent matériellement plus simples quand vous pouvez tout charger dans le contexte et laisser le modèle établir des connexions. Le plafond de qualité est inférieur à l'examen d'expert humain, mais le plancher de vitesse est bien plus élevé que les équipes parcourant manuellement les documents.

La génération et révision de code pour les équipes travaillant à travers les frameworks occidentaux et les dépendances chinoises est une autre application pratique. L'écosystème d'Alibaba signifie que Qwen a vu d'énormes volumes de code important des bibliothèques Baidu, des SDK Tencent et des projets open-source chinois qui apparaissent rarement dans les ensembles d'entraînement occidentaux. Si vous construisez une intégration avec WeChat Pay, travaillez avec des fournisseurs cloud chinois, ou déboguez des problèmes dans des bases de code qui mélangent des noms de variables anglais avec des commentaires chinois, Qwen comprend le contexte mieux que les modèles entraînés principalement sur la majorité anglophone de GitHub.

La modération de contenu et la classification de sécurité pour les plateformes opérant en Chine ou servant des utilisateurs chinois exigent de comprendre ce qui déclenche le risque réglementaire, les sensibilités culturelles autour de Taiwan/Hong Kong/Xinjiang, et les nuances de l'argot internet chinois qui évolue pour contourner la censure. L'entraînement de Qwen intègre ces réalités. Cela coupe dans les deux sens—si vous construisez des systèmes qui doivent naviguer les exigences réglementaires chinoises, Qwen comprend les frontières. Si vous construisez des systèmes opposés à ces exigences, eh bien, intégrez ça dans votre sélection de modèle.

Où il ne convient pas

Qwen 3.7 Max est au prix premium sans offrir le polish ou la maturité d'écosystème des trois grands. Si votre cas d'usage est uniquement anglais, et que vous construisez sur des patterns standard OpenAI/Anthropic, il y a peu de raison d'ajouter OpenRouter comme dépendance et de gérer un modèle moins documenté. Claude 3.5 Sonnet bat Qwen sur le suivi d'instructions nuancé, la qualité d'écriture créative et le type de raisonnement "comprend ce que je voulais dire, pas ce que j'ai dit" qui rend le prototypage magique. GPT-4 a infiniment plus de connaissances communautaires, de fils de dépannage et de tests de bataille en production.

L'avantage de fenêtre contextuelle s'évapore si votre flux de travail repose déjà sur la recherche vectorielle et la génération augmentée par récupération. Les invites d'un million de tokens sont coûteuses dans tous les cas, et si vous avez construit un pipeline RAG fonctionnel qui fait remonter les morceaux pertinents, la valeur incrémentale de tout déposer dans le contexte justifie rarement la latence et le coût. Les modèles à contexte long brillent quand les documents ont des références croisées denses, quand la tâche requiert une synthèse globale plutôt qu'une extraction locale, ou quand vous prototypez et voulez sauter l'étape d'infrastructure. Pour les systèmes de production à grande échelle, les architectures RAG restent moins chères et plus déboguables.

Les domaines hautement spécialisés où la distribution d'entraînement du modèle ne chevauche pas votre tâche verront des résultats médiocres. Extraction d'entités biomédicales, raisonnement mathématique avancé, juridictions légales de niche en dehors de la Chine—Qwen est un modèle frontière généraliste avec des forces multilingues chinoises, mais il n'est pas ajusté au domaine. Si vous êtes dans un espace où des modèles dédiés existent, ou où le fine-tuning est pratique, les capacités de base de Qwen ne combleront pas l'écart de domaine.

L'IA conversationnelle en temps réel où la latence compte trouvera les temps de réponse de Qwen non compétitifs avec les fournisseurs optimisés. Les agrégateurs comme OpenRouter ajoutent des sauts de réseau, et l'infrastructure de Qwen n'est pas ajustée pour la latence de premier token sub-seconde qui rend les chatbots réactifs. Traitement par lots, flux de travail asynchrones, systèmes d'agents où quelques secondes supplémentaires par appel n'importent pas—bien. Chat client en direct où les utilisateurs remarquent un délai de deux secondes—mauvais outil.

Comparaison avec les pairs

Face à GPT-4 et Claude 3.5 Sonnet, Qwen échange la maturité d'écosystème et le polish en langue anglaise contre une profondeur multilingue et un contexte long qui semble moins être une fonctionnalité greffée. Dans les benchmarks anglais uniquement, il traîne de quelques points de pourcentage sur les tâches de raisonnement, beaucoup plus sur l'écriture créative et l'humour. Dans les tâches chinoises ou alternant les codes, il mène d'une marge similaire. Si 30 % de votre charge de travail est adjacente au chinois, ce calcul penche dans la direction de Qwen. Si c'est 5 %, non.

DeepSeek et d'autres modèles frontières chinois offrent des capacités multilingues similaires, souvent à des prix inférieurs ou avec des poids ouverts. DeepSeek V3 en particulier est devenu la référence pour les équipes voulant un support de langue chinoise sans tarification premium. L'avantage de Qwen est la maturité—il est en production à travers les vastes cas d'usage internes d'Alibaba depuis plus longtemps, et cela se voit dans la fiabilité et la gestion des cas limites. Vous payez pour cette stabilité.

Comparé à Gemini 1.5 Pro, qui annonce aussi une fenêtre d'un million de tokens, Qwen tient bien sur les performances réelles de contexte long mais reste en retrait sur le raisonnement multimodal et le type de connaissance du monde large que fournit l'échelle d'entraînement de Google. Gemini est le meilleur généraliste si vous avez besoin d'un support chinois occasionnel dans un flux de travail principalement anglais/global. Qwen est le meilleur spécialiste si la qualité de la langue chinoise est une exigence de première classe.

Coût et disponibilité

Qwen 3.7 Max se situe dans le niveau premium—coûts par token comparables à GPT-4 Turbo ou Claude 3.5 Sonnet, ce qui signifie qu'il est cher pour les applications à haut volume. Le modèle d'agrégateur d'OpenRouter signifie que vous payez une petite marge en plus des coûts d'API de base, mais vous gagnez la flexibilité de router entre fournisseurs et modèles sans réarchitecturer. Pour les équipes qui utilisent déjà OpenRouter, ajouter Qwen à la rotation de modèles est trivial. Pour les équipes qui ne l'utilisent pas, la surcharge d'infrastructure compte.

L'accès direct aux modèles Qwen via Alibaba Cloud est possible mais nécessite de naviguer l'intégration de fournisseur cloud chinois, ce qui introduit une complexité de conformité et opérationnelle pour les équipes non chinoises. OpenRouter agit comme une couche d'abstraction qui vaut le coût si votre flux de travail n'a pas besoin de la dépense par token absolument la plus basse. La structure tarifaire signifie que Qwen a du sens pour les flux de travail où la qualité du modèle impacte directement la valeur business—analyse de contrats où les erreurs sont coûteuses, génération de contenu où la qualité chinoise est un différenciateur, systèmes d'agents où la fiabilité d'utilisation d'outils réduit la charge d'ingénierie.

Ce n'est pas un modèle pour les tâches de scraping, la classification à haut volume, ou partout où vous pensez aux tokens par dollar comme métrique principale. La fenêtre contextuelle tente les gens vers des patterns "déposer tout et poser des questions" qui brûlent le budget rapidement. Utilisez-le là où la synthèse et la qualité de raisonnement comptent, et où l'alternative est d'embaucher des humains ou d'accepter une qualité inférieure.

Verdict

Qwen 3.7 Max gagne une place dans la boîte à outils de production pour une tranche spécifique mais substantielle de développeurs : ceux qui construisent pour les marchés chinois, ceux qui travaillent avec des documents véritablement longs où les stratégies de découpage échouent, et ceux qui ont atteint le plafond de ce que les modèles anglais d'abord peuvent faire avec du contenu multilingue. Ce n'est pas un remplaçant de GPT-4 pour les flux de travail anglais uniquement, et ce n'est pas une option budget pour les équipes optimisant le coût. C'est un modèle spécialiste qui rivalise à la frontière dans ses domaines de force.

Le jeu intelligent est de traiter Qwen comme un modèle dans un portefeuille plutôt qu'un pari de plateforme. Routez les requêtes en langue chinoise vers Qwen, les tâches créatives en anglais vers Claude, la classification sensible aux coûts vers des modèles plus petits, et utilisez l'architecture d'agrégateur d'OpenRouter pour rendre ce routage transparent à votre couche application. Les équipes tirant valeur de Qwen sont celles qui ont déjà épuisé ce que les trois grands offrent et ont besoin de quelque chose que l'écosystème IA occidental ne privilégie pas.

L'investissement d'Alibaba dans les modèles frontières multilingues n'est pas de la charité—il reflète une demande réelle de marchés que les fournisseurs d'IA dominants en anglais traitent comme une réflexion après coup. À mesure que ces marchés croissent et que les produits numériques transfrontaliers deviennent la norme plutôt que l'exception, les modèles comme Qwen 3.7 Max cessent d'être exotiques et commencent à être une infrastructure nécessaire. Que cela arrive le trimestre prochain ou l'année prochaine dépend de votre base d'utilisateurs, mais la capacité existe maintenant, tarifée et emballée pour un usage en production. C'est l'histoire qui vaut la peine d'être comprise.

Qwen 3.7 Max — illustration 2
Dernier test automatisé
9 juin 2026 · 20:03 UTC · Benchmark de vitesse
Latence P50
869 ms
Latence P95
915 ms
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·24 mai 2026