DevGuide

Comment installer Qwen 3.7 en local avec Ollama (2026)

Sur cette page
  1. Peut-on faire tourner Qwen 3.7 en local maintenant ?
  2. Le chemin le plus rapide : Ollama
  3. Choisissez la bonne taille pour votre matériel
  4. La quantification, en une minute
  5. Les autres façons de le faire tourner
  6. Utilisez-le depuis votre code
  7. Quand les poids ouverts de Qwen 3.7 arriveront
  8. Sources et pour aller plus loin

Vous avez cherché comment installer Qwen 3.7 en local, alors voici la réponse honnête d'emblée : ce n'est pas possible, pas encore. Qwen 3.7 Max et Plus sont des modèles à poids fermés, accessibles uniquement par API, et Alibaba n'a pas publié de poids ouverts pour la gamme 3.7. La bonne nouvelle est double. Le Qwen ouvert le plus récent, la version 3.6, est excellent, tourne sur votre propre machine dès aujourd'hui, et s'installe en une commande avec Ollama. Et l'habitude d'Alibaba est de publier les poids ouverts trois à quatre semaines après l'API, ce qui place les poids de Qwen 3.7 vers le milieu de 2026 ; quand ils sortiront, ce guide fonctionnera en changeant un seul mot. Faisons donc tourner un vrai Qwen, privé et gratuit, maintenant, prêt à passer en 3.7 le jour où il arrive.

The short answer

Qwen 3.7 Max et Plus sont fermés et accessibles seulement par API : il n'y a donc pas encore de poids 3.7 à faire tourner en local. Les poids ouverts suivent l'API de trois à quatre semaines en général. Aujourd'hui, installez Ollama et lancez Qwen 3.6, le Qwen ouvert le plus récent : ollama run qwen3.6:27b. Choisissez une taille adaptée à votre VRAM, et quand les poids 3.7 sortiront, changez simplement le tag en qwen3.7.

qwen3.6le Qwen ouvert le plus récent
3 commandesinstaller, télécharger, discuter
Apache 2.0gratuit, privé, hors ligne
Carte de réponse : les poids ouverts de Qwen 3.7 ne sont pas encore sortis, donc on fait tourner le Qwen ouvert le plus récent (3.6) avec Ollama, on choisit une taille selon la VRAM, on utilise la quantification Q4_K_M, et on change le tag en qwen3.7 quand ses poids ouverts arrivent.
Le chemin honnête : faire tourner Qwen 3.6 ouvert maintenant en une commande, passer en 3.7 le jour où ses poids tombent. PNG

La version cloud de Qwen 3.7 est vraiment solide, et si vous n'avez besoin que d'une API, notre comparatif Qwen 3.7 Max vs GPT-5.5 en parle. Mais faire tourner un modèle sur sa propre machine est un objectif différent : génération gratuite sans compteur, confidentialité totale, et ça marche dans un avion. Le hic, comme dit plus haut, c'est que la gamme 3.7 est fermée pour l'instant. Ce guide fait donc la chose utile : il met le Qwen ouvert le plus récent en local dès aujourd'hui, d'une façon qui devient un guide 3.7 dès qu'Alibaba publie ces poids. Pas de théorie, juste les commandes.

Peut-on faire tourner Qwen 3.7 en local maintenant ?

Réponse courte, non, et il vaut la peine de dire pourquoi. Alibaba sort ses paliers phares (Max et Plus) en modèles fermés, accessibles d'abord par API seulement, puis publie les poids ouverts de la gamme quelques semaines plus tard. Qwen 3.6 a suivi exactement ce chemin. Les poids ouverts de Qwen 3.7 ne sont donc pas une question de si, mais de quand, et le motif pointe vers le milieu de 2026.

En attendant, Qwen 3.6 est le Qwen ouvert le plus récent, et ce n'est pas un lot de consolation. Il arrive avec la vision (entrée texte et image), une fenêtre de contexte de 256K tokens, et un solide codage agentique, le tout sous la licence permissive Apache 2.0. Il est sur Ollama dès maintenant. Tout ce qui suit utilise la 3.6, et la seule chose qui change pour la 3.7 est un mot dans une commande.

Le chemin le plus rapide : Ollama

Ollama est le moyen le plus rapide de passer de rien à un modèle qui tourne. Il regroupe le moteur d'inférence, une bibliothèque de modèles et une API locale derrière une seule commande. Installez-le, puis téléchargez et discutez avec un modèle en une ligne.

# macOS et Linux (Windows a un installeur classique sur ollama.com)
curl -fsSL https://ollama.com/install.sh | sh

# télécharge et lance le Qwen ouvert le plus récent, puis tapez au prompt
ollama run qwen3.6:27b

Cette deuxième commande télécharge le modèle la première fois (environ 17 Go pour le 27B), puis vous dépose dans un prompt de chat. Tapez un message, ou /bye pour sortir. Le modèle reste sur le disque, donc le lancement suivant est instantané et totalement hors ligne.

Terminal : installer Ollama avec le script officiel, puis ollama run qwen3.6:27b pour télécharger et discuter avec le Qwen ouvert le plus récent, un qwen3:8b plus léger pour les petites machines, et une note indiquant que ollama run qwen3.7 marchera dès que ses poids ouverts sortiront.
Installer, télécharger, discuter. Les mêmes trois étapes feront tourner la 3.7 le jour où ses poids sont publics. PNG

Choisissez la bonne taille pour votre matériel

L'erreur la plus courante est de télécharger un modèle trop gros pour sa machine, qui échoue ou rame. Associez le modèle à votre VRAM (ou à la mémoire unifiée sur Apple Silicon), à la quantification Q4_K_M par défaut. Qwen 3.6 est un gros modèle, donc pour les machines plus légères, les modèles denses Qwen 3, plus anciens mais toujours excellents, conviennent mieux.

Votre matériel (VRAM ou RAM unifiée)À lancerTéléchargement
8 Go (RTX 3060/4060, Apple M 8 Go)ollama run qwen3:8b~5 Go
12 Goollama run qwen3:14b~9 Go
16 à 24 Go (RTX 4090/3090, Apple 24 Go)ollama run qwen3.6:27b17 Go
24 Go et plus (ou Apple 32 Go+)ollama run qwen3.6:35b24 Go
Apple Silicon, build optimiséollama run qwen3.6:35b-mlx22 Go

Une bonne règle : le 8B est le point d'équilibre qui joue au-dessus de sa catégorie pour le code et le chat du quotidien, le 14B est un net cran au-dessus en raisonnement, et le Qwen 3.6 27B est là où vous sentez une qualité proche du haut de gamme si votre matériel peut le tenir. Dans le doute, commencez un cran en dessous de ce que vous pensez pouvoir faire tourner, puis montez.

La quantification, en une minute

La quantification réduit les poids d'un modèle à moins de bits pour qu'il tienne dans moins de mémoire. Vous verrez des tags comme Q4, Q5, Q6 et Q8. Celui à utiliser est Q4_K_M : il divise la mémoire par environ deux par rapport au modèle complet en perdant moins d'un pour cent sur les benchmarks, d'où le choix par défaut d'Ollama. Montez plus haut (Q6, Q8) seulement si vous avez de la mémoire à revendre et voulez la dernière miette de qualité. Si vous utilisez de longs contextes et manquez de mémoire, quantifier aussi le cache KV récupère une marge surprenante.

Les autres façons de le faire tourner

Ollama est le défaut facile, mais ce n'est pas la seule porte.

  • LM Studio est une appli de bureau soignée avec un navigateur de modèles visuel et une fenêtre de chat. Si vous préférez cliquer que taper, commencez ici ; elle fait tourner les mêmes modèles GGUF.
  • llama.cpp est le moteur sous la plupart de ces outils. Utilisez-le directement quand vous voulez le contrôle maximal, des options personnalisées, ou faire tourner un GGUF précis depuis Hugging Face avec huggingface-cli.
  • vLLM et SGLang servent en production, beaucoup d'utilisateurs, gros débit. Ils demandent un GPU CUDA, donc sur Mac on reste sur Ollama ou LM Studio.

Pour la plupart des gens qui lisent ceci, Ollama au quotidien et LM Studio quand on veut une interface graphique couvrent tout.

Utilisez-le depuis votre code

C'est ce qui rend un modèle local vraiment utile : Ollama sert une API compatible OpenAI sur http://localhost:11434/v1. Votre client OpenAI existant marche donc en changeant l'URL de base et le nom du modèle.

from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
resp = client.chat.completions.create(
    model="qwen3.6:27b",
    messages=[{"role": "user", "content": "Refactor this function"}],
)
print(resp.choices[0].message.content)

C'est toute l'intégration. Comme le Qwen cloud et OpenAI parlent aussi ce format, vous pointez le même code vers un modèle local, une API Qwen ou un autre fournisseur en changeant deux lignes, ce qui rend le test du local contre le cloud presque gratuit.

Quand les poids ouverts de Qwen 3.7 arriveront

Voici la récompense de faire ça maintenant. Quand Alibaba publiera les poids ouverts de Qwen 3.7, Ollama ajoutera un tag qwen3.7 en quelques jours. À ce moment-là, vous changez exactement une chose :

ollama run qwen3.7

Votre installation, votre logique de taille, votre choix de quantification et votre code restent identiques. Installez donc la 3.6 aujourd'hui, prenez vos marques, et la mise à niveau sera un simple téléchargement. Si vous voulez, gardez un oeil sur la bibliothèque Qwen d'Ollama pour voir apparaître le tag.

Sources et pour aller plus loin

Questions fréquentes

Peut-on faire tourner Qwen 3.7 en local maintenant ?

Pas encore. Qwen 3.7 Max et Plus sont des modèles à poids fermés, accessibles uniquement par API, il n'y a donc aucun poids 3.7 à télécharger. L'habitude d'Alibaba est de publier les poids ouverts environ trois à quatre semaines après l'API, ce qui situe les poids ouverts de Qwen 3.7 vers le milieu de 2026. En attendant, faites tourner Qwen 3.6, le Qwen ouvert le plus récent, déjà disponible sur Ollama et très capable. Dès que les poids 3.7 apparaissent, vous changez un mot dans la commande : ollama run qwen3.6 devient ollama run qwen3.7, et tout le reste de ce guide est identique.

Quel matériel faut-il pour faire tourner Qwen en local ?

Ça dépend de la taille du modèle et de votre VRAM ou mémoire unifiée. En repère, à la quantification Q4_K_M : 8 Go font tourner un modèle 8B, 12 Go un 14B, 16 à 24 Go le Qwen 3.6 27B, et 24 Go ou plus le 35B en mixture-of-experts. Apple Silicon compte sa mémoire unifiée de la même façon, et il existe des builds MLX optimisés pour. On peut tourner sur processeur sans GPU, mais c'est lent ; un GPU ou un Mac Apple Silicon est ce qui rend le Qwen local agréable.

Quelle différence entre Ollama, LM Studio et llama.cpp ?

Ce sont des couches de la même pile. llama.cpp est le moteur d'inférence qui exécute réellement le modèle depuis un fichier GGUF, avec le plus de contrôle et de réglages. Ollama enveloppe ce moteur dans une installation en une ligne, une bibliothèque de modèles et une API intégrée, d'où le démarrage le plus rapide. LM Studio est une appli de bureau conviviale avec un navigateur de modèles graphique et une fenêtre de chat, idéale si vous préférez ne pas toucher au terminal. Pour servir en production à l'échelle, on passe aux trois pour viser vLLM ou SGLang, qui demandent un GPU CUDA.

Faire tourner Qwen en local, est-ce gratuit et privé ?

Oui sur les deux points, et c'est tout l'intérêt. Les modèles Qwen à poids ouverts sont publiés sous la licence permissive Apache 2.0, donc gratuits à faire tourner et compatibles avec un usage commercial, contrairement au Qwen 3.7 Max fermé. Et comme le modèle tourne sur votre propre machine, rien de ce que vous tapez ou générez n'en sort, sans connexion internet une fois le modèle téléchargé. Cette confidentialité est la raison principale pour laquelle des équipes font tourner un modèle local même quand un modèle cloud est un peu plus fort.

Comment appeler mon Qwen local depuis du code ?

Ollama expose une API compatible OpenAI sur http://localhost:11434/v1, donc vous pointez votre client OpenAI existant vers cette URL de base et utilisez le nom du modèle, par exemple qwen3.6. Passer d'un modèle cloud à votre modèle local est souvent un changement de deux lignes : l'URL de base et le modèle. La même astuce marche dans l'autre sens, ce qui vous permet de comparer un Qwen local à un modèle cloud sans réécrire votre application.