Aller au contenu
LLM open source en local : quel modèle pour quel GPU en 2026

LLM open source en local : quel modèle pour quel GPU en 2026

Par Thomas R.

9 min de lecture
Lien copié dans le presse-papiers
Thomas R.

Qwen3-30B-A3B tourne sur une RTX 4090 en Q4 avec dix-sept Go de VRAM occupés et crache quarante tokens par seconde. Il y a dix-huit mois, faire tourner un modèle de cette qualité en local sur du hardware grand public relevait de la science-fiction. Le paysage a changé. Pas grâce à un seul modèle, mais parce que cinq labos se sont mis à publier des modèles open source compétitifs en même temps.

Ce comparatif fait le tri. Quels modèles tournent sur quel GPU, à quelle vitesse, et avec quelles concessions. Pas de théorie, que du mesurable.

Les modèles qui comptent en avril 2026#

Le marché open source s'est structuré en un an. Voici les modèles pertinents pour l'inférence locale, classés par VRAM requise croissante.

Gemma 3 (Google DeepMind)#

Sorti en mars 2025. Dense, quatre tailles (1B, 4B, 12B, 27B), multimodal à partir de 4B. Google a publié des checkpoints QAT (Quantization-Aware Trained) en INT4 directement sur Hugging Face et Kaggle. Pas besoin de quantifier soi-même, les modèles sont entraînés pour tourner en quatre bits sans dégradation mesurable.

Benchmark en main : Gemma 3 27B QAT, 14,1 Go de VRAM. Une RTX 3090 ou 4090 le fait tourner sans forcer. Gemma 3 12B QAT, 6,6 Go. Une RTX 4060 laptop avec huit Go de VRAM suffit. Pour un premier LLM local, c'est le point d'entrée le plus propre du marché.

MMLU-Pro 67,5 sur le 27B. Correct sans être au sommet. Le vrai argument, c'est le ratio performance/VRAM.

Qwen 3 (Alibaba)#

Sorti le 29 avril 2025, huit tailles d'un coup. Deux architectures : dense (0,6B à 32B) et MoE. Le Qwen3-30B-A3B (trente milliards de paramètres totaux, trois milliards actifs) est le modèle le plus intéressant pour le local. En Q4, il tient dans dix-sept Go. Contexte de 128K tokens, extensible à 256K via YaRN.

Le Qwen3-235B-A22B (235 milliards totaux, 22 milliards actifs) rivalise avec DeepSeek-R1 et GPT o1 sur les benchmarks. Mais il demande 117 à 143 Go en Q4. Multi-GPU obligatoire, ou un Mac M4 Max 128 Go avec marge serrée.

Licence Apache 2.0. Usage commercial libre.

DeepSeek R1 (distillations)#

Le modèle complet de DeepSeek R1 pèse 671 milliards de paramètres en MoE, 37 milliards actifs. Oubliez le local. Mais les distillations changent la donne.

DistillationParamètresVRAM Q4Vitesse RTX 4060Usage type
R1-Distill-7B7B~5 Go40-60 tok/sPrototypage rapide, chatbot simple
R1-Distill-14B14B~9 Go25-35 tok/sCode, raisonnement basique
R1-Distill-32B32B~20 Go28-45 tok/s (RTX 4090)Raisonnement avancé, analyse

Le R1-Distill-32B affiche 79,8 % sur MATH-500. Le modèle complet monte à 97,3 %. La distillation perd en raisonnement pur mais reste largement au-dessus de la plupart des modèles de même taille.

Mistral Small 3.2 et Mistral Large 3#

Mistral Small 3.2 (juin 2025) : 24 milliards de paramètres, dense, Apache 2.0. HumanEval+ à 92,9 %, ce qui en fait un bon choix pour le code. Contexte de 130K tokens. En Q4, comptez quinze Go. Une RTX 4090 le gère, un MacBook Pro 32 Go aussi.

Mistral Large 3 (décembre 2025) : 675 milliards de paramètres totaux en MoE granulaire, 41 milliards actifs. Contexte 256K. Accompagné de neuf modèles Ministral 3 (3B, 8B, 14B en versions Base, Instruct, Reasoning). Le Ministral 3 8B Instruct est un candidat sérieux pour les machines modestes. Apache 2.0 sur toute la gamme.

Llama 4 Scout et Maverick (Meta)#

Scout (avril 2025) : 109 milliards de paramètres totaux, 17 milliards actifs, seize experts MoE. Contexte de dix millions de tokens. Multimodal natif. En Q4, environ 55 Go. Aucun GPU grand public ne tient ça seul. Il faut soit du multi-GPU, soit un Mac avec beaucoup de RAM unifiée, soit du offloading CPU (et là, l'inférence devient inutilisable).

Maverick : 400 milliards totaux, 128 experts. 245 Go minimum. Cloud ou rien.

Behemoth (deux trillions de paramètres annoncés) : toujours en entraînement en avril 2026. Meta a repoussé la sortie en mai 2025 et n'a pas communiqué de nouvelle date.

La licence Llama 4 Community autorise l'usage commercial sous 700 millions d'utilisateurs actifs mensuels.

Phi-4 Reasoning (Microsoft)#

Quatorze milliards de paramètres, dense. Le Phi-4 Reasoning Plus affiche 82,5 % sur AIME 2025, ce qui surpasse DeepSeek-R1-Distill-70B. Le problème : 28 à 29 Go en quantifié. Ça passe sur une RTX 5090 (32 Go), pas sur une RTX 4090 (24 Go). Licence MIT.

Quel GPU pour quel modèle#

Le marché GPU a bougé. La gamme RTX 50 est sortie entre janvier et février 2025, mais la RTX 5090 a souffert de pénurie sévère avec des prix secondaires entre 2 500 et 3 200 dollars.

GPUVRAMPrix MSRPModèles locaux viables en Q4
RTX 507012 Go GDDR7549 $Qwen3-8B, Gemma 3 12B QAT, DeepSeek-R1-Distill-7B
RTX 5070 Ti / 508016 Go GDDR7749-999 $Phi-4, DeepSeek-R1-Distill-14B, Ministral 3 14B
RTX 409024 Go GDDR6X~1 300 $ (occasion)Qwen3-30B-A3B, Gemma 3 27B QAT, DeepSeek-R1-Distill-32B
RTX 509032 Go GDDR71 999 $Tout ce qui précède + Phi-4 Reasoning Plus, Mistral Small 3.2
2x RTX 409048 Go~2 600 $Llama 3.3 70B Q4, Qwen3-32B FP16

La RTX 4090 reste la référence pour le local en 2026 sur les modèles jusqu'à 30-32 milliards de paramètres. La RTX 5090 avec ses 32 Go ouvre la porte à Phi-4 Reasoning et aux modèles denses de 24-28B en pleine précision Q4. Mais à 2 000 dollars MSRP (et souvent plus en réalité), le rapport qualité-prix n'est pas toujours au rendez-vous.

Apple Silicon : la surprise du chef#

Les Mac avec puce M4 Max (128 Go de RAM unifiée, 546 Go/s de bande passante) font tourner des modèles que deux RTX 4090 ne gèrent pas. Le Qwen3-235B-A22B en Q4 (~117 Go) passe sur un M4 Max 128 Go. MLX, le framework d'inférence natif Apple, mesure jusqu'à 230 tokens par seconde en soutenu, contre 150 pour llama.cpp et 20 à 40 pour Ollama sur la même machine.

Le M4 Ultra (192 Go, ~820 Go/s estimés) fait tourner Llama 4 Scout Q4 (55 Go) confortablement.

Mon premier réflexe d'assembleur PC m'a longtemps fait ignorer les Mac pour ce genre d'usage. Les chiffres ne mentent pas : pour les gros modèles, la RAM unifiée Apple bat le multi-GPU Nvidia en simplicité et souvent en débit. C'est un constat, pas une pub.

Les outils d'inférence en 2026#

Ollama#

Toujours le point d'entrée le plus simple. Une commande, un modèle qui tourne. Le scheduler multi-GPU a été refondu en 2025, la gestion des OOM s'est améliorée. Supporte 45 000 checkpoints GGUF publics sur Hugging Face. La quantification recommandée reste Q4_K_M (92 % de la qualité préservée selon les tests internes).

ollama pull qwen3:30b-a3b
ollama run qwen3:30b-a3b

Dix-sept Go de téléchargement. Sur une RTX 4090, ça tourne en moins d'une minute.

LM Studio 0.4.0#

La version 0.4.0 (janvier 2026) a ajouté le continuous batching, un mode headless déployable sans GUI, et une API REST stateful avec support MCP local. LM Link (février 2026) permet la connexion remote chiffrée via Tailscale. La licence commerciale est désormais gratuite.

Pour quelqu'un qui veut une interface graphique sans ouvrir un terminal, c'est le meilleur choix.

llama.cpp et MLX#

llama.cpp maintient le format GGUF comme standard. Les quantifications descendent jusqu'à 1,5 bit. Pour du fine-tuning de la quantification (Q4_K_M vs Q5_K_S vs Q3_K_L), c'est l'outil de référence. Performances Apple Silicon : environ 150 tokens par seconde.

MLX (Apple) le bat sur Mac : 230 tokens par seconde en soutenu, 21 à 87 % de throughput supérieur à llama.cpp selon les tailles de modèle. Le projet vllm-mlx ajoute le continuous batching sur Metal. Si vous êtes sur Mac, MLX est le bon choix. Sur Nvidia, llama.cpp ou Ollama.

Open source vs propriétaire : l'écart se réduit#

En avril 2026, le meilleur modèle open source (GLM-5 Reasoning) affiche un score de 82 sur l'Intelligence Index d'Artificial Analysis. Le meilleur propriétaire (GPT-5.4 Pro) atteint 92. Dix points d'écart. Mi-2024, l'écart était de 25 à 30 points.

Les modèles open source ne rivalisent pas encore avec les meilleurs modèles propriétaires sur les tâches de raisonnement complexe. Mais pour le code, la rédaction, l'analyse de documents et les tâches quotidiennes, un Qwen3-30B-A3B ou un DeepSeek-R1-Distill-32B en local fait le travail sans envoyer vos données à un tiers. Dans un contexte où la souveraineté numérique européenne est un sujet brûlant, c'est un argument qui pèse.

L'inférence locale n'est pas gratuite. Un GPU qui tourne en continu consomme entre 200 et 450 watts, et quand on voit les enjeux énergétiques de l'IA à l'échelle industrielle, la question de la consommation n'est pas anecdotique. La latence est supérieure aux API cloud optimisées sur des clusters de H100. Et les modèles évoluent vite : ce qui est optimal aujourd'hui sera dépassé dans six mois. C'est un hobby de power user, pas une solution clé en main. Du moins pas encore.

Mon verdict#

Pour un premier LLM local : Gemma 3 27B QAT via Ollama. 14,1 Go, RTX 3090 ou 4090, ça tourne tout de suite.

Pour le meilleur rapport performance/VRAM : Qwen3-30B-A3B en Q4. Dix-sept Go, architecture MoE efficace, Apache 2.0, 128K de contexte. C'est mon choix par défaut en avril 2026.

Pour le raisonnement : DeepSeek-R1-Distill-32B si vous avez 20 Go de VRAM. Phi-4 Reasoning Plus si vous avez 32 Go (RTX 5090).

Pour les Mac M4 Max/Ultra : visez plus haut. Qwen3-235B-A22B via MLX. Le hardware le justifie.

Ne commencez pas par Llama 4 Scout. Le contexte de dix millions de tokens est impressionnant sur le papier, mais 55 Go de VRAM minimum en Q4, c'est hors de portée de la plupart des setups grand public. Sauf si vous avez un Mac M4 Ultra sous le bureau, auquel cas vous n'avez probablement pas besoin de mes conseils.

Sources#

Lien copié dans le presse-papiers

À lire aussi