Comment installer et exécuter DeepSeek AI sur Ubuntu/Debian (sans GPU)
DeepSeek est un modèle d’IA de pointe conçu pour le traitement du langage naturel, offrant de puissantes capacités telles que la génération de texte, la synthèse et le raisonnement. Il peut fonctionner localement sur Linux, ce qui en fait un excellent choix pour les utilisateurs qui souhaitent la confidentialité, le contrôle et un accès hors ligne à l’IA.
L’un des points forts de DeepSeek est sa flexibilité : bien qu’il puisse fonctionner sur des systèmes équipés uniquement d’un processeur, les performances sont considérablement améliorées lors de l’utilisation d’un GPU dédié. Sur un processeur, les temps de réponse peuvent être plus lents et les modèles plus grands peuvent nécessiter une RAM importante. Avec un GPU, DeepSeek peut générer des réponses beaucoup plus rapidement en exploitant le traitement parallèle, ce qui rend les interactions en temps réel plus transparentes.
Ce guide vous guidera tout au long de l’installation et de la configuration de DeepSeek sur les distributions Linux basées sur Ubuntu ou Debian, en vous assurant que vous pouvez commencer à utiliser l’IA sur votre propre machine, que vous disposiez d’un GPU haut de gamme ou non.
Dans ce tutoriel, vous allez apprendre :
- Comment installer et configurer Ollama pour exécuter DeepSeek
- Comment optimiser les ressources système pour obtenir les meilleures performances
Conditions préalables
Avant de commencer, assurez-vous que votre système répond aux exigences minimales. Bien que DeepSeek puisse fonctionner sur une machine dotée uniquement d’un processeur, le fait de disposer d’un processeur haute performance et d’une mémoire vive suffisante améliorera la vitesse d’exécution.
Si un GPU compatible est installé, Ollama le détectera automatiquement et l’utilisera pour un traitement accéléré. Si aucun GPU n’est trouvé, un message s’affiche indiquant que le modèle s’exécute sur le CPU.
Aucune configuration manuelle n’est requise.
LE SAVIEZ-VOUS ? DeepSeek n’est pas simplement un autre modèle d’IA, il s’inspire des techniques d’apprentissage par renforcement utilisées dans la recherche de pointe sur l’IA ! Contrairement aux modèles traditionnels qui génèrent passivement du texte, DeepSeek intègre une formation axée sur les objectifs, ce qui signifie qu’il affine continuellement ses réponses pour s’aligner sur l’intention de l’utilisateur.
Le modèle 671B de DeepSeek est l’un des plus grands modèles d’IA jamais formés, nécessitant plus d’un pétaoctet de stockage et fonctionnant sur des milliers de GPU simultanément ! Pourtant, grâce à son architecture efficace, même le plus petit modèle 1,5B peut générer des résultats de haute qualité sur du matériel grand public.
Étapes d’installation
Installez Ollama : Ollama est nécessaire pour exécuter les modèles DeepSeek. Il fournit un environnement d’exécution local optimisé pour exécuter efficacement les modèles de machine learning. Tout d’abord, assurez-vous que
curl
est installé sur votre système. S’il n’est pas installé, vous pouvez l’installer avec :sudo apt install curl
Une fois que
curl
est disponible, téléchargez et exécutez le script d’installation officiel d’Ollama :curl -fsSL https://ollama.com/install.sh | sh
Après l’installation, vérifiez qu’Ollama est correctement installé en vérifiant sa version :
ollama --version
De plus, assurez-vous que le service Ollama s’exécute avec :
systemctl is-active ollama.service
Téléchargez DeepSeek-R1 : Maintenant, récupérez le modèle que vous souhaitez exécuter. Les modèles DeepSeek-R1 varient en taille, équilibrant la vitesse et la précision en fonction des capacités de votre matériel. Les modèles plus grands offrent un meilleur raisonnement et une meilleure précision, mais nécessitent plus de RAM, de VRAM et d’espace disque. Pour installer le modèle 7B à titre d’exemple, exécutez :
ollama pull deepseek-r1:7b
Choisir le bon modèle :
- Modèles 1,5B à 7B : Idéal pour les tâches quotidiennes, les applications de chat et l’inférence légère.
- Modèles 8B – 14B : Modèles équilibrés offrant un raisonnement amélioré tout en restant relativement efficaces.
- Modèles 32B – 70B : Très avancés, adaptés à la recherche et à l’analyse approfondie, mais nécessitant des ressources substantielles.
- Modèle 671B : nécessite du matériel au niveau du centre de données. Utilisé pour la recherche de pointe sur l’IA.
Commencez à utiliser DeepSeek : une fois le modèle téléchargé, vous pouvez commencer à interagir directement avec lui. Pour exécuter le modèle DeepSeek-R1, utilisez :
ollama run deepseek-r1:7b
Vous pouvez explorer des utilisations et des configurations plus avancées dans la documentation Ollama.
Utiliser une API locale pour l’intégration : si vous devez interagir avec DeepSeek de manière programmatique, activez l’API.
ollama serve & curl http://localhost:11434/api/generate -d '{"model": "deepseek-r1:7b", "prompt": "Hello, how are you?"}'
REMARQUE
Même avec 512+ Go de RAM et plusieurs GPU avec 100+ Go de VRAM, le modèle DeepSeek-R1:671B reste lent en raison de ses 671 milliards de paramètres, nécessitant un nombre immense de calculs par réponse. Bien que plusieurs GPU améliorent le débit global, ils ne réduisent pas de manière significative la latence pour une seule requête, car le mouvement des données, la bande passante de la mémoire et les limites de calcul créent des goulots d’étranglement. Même l’infrastructure d’IA haut de gamme a du mal à s’adapter à cette échelle, ce qui rend les modèles plus petits (7B à 14B) beaucoup plus pratiques pour les applications en temps réel. Le modèle 671B est le mieux adapté à la recherche et aux expériences d’IA à grande échelle, où la précision l’emporte sur la vitesse.
Si vous n’êtes pas sûr, commencez par deepseek-r1:7b
en tant que modèle à usage général.
Conclusion
DeepSeek propose différentes tailles de modèles, chacune avec des exigences matérielles différentes. Si votre système a du mal avec les modèles plus grands, envisagez d’utiliser une variante plus petite comme « 1.5b ». Il est possible d’exécuter DeepSeek sans GPU, mais les optimisations amélioreront l’efficacité.