LLMs open source : guide complet des modèles libres
DOG&DEV · 26/01/2025
LLMs open source : guide complet des modèles libres
Les LLMs (Large Language Models) open source offrent une alternative aux modèles propriétaires comme ChatGPT. Avec des modèles comme Llama, Mistral ou Phi, vous pouvez exécuter de l'IA localement ou sur votre serveur. Ce guide présente les principaux modèles et leur utilisation.
Prérequis
- Serveur avec GPU (recommandé) ou CPU puissant
- RAM : minimum 8 Go (16+ Go recommandé)
- Connaissances de base en ligne de commande
Qu'est-ce qu'un LLM open source ?
Un LLM open source est un modèle de langage dont le code et les poids sont librement accessibles, contrairement aux modèles propriétaires (GPT-4, Claude).
Avantages
- Contrôle total : exécution locale, pas de dépendance externe
- Confidentialité : données ne quittent pas votre serveur
- Personnalisation : fine-tuning possible
- Coûts : pas de coûts par requête (mais infrastructure)
Inconvénients
- Ressources : nécessite GPU ou CPU puissant
- Qualité : généralement inférieure aux modèles propriétaires
- Maintenance : à votre charge
Principaux modèles open source
Llama (Meta)
Développeur : Meta (Facebook)
Versions :
- Llama 2 : 7B, 13B, 70B paramètres
- Llama 3 : versions récentes
Caractéristiques :
- Performance : excellente pour un modèle open source
- Licence : utilisation commerciale avec restrictions
- Ressources : 7B nécessite ~8 Go RAM, 70B nécessite GPU
Mistral AI
Développeur : Mistral AI
Versions :
- Mistral 7B : modèle compact et performant
- Mixtral 8x7B : modèle MoE (Mixture of Experts)
Caractéristiques :
- Performance : très compétitif avec Llama
- Licence : Apache 2.0 (très permissive)
- Efficacité : optimisé pour la vitesse
Phi (Microsoft)
Développeur : Microsoft
Versions :
- Phi-2 : 2.7B paramètres
- Phi-3 : versions récentes
Caractéristiques :
- Taille compacte : fonctionne bien sur CPU
- Performance : surprenante pour sa taille
- Idéal pour : applications légères, edge computing
Gemma (Google)
Développeur : Google
Caractéristiques :
- Basé sur Gemini : architecture similaire
- Licence : utilisation commerciale autorisée
- Performance : bonne qualité générale
Installation avec Ollama
Ollama est l'outil le plus simple pour exécuter des LLMs localement.
Installation Ollama
Linux :
curl -fsSL https://ollama.com/install.sh | sh
Docker :
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Utilisation de base
Télécharger un modèle :
ollama pull llama2
ollama pull mistral
ollama pull phi
Exécuter :
ollama run llama2
Via API :
curl http://localhost:11434/api/generate -d '{
"model": "llama2",
"prompt": "Explique-moi les LLMs"
}'
Pour l'intégration avec n8n : ollama-n8n-integration.
Comparaison des modèles
| Modèle | Taille | RAM min | GPU | Performance | Licence |
|---|---|---|---|---|---|
| Llama 2 7B | 7B | 8 Go | Optionnel | ⭐⭐⭐⭐ | Commercial avec restrictions |
| Mistral 7B | 7B | 8 Go | Optionnel | ⭐⭐⭐⭐⭐ | Apache 2.0 |
| Phi-2 | 2.7B | 4 Go | Non | ⭐⭐⭐ | MIT |
| Llama 2 70B | 70B | 40+ Go | Requis | ⭐⭐⭐⭐⭐ | Commercial avec restrictions |
Cas d'usage
Chat local
Exécuter un chatbot localement sans dépendance externe :
ollama run mistral
API personnalisée
Créer une API pour vos applications :
import requests
response = requests.post('http://localhost:11434/api/generate', json={
'model': 'mistral',
'prompt': 'Résume ce texte...'
})
Intégration applications
Intégrer dans :
- n8n : workflows automatisés
- Applications web : chatbots, assistants
- Scripts : génération de texte, résumé
Optimisation
GPU
Utiliser GPU NVIDIA :
# Installer CUDA
# Ollama détecte automatiquement le GPU
ollama run llama2
Vérifier l'utilisation GPU :
nvidia-smi
Quantization
Réduire la taille avec quantization (Q4, Q8) :
# Modèles quantifiés (plus légers)
ollama pull llama2:7b-q4_0
CPU
Pour CPU uniquement :
- Utiliser des modèles plus petits (Phi-2, Mistral 7B)
- Quantization : réduire la précision
- Limiter les threads : ajuster selon votre CPU
Sécurité et confidentialité
Avantages open source
- Données locales : rien n'est envoyé à des serveurs externes
- Audit : code source vérifiable
- Contrôle : vous contrôlez l'infrastructure
Bonnes pratiques
- Isolation : exécuter dans un conteneur
- Firewall : limiter l'accès réseau
- Authentification : protéger l'API si exposée
Dépannage
| Problème | Cause possible | Solution |
|---|---|---|
| Modèle trop lent | CPU faible, pas de GPU | Utiliser modèle plus petit ; activer GPU |
| Mémoire insuffisante | RAM insuffisante | Utiliser modèle quantifié ; augmenter RAM |
| Erreur CUDA | GPU non configuré | Vérifier installation CUDA ; utiliser CPU |
| API inaccessible | Port bloqué, service arrêté | Vérifier firewall ; démarrer Ollama |
Ressources et communauté
Modèles populaires
- Hugging Face : huggingface.co - nombreux modèles
- Ollama Library : modèles pré-configurés
- GitHub : dépôts communautaires
Outils
- Ollama : exécution simple
- llama.cpp : implémentation C++ optimisée
- vLLM : inference rapide pour production
Bonnes pratiques
- Commencer petit : tester avec Phi-2 ou Mistral 7B
- GPU si possible : améliore grandement les performances
- Quantization : équilibre qualité/taille
- Monitoring : surveiller l'utilisation ressources
- Sauvegardes : sauvegarder les modèles téléchargés
Ressources
- ollama-n8n-integration - Intégration Ollama avec n8n
- debian-n8n - Installation n8n
Cet article s'inscrit dans notre série de guides IA et automation. Pour un serveur sur-mesure, contact.