IArmateurs
Quels sont les IArmateurs détenant les grands navires LLM de pêche d’utilisateur ? pas simple de s’y retrouver, n’est ce pas?
Il faut distinguer les besoins :
- multimodal : capable de faire un peu de tout, génération de texte, d’image, de vidéo, de son (ChatGPT, Le Chat, Gemini, Copilot)
- spécialisé dans le code (GitHub Copilot, Claude)
- la vision (capable de décortiquer une image)
- la génération d’images
- la génération de vidéo
- la génération de son
- la génération d’embeddings (pour les RAG)
- certains offrent des fonctionnalités natives comme la recherche dans le Web
- certains donnent la possibilité d’être étendus via des plugins (code natif, spécification OpenAI ou en communiquant avec des serveurs MCP, ex : playwright).
Il faut distinguer la manière dont les outils sont fournis :
- Chatbot sur le web : ChatGPT, Le Chat de Mistral, Gemini dans Google
- Les chatbots intégrés dans le navigateur : Copilot dans Edge
- Les chatbots intégrés dans les OS (Gemini sur Android, Copilot dans Windows, panel Edge, Copilot dans Edge ou Office, Gemini sur nos smartphones)
- Les agents de développement dans les IDE : GitHub Copilot dans VSCode ou Visual Studio
- Les outils autonomes avec une UI ou en ligne de commande (Claude Desktop)
- Via des API REST nécessitant une clé API si l’infra est fournie sur le cloud en B2B ou une infra locale pour intégrer une fonctionnalité LLM au sein d’une application
- soit en tant que développeur pour une application à fournir à des clients ou des usagers de l’entreprise
- soit en tant qu’utilisateur (ex : OnlyOffice permet de personnaliser le correcteur en fournissant un accès vers un modèle)
Concernant les API REST, il faut distinguer l’infra du modèle, sachant que les deux peuvent être proposés par le même fournisseur (éditeur) :
- ChatGPT fournit son modèle propriétaire ainsi que l’infra
- Idem pour AWS
- Microsoft fournit l’infra pour faire tourner des modèles ChatGPT et Claude
- Mistral fournit le modèle et l’infra, mais l’infra utilise en fait le cloud Azure (ils souhaitent développer leur propre datacenter en Suède pour être complètement indépendants des États-Unis, souverains suivant le terme consacré)
- fournisseur d’infrastructures cloud dédiées IA : ex SiliconFlow, qui fait tourner des modèles open source mais facture au token (à priori moins cher que les modèles propriétaires)
- En ayant sa propre infra en utilisant LMStudio, ollama, en tant que service tournant sur un serveur, déployée ou non en tant que container Docker, sur le cloud ou on premise, ou même sur son PC local (en tenant compte de la capacité machine suivant la complexité du modèle)
- Notons aussi qu’on peut embarquer directement un ‘petit’ modèle open source via des API C++, Python au sein du process de son application (besoin développeur : ex llama.cpp)
Bien entendu, il faut aussi distinguer les modèles :
- il y a les grands modèles propriétaires (ChatGPT)
- il y a les modèles open source des éditeurs connus (Mistral, Meta)
- On peut distinguer aussi les pays (modèles développés par la Chine ou d’autres pays de l’Asie, les États-Unis, l’Europe, le Canada)
- il y a de nombreux modèles développés par de petites équipes ou des centres de recherche ; parfois, ce sont des modèles fine-tunés à partir de modèles fournis par Meta ou Mistral.
- Et puis chaque éditeur propose une palanquée de modèles plus ou moins récents, plus ou moins gourmands.
Enfin, il faut distinguer le mode de facturation :
- Gratuit avec une limite de nombre de requêtes ou de tokens
- Un mode abonnement quand il s’agit d’utiliser les outils « prêts à l’emploi »
- Pour le mode API, le prix se compte en millions de tokens sachant que:
- ça dépend du modèle (un modèle d’embeddings sera moins cher qu’un modèle de génération de texte qui lui-même sera plus ou moins cher en fonction de ses capacités en nombre de tokens, raisonnements, etc.)
- on paye les tokens en entrée (contexte + prompt) et les tokens en sortie (réponse)
- le nombre de tokens en réponse peut différer d’un modèle à l’autre (ex : un LLM peut être moins cher qu’un autre mais s’il renvoie systématiquement plus de tokens que son concurrent, comment affirmer qu’il est moins cher ?).
Je souhaitais proposer un tableau de synthèse au moins pour les offres des fournisseurs les plus en vue.
J’ai donc tenté de poser directement la question aux intéressés, les LLMs !
J’avoue avoir eu quelques difficultés pour obtenir un tableau suffisamment synthétique et contenant des informations exactes. En effet, malgré un prompt que j’ai essayé de rendre plutôt précis, les résultats provenant de ChatGPT, Mistral ou Gemini étaient bourrés d’imprécisions ou d’erreurs ! Les liens demandés n’étaint pas forcément à jour (obsolètes ou erronés) et les tarifs inexacts voire inventés.
Voilà un cas où les LLM m’ont fait perdre pas mal eu temps (tant que ce n’est pas de l’argent 😄) !
Crée un tableau complet en Markdown (.md) des principaux LLM et assistants IA en 2026, incluant ces colonnes :
- Produit
- Propriétaire / éditeur
- Outils finaux (web, IDE, Office…)
- Modèles proposés ou utilisés : Les plus récents seulement et un lien vers la page officielle
- Fournisseur du modèle
- Type de collaboration / partenariat
- Hébergement (cloud, local…)
- Modalité du mode gratuit si existe (quelle est la limite en nombre de requêtes ou de token ?)
- Page officielle concernant la tarification sous forme [tarif] (lien)
- Un point fort et un point faible
Inclue tous les grands acteurs : OpenAI (ChatGPT), Anthropic (Claude), Google (Gemini), Microsoft (Copilot), GitHub Copilot, Mistral (Le Chat), Meta (LLaMA), Perplexity, Grok/X, DeepSeek.
Face à ça, s’en est suivi le fameux ping-pong pour essayer d’obtenir ce que je souhaitais. Vous connaissez la programmation… J’ai déjà évoqué la notion de méta-programmation. Eh bien, avec les LLM, c’est un peu la même chose : on peut leur fournir le prompt mais on peut aussi leur demander de rédiger eux-mêmes le prompt qu’ils auraient bien voulu avoir pour éviter les erreurs et autres hallucinations. L’idée aussi est de pourvoir réitérer la demande en une seule passe sans devoir rejouer au ping-pong et que le résultat soit relativement déterministe (un peu utopique quand on sait que les réponses reposent sur des probabilités).
Voici ce que j’ai obtenu :
# PROMPT COMPLET – Benchmark LLM 2026 en Markdown
## Objectif
Créer un **tableau comparatif exhaustif en Markdown (.md)** des principaux LLM et assistants IA mondiaux en 2026.
## Portée
Inclure :
- Acteurs USA, Europe et Chine
- Modèles open-weight significatifs
- Assistants grand public et B2B
- Fournisseurs API cloud
- Acteurs spécialisés code, recherche et multimodal
Ne pas limiter la liste aux noms donnés. Ajouter **tout acteur majeur mondial** si :
- Modèle classé SOTA
- Adoption massive en entreprise
- Forte présence géographique
- Impact stratégique (prix, open-weight, intégrations)
## Acteurs minimum à inclure
OpenAI (ChatGPT), Anthropic (Claude), Google (Gemini), Microsoft (Copilot), GitHub Copilot, Mistral (Le Chat), Meta (LLaMA), Perplexity, xAI (Grok), DeepSeek, Alibaba (Qwen)
## Colonnes du tableau (obligatoires)
- Produit
- Propriétaire / éditeur
- Pays d’origine
- Outils finaux (Web, IDE, Office, API…)
- Modèles les plus récents (avec lien officiel vers documentation)
- Fournisseur du modèle
- Type de collaboration / partenariat
- Hébergement (Cloud, local, hybride)
- Contexte maximal (tokens)
- Mode gratuit (limites précises)
- Mode abonnement (€/mois)
- Facturation token API (€/1M tokens input/output)
- Page officielle tarification
- Point fort
- Point faible
## Règles strictes
1. Vérifier les modèles sur la **documentation officielle** de chaque fournisseur.
2. Indiquer uniquement les modèles **actifs et récents**.
3. Exclure les modèles dépréciés ou en fin de vie.
4. Fournir le **lien exact vers la documentation officielle**. Le lien doit être de type [page officielle](lien http).
5. Fournir le **lien exact vers la page de tarification officielle**. [tarif](lien http).
6. Ne pas inventer de prix ou de versions.
7. Si une donnée n’est pas confirmée officiellement, écrire **"Non confirmé officiellement"**.
8. Indiquer la date de dernière mise à jour si possible.
9. Si navigation web non disponible, indiquer explicitement que **l’information peut être obsolète**.
## Sortie
- **Format Markdown** uniquement
- Tableau prêt à copier-coller avec toutes les colonnes
- Priorité : exactitude et vérifiabilité
ChatGpt, en mode gratuit, n’a pas réussi vraiment à récupérer l’information de differentes sources Web :
Je n’ai pas accédé (via navigation) à chaque documentation officielle demandée pour tous les modèles et fournisseurs mentionnés. Certaines informations (contextes, prix, modes, limites gratuites, liens directs) proviennent de sources secondaires (comparateurs, blogs), ce qui peut être obsolète ou approximatif par rapport aux pages officielles. Les champs marqués Non confirmé officiellement doivent être validés avec la documentation officielle du fournisseur.
Par contre, Mistral s’en est bien sorti ! Cocorico!
De là à certifier que toutes les informations sont exactes…. en tout cas les liens fonctionnent, c’est déjà ça.
Réponse du Chat de Mistral
| Produit | Propriétaire/Éditeur | Pays d’origine | Outils finaux (Web, IDE, Office, API…) | Modèles récents (lien doc) | Fournisseur du modèle | Type de collaboration/partenariat | Hébergement | Contexte maximal (tokens) | Mode gratuit (limites) | Mode abonnement (€/mois) | Facturation token API (€/1M tokens input/output) | Page officielle tarification | Point fort | Point faible |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ChatGPT | OpenAI | USA | Web, Mobile, API, Plugins, GPT Store | GPT-5.2 | OpenAI | Partenariats avec Microsoft, intégration Azure | Cloud (Azure) | 256k (128k input/128k output) | Oui (modèle de base, limites de requêtes) | Plus: 20$/mois, Pro: 200$/mois | GPT-5.2: ~1.25€/10€ input/output | Tarifs OpenAI | Raisonnement avancé, intégrations riches | Coût élevé pour usage intensif, dépendance à Azure |
| Claude | Anthropic | USA | Web, API, AWS Bedrock, Google Vertex | Opus 4.6 | Anthropic | Partenariats avec AWS, Google, Microsoft | Cloud (AWS/Google) | 1M | Oui (limites de tokens/jour) | Pro: 20$/mois, Max: 100$/mois | Opus 4.6: 5$/25$ input/output | Tarifs Claude | Sécurité, contexte très long | Prix élevé pour les modèles premium |
| Gemini | USA | Web, Google Workspace, API, Android | Gemini 3 Pro | Intégration native avec Google Cloud/Workspace | Cloud (Google) | 1M | Oui (limites sur Gemini 3 Flash) | Pro: 19.99$/mois | Gemini 3 Pro: 2$/12$ input/output | Tarifs Gemini | Multimodalité, intégration Google | Complexité des tarifs pour les gros volumes | ||
| Microsoft Copilot | Microsoft | USA | Office 365, Teams, Edge, API | GPT-5.2 | OpenAI/Microsoft | Intégration native avec Microsoft 365 | Cloud (Azure) | Selon modèle sous-jacent | Non (essai gratuit limité) | Business: 21$/utilisateur/mois, Enterprise: 30$/utilisateur/mois | Inclus dans abonnement | Tarifs Copilot | Intégration Office 365 | Coût par utilisateur élevé, dépendance à l’écosystème Microsoft |
| GitHub Copilot | GitHub (Microsoft) | USA | VS Code, JetBrains, CLI, Web | GPT-5.2-Codex | OpenAI/Microsoft | Intégration native avec GitHub | Cloud (Azure) | Selon modèle | Oui (2000 suggestions/mois) | Pro: 10$/mois, Pro+: 39$/mois | Selon modèle (ex: 0.00001$/token unit) | Tarifs GitHub Copilot | Optimisé pour le code, intégration IDE | Coût supplémentaire pour les modèles premium |
| Le Chat | Mistral AI | France | Web, Mobile, API | Mistral Large 3 | Mistral AI | Partenariats avec Microsoft Azure, Hugging Face | Cloud/On-premise | Jusqu’à 1M | Oui (limites généreuses) | Pro: 14.99$/mois | Mistral Large 3: ~0.28$/0.42$ input/output | Tarifs Mistral | Open-weight, rapidité, respect vie privée | Moins connu hors Europe |
| LLaMA | Meta | USA | API, Hugging Face, Cloud Partners | Llama 4 Maverick | Meta | Open-weight, partenariats avec AWS, Azure, Hugging Face | Cloud/On-premise | Jusqu’à 10M | Oui (accès libre aux poids) | Selon hébergeur | Llama 4 Maverick: ~0.19$/1M tokens (blended) | Tarifs Llama | Open-source, contexte ultra-long | Support limité pour les petits acteurs |
| Perplexity | Perplexity AI | USA | Web, Mobile, API | Sonar Pro | Perplexity/Partenaires | Agrégation de modèles (OpenAI, Anthropic, etc.) | Cloud | Selon modèle | Oui (limites de requêtes) | Pro: 20$/mois, Enterprise: 40$/utilisateur/mois | Selon modèle (ex: Sonar Pro: 1$/1M tokens) | Tarifs Perplexity | Recherche sourcée, multi-modèles | Moins adapté à la génération créative |
| Grok | xAI | USA | Web, API, X (Twitter) | Grok 4.1 Fast | xAI | Intégration avec X (Twitter) | Cloud | 2M | Oui (limites sur X Premium) | SuperGrok: 30$/mois | Grok 4.1 Fast: 0.20$/0.50$ input/output | Tarifs Grok | Prix très compétitifs, accès aux données X | Moins mature que les leaders |
| DeepSeek | DeepSeek | Chine | Web, API, Hugging Face | DeepSeek V3.2 | DeepSeek | Open-weight, partenariats avec Azure, Hugging Face | Cloud/On-premise | 128k | Oui (accès libre) | Selon usage API | DeepSeek V3.2: 0.28$/0.42$ input/output | Tarifs DeepSeek | Très économique, open-weight | Moins connu en Occident |
Utilisation des modèles open sources
Finalement, le plus simple, c’est d’essayer d’utiliser sa propre petite barque: un modèle open source en local. On peut le faire tourner (inférer) dans Ollama, LM studio (avec ou sans GUI) , ou plus compliqué, llama.cpp.
llama.cpp est une librairie c++ qui peut être chargée dans une application (à condition que le langage de l’application permette de charger la librairie C++ statique ou dll sous windows). En python, c’est le cas. Notons qu’avec Python, il existe d’autres librairies pour ça.
| Solution | Usage “in-process” | Modèles supportés |
|---|---|---|
| llama.cpp | Oui | Llama, autres GGML |
| TensorFlow | Oui | Tous formats TF/Keras |
| PyTorch | Oui | Tous formats Torch |
| ONNX | Oui | Tous formats onnx |
Chaque librairie a son format mais Il existe des outils pour convertir de nombreux modèles entre formats TensorFlow, PyTorch, ONNX, GGML, etc. :
En dotnet, si on utilise Semantic kernel, le plus simple est d’installer Ollama en local sous docker. Evidemment, s’il s’agit d’une application desktop qu’on veut fournir aux collégues, le déploiment via un installateur ne s’en trouvera pas facilité. Mais pour un usage personnel, on peut tenter afin d’experimenter les limites. Le serveur OLLama est un service REST, comme celui pour OpenAI azure. Malheureusement, ce n’est pas le même protocol mais Semantic Kernel fournit plusieurs providers dont un pour Ollama.
private bool ConfigureAzureOpenAI(IKernelBuilder kernelBuilder)
{
var azureConfig = _options.AzureOpenAI;
if (azureConfig != null)
{
kernelBuilder.AddAzureOpenAIChatCompletion(
azureConfig.DeploymentName,
azureConfig.Endpoint,
azureConfig.ApiKey
);
}
return azureConfig != null;
}
private bool ConfigureLocalOllamaLLM(IKernelBuilder kernelBuilder)
{
kernelBuilder.Services.AddHttpClient();
var localConfig = _options.LocalOllama;
if (localConfig != null )
{
kernelBuilder.AddOllamaChatCompletion(
modelId:localConfig.ModelId,
baseUrl: new Uri(localConfig.Endpoint)
);
return true;
}
else
{
return false;
}
}
Pour installer Ollama , depuis WSL ou n’importe quelle console Docker, il suffit d”exécuter :
docker run -d --name ollama -p 11434:11434 ollama/ollama
- -d : lance le conteneur en arrière-plan
- –name ollama : nomme le conteneur « ollama »
- -p 11434:11434 : ouvre le port 11434 pour utiliser l’API Ollama
- ollama/ollama : image officielle sur Docker Hub
Autre possibilité, le docker-compose :
version: '3.8'
services:
ollama:
image: ollama/ollama
container_name: ollama
ports:
- "11434:11434"
volumes:
- /d/ollama:/root/.ollama
restart: unless-stopped
docker ps
“ollama” doit apparaitre dans la liste.
Il faut rentrer dans le conteneur pour utiliser la CLI :
docker exec -it ollama bash
Et ensuite utiliser les commandes fourni par l’utilitaire ollama qui est présent dans l’image docker.
Pour afficher la liste des commandes:
ollama -h
Large language model runner
Usage:
ollama [flags]
ollama [command]
Available Commands:
serve Start ollama
create Create a model
show Show information for a model
run Run a model
stop Stop a running model
pull Pull a model from a registry
push Push a model to a registry
signin Sign in to ollama.com
signout Sign out from ollama.com
list List models
ps List running models
cp Copy a model
rm Remove a model
help Help about any command
Flags:
-h, --help help for ollama
-v, --version Show version information
Ollama fournit differents modèles que l’on peut consulter sur le lien suivant (https://ollama.com/library
Pour installer un model:
ollama pull llama3.2
Il est possible d’installer plusieurs modèles .
La commande suivante permet de voir l’ensemble des modèles installés en local.
ollama list
Et celle ci permet d’avoir des infos sur l’un des modèles installés
ollama show llama3.2
L’API Ollama est accessible de l’exterieur du containeur via http://localhost:11434 (port par défault mais changeable au moment de créer le containeur en changeant le docker-compose.yml ou le paramètre -p 11434:11434 du docker run)
Quand on fait un appel à l’API, il suffit de spécifier le modèle via le champ model dans la requête.
Exemple avec curl :
curl http://localhost:11434/api/generate -d '{
"model": "mixtral",
"prompt": "Comment se positionner en mer ?"
}'
Pour utiliser Llama :
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Comment se positionner en mer?"
}'
