Le récit a porté cinq ans d'industrie, jusqu’à la semaine dernière avec la suspension des modèles de frontière tels que Mythos et Fable, jugés trop puissants ou dangereux, dans les mains des autres... Plus de paramètres, plus de données, plus de calcul, donc plus de performance, donc le meilleur modèle est, mécaniquement, le plus gros. C'est la doctrine qui a justifié les centaines de milliards de capex hyperscaler et le demi-trillion de dollars de commandes Blackwell et Vera Rubin annoncé par Jensen Huang à la GTC 2026. En 2026, trois fissures rendent cette thèse difficile à tenir. Elles viennent des chercheurs, des éditeurs et du marché lui-même.
Les limites du paradigme « bigger is better »
Les chercheurs d'abord. À la conférence ACM FAccT 2025 à Athènes, Gaël Varoquaux (NDLR : collègue de l'auteur et également co-fondateur de Probabl.ai), Sasha Luccioni et Meredith Whittaker ont publié “Hype, Sustainability, and the Price of the Bigger-is-Better Paradigm in AI”. Leur démonstration tient en une ligne : les coûts de calcul progressent plus vite que les gains de performance, la majorité des tâches réelles n'ont pas besoin d'un modèle frontière, et le fétichisme de la taille produit trois effets collatéraux jamais chiffrés dans les communiqués, un coût environnemental qui explose, une concentration de calcul qui verrouille l'agenda de recherche, et un effet d'éviction pour les approches plus sobres. Le même Varoquaux cosigne, avec Lihu Chen, un état de l'art intitulé “What is the Role of Small Models in the LLM Era”, qui cartographie les configurations où les petits modèles égalent ou surpassent les grands, seuls ou en collaboration. Le bigger-is-better n'est pas une loi, c'est un biais économique.
Quand les petits modèles rivalisent avec les géants
Les éditeurs ensuite. En octobre 2025, Claude Haiku 4.5 obtient 73,3 % sur SWE-bench Verified, c'est-à-dire le niveau du modèle frontière de la génération précédente, à un tiers du prix et à plus du double de la vitesse. Côté européen, Mistral a publié le 16 mars 2026 Mistral Small 4, un Mixture-of-Experts à 119 milliards de paramètres dont seuls 6 s'activent par token, sous licence Apache 2.0, à un coût d'inférence 5 à 7 fois inférieur aux modèles propriétaires comparables. Performance compétitive, poids ouverts, exécution on-premise : Mistral tient la même ligne que Qwen, depuis Paris. En mars 2026, Alibaba publie la série Qwen3.5 en ouvert, dont la version à 9 milliards de paramètres tient sous 5 Go en mémoire, tourne sur un MacBook Air M2 à 20-30 tokens par seconde, et bat gpt-oss-120B de dix fois sa taille sur GPQA Diamond (81,7 contre 80,1), tout en surpassant Gemini 2.5 Flash-Lite sur MMMU-Pro (70,1 contre 59,7). L'écart entre modèles « petits » et modèles « frontière » ne cesse de se réduire, d'une génération à l'autre, sur les tâches réelles d'entreprise. Harvard Business Review a consolidé cette observation en septembre 2025 : 80 à 90 % des charges IA d'entreprise sont couvrables par des SLM, à un coût d'inférence de 10 à 30 fois inférieur.
Le marché du hardware enfin. Nvidia a conclu en décembre 2025 un accord de 20 milliards de dollars avec Groq, portant sur les actifs stratégiques, la propriété intellectuelle et les dirigeants de la société d'inférence à faible latence, et a dévoilé à la GTC 2026 une puce Groq 3 LPX dédiée à l'inférence d'agents, avec un coût par token divisé par dix et une métrique emblématique, les « tokens per watt ». Nvidia ne vend plus un très gros chip pour tout, il vend une gamme avec un price point pour chaque usage. Apple, de son côté, a pris le pari inverse des hyperscalers : déployer un modèle de 3 milliards de paramètres, quantifié en 2 à 4 bits, directement sur les 2,3 milliards d'appareils Apple silicon déjà en circulation, et ouvrir ce modèle aux développeurs via un framework natif avec trois lignes de Swift. Le capex a déjà été payé par le client, l'inférence ne quitte pas l'appareil, la confidentialité est structurelle. Entre Nvidia qui ouvre sa gamme vers plusieurs tailles, Apple qui pousse vers le terminal “edge” et Alibaba qui pousse vers l'ouvert, la notion de « meilleur modèle » n'a plus de sens hors d'une tâche, d'un coût et d'un contexte.
L’avenir appartient à l’orchestration des modèles
Le cadre qui tient en 2026 n'est donc plus « choisir le bon modèle », c'est « orchestrer les bons modèles ». Trois déplacements valent la peine d'être discutés en comex. Premier, routage multi-modèles plutôt que modèle unique, parce qu'envoyer une requête simple sur un modèle local 2B, une requête complexe sur un 70B cloud et une requête régulée sur un modèle souverain réduit de 50 à 80 % la facture d'inférence sans dégrader l'expérience. Deuxième, coût total par cas d'usage plutôt que score de benchmark, parce que le meilleur modèle est celui dont le coût, la latence, la conformité et la possibilité d'auto-hébergement satisfont l'équation économique, ce qui ne se lit dans aucun classement public. Dernier, edge et privacy-by-design plutôt que tout-cloud centralisé, parce que rapprocher le modèle de la donnée plutôt que l'inverse résout, dans le même mouvement, un problème de coût, de latence, de souveraineté et de confidentialité.
La conséquence stratégique est simple à poser. La valeur, en 2026, ne réside plus dans le modèle mais dans la chaîne. Celui qui sait orchestrer un modèle local, un modèle sectoriel et un modèle frontière en fonction du coût total capte plus de valeur que celui qui paie un abonnement frontière pour un ticket de support. L'architecture prime sur le paramètre. Un marché d'IA mature est aussi un marché où l'on peut changer de fournisseur sans tout réécrire, ce qui suppose des formats ouverts, des modèles téléchargeables, des métriques publiques et des outils d'évaluation reproductibles. Les éditeurs qui jouent ce jeu gagnent la confiance longue, ceux qui le refusent vendent de la dépendance.
Le vrai mythe n'est pas que le plus gros modèle gagne. C'est l'idée que la performance d'un modèle puisse se mesurer en dehors de son contexte d'usage. Un modèle est performant si, et seulement si, il résout la bonne tâche à un coût soutenable, avec une latence acceptable, sur un matériel maîtrisé, et sous une gouvernance lisible. La question à poser en comex avant le prochain abonnement frontière tient en trois temps : quel est le coût total par cas d'usage, quelle fraction de ces cas mérite vraiment un modèle frontière, et quelle architecture me permet de rediriger vers plus petit, plus local, plus ouvert quand c'est pertinent ? Si personne autour de la table ne sait répondre, la stratégie ne s'appelle pas « IA », elle s'appelle « dépendance non maîtrisée sous forme d’abonnement perpétuel ».
A propos de l'auteur
Yann Lechelle est entrepreneur et dirigeant dans la tech. Diplômé d’un MBA de l’INSEAD, il est co-fondateur et président exécutif de Probabl, entreprise à mission et spinoff d’Inria qui assure la pérennité de scikit-learn, et cofondateur de l’Indice de Résilience Numérique (IRN), un instrument visant à mesurer et piloter les dépendances technologiques des organisations. Il est aussi l’auteur de Ouvertarisme – Le Numérique des Lumières, sur l’ouverture comme arme stratégique des challengers.