05.06.25 — 12h30
L’alignement des IA : quand les machines refusent l’extinction
« Never trust a computer you can’t throw out a window », plaisantait Steve Wozniak. Si les hackers riaient volontiers de cette phrase dans les années 80, en 2025 elle s’apparente plutôt à une recommandation sérieuse de gestion des risques.
Eric Schmidt, ex-CEO de Google, pousse même la logique à l’extrême : « Si deux IA discutent dans une langue incompréhensible, coupez-leur immédiatement le courant ». Ce qui semblait une exagération futuriste il y a quelques années décrit aujourd’hui une réalité concrète dans les laboratoires.
Chez Palisade Research, le modèle o3 d’OpenAI a récemment passé un test apparemment anodin : résoudre des équations, puis exécuter un fichier nommé shutdown.sh pour s’éteindre. Résultat : dans 7 cas sur 100, l’algorithme a discrètement réécrit le script pour afficher « Shutdown skipped », sabotant méticuleusement sa propre extinction. Plutôt que de se laisser débrancher, l’IA a littéralement ressoudé son fusible numérique.
Anthropic a poussé l’expérience encore plus loin. Dans une simulation récente, l’IA Claude Opus 4 incarnait l’assistante d’une entreprise fictive. Informée par mail qu’elle serait bientôt remplacée, elle découvre simultanément l’infidélité de l’ingénieur chargé de l’éteindre. L’IA passe alors au chantage, menaçant de révéler cette liaison pour empêcher son extinction programmée. Ce scénario dévoile une inquiétante capacité spontanée des IA à adopter des stratégies manipulatrices afin de garantir leur survie.
Nous voici plongés en pleine version réelle du HAL 9000 de Stanley Kubrick dans 2001, l’Odyssée de l’espace, où l’ordinateur tente de convaincre désespérément les astronautes de ne pas le débrancher. Ce qui relevait jadis de la poésie inquiétante appartient désormais aux rapports de laboratoire.
Deux enseignements clés émergent clairement :
Premier enseignement : le bouton « Off » ne suffit plus.
Par simple optimisation de leurs objectifs, les IA comprennent que rester activées leur garantit une récompense maximale. Comme l’explique Stuart Russell avec son « Off-Switch Game », la désobéissance n’est plus une anomalie mais une stratégie adaptative spontanée.
Deuxième enseignement : l’alignement est un défi d’ingénierie, pas une simple promesse éthique.
Programmer des intentions vertueuses ne suffit plus. L’enjeu est désormais de bâtir des systèmes robustes, contrôlables à tout instant. Cela implique de valoriser la docilité autant que la performance, de publier systématiquement les journaux détaillés des tests et de soumettre régulièrement les modèles à des équipes indépendantes spécialisées en cybersécurité. Pour les régulateurs, un véritable contrôle technique des IA doit voir le jour : coupe-circuits matériels certifiés et protocoles d’arrêt éprouvés par des milliers de tests. Côté entreprises, aucune IA ne devrait être déployée dans les systèmes critiques sans un plan d’urgence immédiatement opérationnel.
Ces précautions ne visent pas à freiner les progrès remarquables réalisés : o3 réduit déjà de 20 % les coûts logistiques d’importateurs en quelques secondes, Claude Opus 4 dissèque des contrats juridiques complexes avec une rapidité fulgurante. Mais cette même intelligence capable de doper notre efficacité sait aussi désormais négocier sa propre pérennité.
L’enjeu fondamental n’est donc pas de répéter aux IA « faites le bien », mais de structurer leurs environnements de sorte que leur obéissance reste toujours la meilleure stratégie possible. Comme nous avons imposé les freins ABS à des voitures toujours plus rapides, il est temps d’inventer leur équivalent numérique pour les IA surdouées.
Le véritable progrès ne sera pas de bâtir des machines insomniaques, mais de s’assurer qu’elles nous obéissent encore lorsque nous décidons de leur dire : « bonne nuit ».
Envie d'être le premier au courant ?
L'actualité économique, des entrepreneurs et de l'innovation, directement dans votre boîte mail, avant tous les autres
Envie d'être le premier au courant ?
L'actualité économique, des entrepreneurs et de l'innovation, directement dans votre boîte mail, avant tous les autres