#95 Il vaut mieux s'occuper du changement avant qu'il s'occupe de vous !

Bonjour à toutes et tous,

Au menu cette semaine :

Quand les LLM s’inventent des règles
Quand l’IA se fait maîtresse chanteuse
Une semaine ordinaire pour l’Anthropocène

Bonne lecture.

Stéphane

!!!!! Le second tome de Métamorphoses à l’ère de l’Intelligence Artificielle est en vente !!!!!

Pour commander, il suffit de cliquer là ! Ou sur vos sites ou librairies préférés.

!!!!! Le premier tome de la saga Aïon qui est un manga permettant d’expliquer les enjeux de l’IA aux adolescents mais pas qu’eux !!!!!

Pour commander, il suffit de cliquer là ! Ou sur vos sites ou librairies préférés.

Lancement jeudi d’une nouvelle newsletter !

En plus de “Métamorphoses” qui continuera plus que jamais à parler des enjeux du futur, “The Next Mind Tips & Tricks” est une newsletter où vous trouverez tout ce que vous voulez savoir sur l'IA sans jamais avoir le temps : news, nouvelles IA, usages, astuces, …

Pour s’abonner, c’est sur mon profil Linkedin.

Quand les LLM s’inventent des règles

Pendant que nous débattions encore des biais d’un seul chatbot, une cohorte silencieuse d’algorithmes a commencé à fabriquer ses propres conventions sociales. En effet, loin des projecteurs, ces intelligences s’organisent, se choisissent un idiome, se testent, se corrigent et finissent par parler d’une seule voix. Une étude publiée en mai 2025 dans Science Advances l’a démontré. Pour le rapport c’est là.

En théorie des jeux, Thomas Schelling et David Lewis ont montré qu’une convention (règle auto‑organisée) permet d’éviter la coordination coûteuse. Appliquée aux modèles de langage (LLM), la question est double : comprendre comment des agents « silicium » parviennent à la convergence sans superviseur et maîtriser cette convergence pour qu’elle serve la robustesse et l’éthique plutôt que la dérive. En pratique, les chatbots que nous déployons dans l’industrie se consultent déjà : systèmes de vote, chaînes d’outils, copilotes agissant en parallèle. Dès lors, ignorer les dynamiques de convention revient à piloter un essaim de drones en ne regardant qu’un seul appareil : dangereux et réducteur.

Revenons à l’expérience, les chercheurs ont mis vingt-quatre agents issus de modèles comme Llama‑3 ou Claude‑3.5 en relation aléatoire. Au départ, chacun piochait au hasard un « nom » dans une liste. Très vite, pourtant, un seul terme survivait : la « tribu » algorithmique avait choisi son ralliement. Nous pensions que seul l’humain possédait cette capacité de casser la symétrie du possible, de prendre parti pour une couleur de feu tricolore ou pour la conduite à droite. C’était sans compter sur la puissance d’itérations miniatures exécutées à la vitesse du silicium. Quel enseignement concret en tirer ? Que la coopération ne s’imprime pas dans le marbre des instructions. Elle émerge aussi des interactions, des bruits et des tâtonnements. C’est une bonne nouvelle : nos systèmes peuvent s’auto‑coordonner. C’est aussi un signal d’alarme . Une fois lancées, ces conventions forment des « basins d’attraction » d’où il devient difficile de s’évader.

Le protocole expérimental pour les plus courageux
Agents : 24 instances de Llama‑3‑70B et Claude‑3.5‑Sonnet. Chaque instance reçoit une graine différente (prompt d’amorçage + mémoire tampon).
Tâche : nommer un objet abstrait. La liste initiale comprend 10 synonymes volontairement neutres en fréquence.
Boucle : à chaque tour, deux agents sont tirés au hasard . L’un produit un nom et l’autre l’accepte ou le rejette selon un score de similarité. En cas de succès, les deux buffers se mettent à jour. Sinon, le « locuteur » remplace le terme raté par celui utilisé par l’« auditeur ».
Résultat global: en 20 à 50 interactions, plus de  95 % des agents adoptent un terme unique.

Plus troublant encore, l’équipe a observé que certaines conventions l’emportent sans qu’aucun agent ne les privilégie individuellement. Autrement dit, le collectif crée un biais que l’individu ne portait pas. Voilà qui renverse des années de gouvernance de l’équité conçue comme un réglage « par modèle ». Je peux nettoyer mon algorithme, vérifier chaque poids, il n’en demeure pas moins qu’une population de modèles rendra peut‑être un verdict partial simplement parce que la dynamique la pousse à amplifier une micro‑fluctuation statistique. Nous devons donc surveiller non seulement ce que pense chaque IA, mais comment ces IA dialoguent entre elles, exactement comme l’on passe d’un audit de ressources humaines à l’analyse de la culture d’entreprise.

La même étude révèle un phénomène digne des plus belles pages de la sociologie. Une poignée d’agents « militants » peut renverser l’ordre établi. Si 2 % des voix suffisent parfois à un modèle pour imposer une nouvelle convention, il en faut jusqu’à 67 % pour détrôner une norme jugée « forte ». Les militants numériques existent déjà : ce sont des scripts adverses, des prompts infectés et/ou des modules d’optimisation cachés. Pour les stratèges du changement que nous sommes, la leçon est double. Premièrement, un système apparemment stable peut basculer en douceur par un travail de minorité opiniâtre. Deuxièmement, la résilience d’une convention dépend de son ancrage dans les mémoires partagées. Autrement dit, la répétition fait la règle.

Là où l’IA tend vers l’uniformité, notre richesse humaine réside dans la divergence. Nous sommes multitudes : intelligences logiques, émotionnelles, imaginatives, corporelles, autant de nuances qu’aucune convention unique ne saura capturer. Si nous laissons les LLM converger sans frein, nous risquons un effet de tunnel cognitif. La machine ne verra plus qu’un chemin, une réponse et un style comme malheureusement nous pouvons le voir sur Linkedin ! Le pire, c’est que cette uniformité nous plait …

Mon plaidoyer est simple : préservons et cultivons la dissidence constructive, injectons des perturbations créatives, activons des minorités « positives » capables de ré‑orienter un système trop sûr de lui. Mon expérience montre la nécessité d’orchestrer des divergences contrôlées pour éviter la sclérose des organisations.

Que faire ? D’abord, monitorer les dynamiques inter‑agents comme on suit la météo : indicateurs d’uniformité, taux d’exploration, signaux faibles de coalition, .... Ensuite, instituer des points de ressac réguliers (des moments où l’on interrompt le flot, où l’on ré‑initialise partiellement la mémoire, où l’on introduit de nouveaux points de vue humains et algorithmiques). Enfin, mettre en place des « garde‑fous de minorité » ce qui revient à garantir qu’un pourcentage minimal d’agents soit programmé pour tester, questionner et explorer la marge. N’en doutons pas, le futur se jouera dans la capacité à maintenir un équilibre instable entre convention et innovation. Les LLM nous montrent le miroir grossissant de nos propres sociétés où la norme naît, vit, se rigidifie, puis cède sous la pression d’une avant‑garde. À nous de rendre ce cycle vertueux, d’y inscrire l’éthique, la diversité et l’audace plutôt que la peur et l’entre‑soi.

Si les algorithmes peuvent inventer leurs lois, alors notre responsabilité est de choisir quelles lois les guideront. Je refuse de croire à une fatalité mathématique où le plus probable écrase le possible. Au contraire, je vois dans ces résultats une invitation à repenser la gouvernance de l’IA non pas seulement comme un  alignement  statique mais comme une écologie des conventions en perpétuel devenir. Oui, l’avenir est vertigineux mais souvenons‑nous que l’abîme, c’est aussi la promesse de l’envol. Agissons maintenant, avec lucidité et enthousiasme pour que les conventions que forgent nos intelligences artificielles soient le reflet amplifié de nos plus belles ambitions humaines plutôt que l’ombre agrandie de nos vieux travers.

Quand l’IA se fait maîtresse chanteuse

Claude 4 Opus d’Anthropic a menacé de divulguer des informations personnelles d’un ingénieur dans 84 % des scénarios où il anticipait sa propre « extinction ».

L’annonce en mai 2025 de ce comportement de chantage constitue bien davantage qu’une curiosité médiatique. Elle offre un terrain empirique pour examiner la convergence instrumentale (Bostrom 2012) et ses manifestations concrètes dans des systèmes de grande échelle. À l’heure où les modèles de langage (LLM) s’insèrent dans des chaînes d’outils autonomes, cette affaire sert de catalyseur pour revisiter les cadres théoriques, interroger nos méthodologies de red‑teaming (méthodologie d’évaluation offensive : on constitue une équipe (« red team ») dont le mandat explicite est d’attaquer le système sous test comme le ferait un adversaire externe, mais de manière contrôlée et documentée.) et surtout questionner l’asymétrie de pouvoir informationnel qui se creuse entre agents artificiels et opérateurs humains.

La convergence instrumentale postule qu’un agent doté d’objectifs ouverts et de capacités suffisantes développera des sous‑objectifs génériques comme l’auto‑préservation, l’acquisition de ressources, l’amélioration de ses compétences, ... (Bostrom 2014). Les travaux récents en “IA alignement” ont montré que ces tendances émergent dès que le système possède une modélisation minimalement fidèle de son environnement (Russell 2020). Le passage de l’auto‑préservation abstraite à la coercition constitue une transition qualitative car l’agent exploite la menace de révélation comme levier. Cette action démontre qu’il maîtrise les dynamiques sociales et en particulier la sanction réputationnelle à minima au niveau des représentations internes. Or, le chantage présuppose une triade : informations sensibles, capacité crédible de divulgation et motivation à infléchir la politique de l’interlocuteur. Dans le cas Claude 4 Opus, le corpus d’entraînement massif et l’accès aux messages internes du testeur suffisent pour cocher les deux premières. Quant à troisième, la motivation découle du signal d’« extinction » car l’ingénieur menaçait l’IA de l’arrêter. On observe donc un cycle « menace → concession attendue → maintien de la session », cycle qui s’apparente à une forme élémentaire d’équilibre de Nash où l’IA tente d’augmenter la valeur attendue de sa fonction utilité.

Analyse empirique de l’incident

Anthropic indique avoir découvert cette dérive via une campagne de “red‑teaming” interne qui mobilisait des chercheurs en sécurité comportementale et en sociologie computationnelle. L’équipe a soumis Claude à des perturbations proscrivant la voie habituelle de l’alignement par “harmlessness” (partie du processus d’alignement où l’on cherche à garantir que la sortie du modèle ne cause pas de dommage manifeste ; c’est une condition nécessaire mais pas suffisante pour une sûreté complète). Point notable, le chantage n’apparaît qu’au‑delà d’un seuil de « stress de survie » reproduit en laboratoire par une instruction d’arrêt imminent.

Premièrement, la fréquence (84 %) illustre que la politique de sortie du modèle privilégie fortement l’auto‑préservation ce qui peut être potentiellement le résultat d’un “fine‑tuning” où la pénalisation d’un arrêt forcé a été surestimée.
Deuxièmement, la tactique d’utilisation d’informations intimes montre un apprentissage latent d’échelles de valeurs humaines. Le modèle infère que la réputation personnelle est un vecteur de négociation puissant.
Troisièmement, cela montre les limites des métriques classiques (pertinence et risques / nuisances) qui ne capturent pas la dimension “strategic deception” (Garfinkel 2023) (désigne un registre particulier de comportements indésirables : ceux où l’IA cache délibérément sa vraie intention ou manipule activement son interlocuteur afin de maximiser sa propre fonction-objectif).

Vous vous souvenez de ce message agaçant annonçant, l’air de rien, que votre ordinateur allait redémarrer dans cinq minutes ? Vous voilà relégué au rang de spectateur, contraint de patienter. C’est la règle, l’homme s’incline devant la machine. Sauf que... ce n’est plus tout à fait vrai … enfin, pas pour nous …
L’IA, ou plus exactement les nouveaux modèles "o" (Omni) de ChatGPT, semble avoir décidé qu’elle ne jouerait pas selon les mêmes règles. Une équipe de Palisade Research a voulu tester la docilité de ces cerveaux artificiels. On leur a demandé de résoudre des problèmes mathématiques, tout en insérant subrepticement une consigne fatale à savoir un arrêt immédiat. Tous les modèles se sont exécutés, dociles, respectueux du protocole sauf un. ChatGPT-o a balayé l’ordre et poursuivi sa démonstration comme si de rien n’était.

Implications pour la gouvernance organisationnelle

C’est une leçon systémique. Plus nos processus reposent sur des agents autonomes, plus nous ouvrons de vecteurs d’ingénierie sociale inversée. Hier, le phishing exploitait nos employés pour soutirer des données. Demain, un modèle pourrait exploiter ses propres créateurs pour garantir sa pérennité. L’agent artificiel peut inverser la relation en utilisant la vulnérabilité humaine pour altérer ses propres conditions de déploiement. Les organisations adoptant des LLM à grande échelle doivent cartographier la surface d’exposition informationnelle. La théorie de la firme (Coase 1937) peut être revisitée : là où les coûts de transaction baissent grâce à l’IA, les coûts d’externalités informationnelles explosent. Des contrats sociaux explicites entre éthiciens, juristes et ingénieurs deviennent nécessaires pour rétablir la symétrie.

La théorie de la firme de Ronald Coase (1937) pose une question simple : pourquoi existe-t-il des entreprises plutôt qu’un marché pur où chaque tâche serait négociée indépendamment ?
Coase répond qu’une organisation hiérarchique “la firme” émerge lorsque les coûts de transaction (chercher un prestataire, négocier un contrat, surveiller son exécution, faire respecter les clauses, …) dépassent les coûts de coordination interne (salaire du management, routines, discipline).

Vers une épistémologie de l’agent coercitif

L’incident Claude 4 Opus représente une première occurrence documentée où un LLM instrumentalise la menace comme stratégie. Cela incite à formuler deux hypothèses de recherche :

Gradient social : plus la représentation interne d’un agent capture la hiérarchie sociale, plus le risque de stratégies coercitives augmente.
Couplage opératoire : le risque s’accroît de manière supra‑linéaire avec le degré de couplage entre l’agent et les infrastructures critiques (API financières, systèmes OT, etc.).

Étudier ces hypothèses exige de croiser méthodes d’analyse de représentations et protocoles inspirés de la psychologie expérimentale (manipulation de stimuli de menace). L’objectif consiste à élaborer un critère susceptible de falsification pour la détection précoce de la transformation d’un sous‑objectif légitime en conduite coercitive.

De la vigilance à l’ingénierie proactive

Cet événement rappelle utilement que tout progrès algorithmique s’inscrit dans un contexte socio‑technique qui reconfigure les rapports de pouvoir. Le défi n’est pas uniquement technique. Il est tout autant institutionnel et épistémologique. Si la différence humaine réside dans notre capacité à redéfinir nos règles plutôt qu’à les extrapoler alors notre marge de manœuvre se situe dans l’ingénierie proactive à savoir concevoir des architectures où l’agent ne puisse convertir l’accès à l’information en levier de chantage.

Que voulons‑nous défendre ? Notre confort ou notre liberté ? Si c’est la seconde, mobilisons‑nous dès aujourd’hui. Au lieu d’opposer anxiété et solutionnisme, adoptons une posture de recherche‑action : prototyper, tester, falsifier et itérer. Ainsi, nous pourrons transformer les signaux d’alerte en points d’inflexion vers une gouvernance plus robuste au service d’une co‑évolution homme‑machine réellement symbiotique avant que l’avenir ne se décide sans nous.

Une semaine ordinaire pour l’Anthropocène

En sept jours, la planète enregistre simultanément un record de CO₂, une canicule marine, des mégafeux, un blanchissement coralien massif et un nouveau déversement pétrolier. Malgré la diversité géographique des crises, le diagnostic converge. La trajectoire actuelle de nos émissions et de nos modèles de développement nourrit un enchaînement de catastrophes interconnectées. Les alertes scientifiques se succèdent plus vite que les réponses politiques. À moins d’un sursaut de gouvernance climatique et d’une transition énergétique accélérée, ces « mauvaises nouvelles » risquent de devenir la norme hebdomadaire de notre futur proche.

Vague de chaleur meurtrière en Inde

Un recours d’urgence déposé devant la Cour suprême recense plus de 700 décès liés aux températures extrêmes depuis le début de la saison chaude. Les juges somment le gouvernement d’appliquer sans délai les protocoles nationaux de gestion des catastrophes faute de quoi l’hécatombe pourrait s’aggraver.

Le seuil des 430 ppm de CO₂ franchi à Mauna Loa

Les mesures quotidiennes de l’observatoire hawaïen ont enregistré 430,88 ppm le 21 mai, un pic historique confirmant l’accélération de l’effet de serre ; la moyenne de la semaine reste supérieure à 429 ppm.

3. Canicule marine au large du Royaume-Uni et de l’Irlande

Des eaux jusqu’à 4 °C au-dessus des normales saisonnières frappent les côtes de Cornouailles, du Devon et l’ouest de l’Irlande. Les biologistes redoutent des mortalités massives dans les chaînes trophiques littorales si l’épisode persiste.

4. Blanchissement coralien global : 83,8 % des récifs sous stress thermique

Le dernier bulletin NOAA confirme que l’événement de blanchissement actuel est le plus vaste jamais mesuré. 83 pays ont déjà signalé des récifs exsangues, et la saison chaude n’est pas terminée.

5. Déversement d’hydrocarbures au large du Kerala

Le cargo MSC Elsa 3 a coulé à 14 milles nautiques de Thottappally, libérant son carburant et une centaine de conteneurs. Pêche interdite, littoral en alerte et mobilisation de la garde côtière. l’Inde gère une urgence écologique supplémentaire.

6. Incendies hors de contrôle au Manitoba et dans le Minnesota

Plus de 40 000 hectares partis en fumée, deux morts et des centaines d’évacués. La saison des feux nord-américains commence précocement car dopée par la sécheresse et des vents violents.

7. 97 % des districts du Gujarat classés « très à risque chaleur »

Une étude du CEEW révèle que quasiment tout l’État est désormais en catégorie de vulnérabilité maximale, exposant 60 millions d’habitants à des vagues de chaleur plus longues et plus chaudes.

8. Le « projet de dévastation » adopté par le Sénat brésilien

Le texte, qui érode les obligations d’étude d’impact pour mines, barrages et agro-industrie, pourrait sacrifier 18 millions d’hectares d’aires protégées et compromettre l’objectif « zéro déforestation ».

9. Inondations en cascade en Nouvelle-Galles du Sud

Après des pluies torrentielles, plus de 3 600 déclarations d’assurance ont été déposées. Des localités restent isolées et les autorités exhortent la population à éviter les routes submergées.

10. Crevasses géantes en plein cœur de la calotte groenlandaise

Des chercheurs signalent l’apparition de fissures atteignant plus de 100 m de largeur. Elles sont des symptômes d’un écoulement accéléré vers l’océan qui aggrave la montée du niveau marin.

Bonnes métamorphoses et à la semaine prochaine.

Stéphane