Peut-on (encore) entraîner des IA éthiques avec des données personnelles ?

L’affaire Meta relance un débat central : peut-on entraîner des IA à grande échelle sans consentement éclairé ? À l’heure des collectes massives et des opt-out discrets, la confiance numérique se joue dans la gouvernance des données. Une tribune proposée par Benjamin Lanfry, chief clients & partnerships officer, Ogury, dans le cadre de notre opérations "Tribunes d'été".

Temps de lecture : 6 minutes

Depuis le 27 mai, toutes les publications publiques (textes, photos, commentaires) disponibles sur Facebook et Instagram sont désormais utilisées pour entraîner et améliorer Meta AI, l’agent conversationnel de Meta, au nom d’une meilleure adaptation aux langues et cultures locales. Cependant, cette décision soulève de nombreuses interrogations sur l’éthique d’un entraînement fondé sur des données personnelles, et relance un débat plus large : peut-on concilier développement de l’IA et consentement des individus ?

Entre intérêt légitime et levée de bouclier

Le programme de Meta cristallise les tensions entre innovation et réglementation. En réponse, la société affirme exclure les messages privés et les données des mineurs, et se prévaut d’un intérêt légitime pour justifier le traitement des contenus dits publics. En parallèle, elle met en avant une transparence accrue grâce à la possibilité pour les utilisateurs de s’opposer via un formulaire. Cependant, ce mécanisme d’opt-out a été jugé insuffisant par de nombreuses associations. Le droit d’opposition ne couvrant, en outre, que les contenus publiés par l’utilisateur lui-même, pas ceux le concernant postés par des tiers.
Plusieurs organisations, dont NOYB - l'association autrichienne cofondée par l'activiste et l'avocat Max Schrems - ou UFC-Que Choisir en France, ont en effet dénoncé une interprétation abusive du RGPD. La première a envoyé une mise en demeure à Meta, la seconde a engagé des recours pour pratique commerciale déloyale. Face à ces contestations, Meta assure que sa démarche résulte de discussions avec la Data Protection Commission après la suspension initiale de son projet en 2024, et qu’elle a relancé ce dispositif d'entraînement avec des garanties renforcées (filtrage de données,
nouvelles politiques de confidentialité…).

Néanmoins, le cadre juridique reste incertain. La Cour d’appel de Cologne a débouté des associations allemandes qui tentaient de faire suspendre le programme, faute d’infraction manifeste. Une décision favorable à Meta mais qui ne clôt pas le débat : les autorités de protection des données, dont la CNIL en France, poursuivent leurs investigations pour évaluer la conformité.

Des parties prenantes vulnérables face à l’appétit de l’IA

Cette controverse dépasse le cas de Meta et la seule sphère des données personnelles des utilisateurs. Les éditeurs de contenu en ligne sont eux aussi impactés : leurs articles, images et créations étant massivement utilisés pour entraîner ces IA, souvent sans autorisation ni compensation. En réaction, des actions en justice se sont multipliées au cours des derniers mois. Début juillet, des éditeurs indépendants ont déposé une plainte antitrust contre Google auprès de l’UE, ciblant spécifiquement ses AI Overviews. En France, des éditeurs comme Le Monde ont alerté sur l’impact de ces pratiques, qui transforment leur production intellectuelle en matière première gratuite pour des IA pouvant détourner leur audience.

À cela s’ajoutent des poursuites d’auteurs et d’artistes, comme George R.R. Martin ou Sarah Silverman, excédés de voir leurs œuvres ingérées sans permission. Cependant, les premières décisions ne vont pas nécessairement dans leur sens : la plainte de Silverman contre Meta a par exemple été rejetée, illustrant la difficulté de faire reconnaître la violation de droits dans ce contexte. Certains acteurs explorent alors d’autres voies. En mai dernier, Le Monde a conclu un accord de licence avec Perplexity AI pour encadrer l’usage de ses contenus, tout comme Maddyness en juin. Ces partenariats, encore rares, pourraient préfigurer un nouveau modèle.

Mais pour l’heure, la majorité des données utilisées par les IA provient encore de collectes automatiques non concertées, sans véritable garde-fou. Une toute récente polémique l’illustre parfaitement, et vient d’un acteur peu scruté en matière d’usages de données personnelles : WeTransfer a en effet modifié ses conditions d’utilisation pour s’autoriser, à partir du 8 août, à exploiter les fichiers transférés par les utilisateurs à des fins d’entraînement de ses IA, sans rémunération ni consentement. Sous le feu des projecteurs, l’entreprise a réagi en moins de 48 heures pour annoncer renoncer à cette clause, preuve que la vigilance du public et des médias peut infléchir certaines pratiques.

Régulations et nouveaux modèles de gouvernance

Face à cela, l’Europe affine progressivement son arsenal pour contribuer à une IA plus vertueuse. Le RGPD stipule que les entreprises doivent s’appuyer sur une base légale solide pour tout traitement : consentement explicite ou intérêt légitime dûment justifié. Le Comité Européen de Protection des Données a reconnu en 2024 que ce dernier point peut, dans certains cas, justifier un entraînement d’IA, à condition de garantir l’exclusion des données sensibles, la transparence, et le respect effectif du droit d’opposition. La CNIL a également précisé ces exigences en juin 2025. Parallèlement, l’IA Act impose aux modèles d’IA des obligations de transparence inédites, notamment la documentation précise des sources de leurs données d’entraînement. Certains anticipent la création de sociétés de gestion collective de ces dernières, sur le modèle des organismes de droits d’auteur, afin de reverser des fonds aux contributeurs.

Techniquement, des solutions comme le web scraping - une méthode d’extraction automatisée de données en ligne - pourraient être régulées en respectant les balises d'exclusion. Autre piste : l’entraînement fédéré, une technique qui permet de former des modèles d’IA directement sur les appareils locaux, sans
transférer les données vers un serveur central. Juridiquement, des mécanismes d’opt-out universel ou des places de marché de datasets consentis permettraient de garantir le respect des contributeurs. Cloudflare vient d’aller encore plus loin en devenant le premier fournisseur d'infrastructure web à bloquer par défaut les robots d'exploration IA sur les sites qu’il protège, à moins que les éditeurs ne donnent explicitement leur consentement.

Ces enjeux de gouvernance interrogent par ailleurs toute la chaîne de valeur de l’IA, et la sécurité technique ne doit pas être occultée. Dans une récente lettre ouverte, JPMorgan Chase a révélé les dérives possibles, alors que 78% des déploiements d’IA en entreprise manquent de protocoles de sécurité adaptés et que la plupart des organisations sont incapables d’expliquer les décisions prises par leurs modèles…

L’affaire Meta révèle ainsi à quel point l’innovation avance plus vite que le cadre juridique. Face à cette course technologique, il est urgent d’imposer une gouvernance des données rigoureuse, alliant respect des droits fondamentaux, transparence et sécurité ; car sans confiance, pas d’IA durable possible.