La digitalisation de la vie quotidienne, entamée il y a deux décennies, est maintenant largement accomplie. Peu s’émeuvent désormais de partager avec l’appli ou le site internet d’un distributeur alimentaire ou d’un assureur leur adresse de résidence, leur adresse mail, leurs habitudes de consommation alimentaire, leur RIB, mais aussi leur statut marital, le prénom de leurs enfants, leur numéro de passeport, leur groupe sanguin et beaucoup d’autres données qui relèvent de leur stricte intimité. 

Les données personnelles seront inévitablement utilisées pour l’entraînement des modèles d’IA. En effet, l’IA est appelée à un nombre croissant d’usages. Pour chaque utilisation, un modèle doit être entraîné avec des données spécifiques à cette finalité. De nombreuses applications nécessiteront un entraînement employant des données personnelles. À titre d’exemple, une intelligence artificielle pertinente sur des questions médicales doit avoir ingéré, pendant son entraînement, des quantités massives de données de santé. 

Des failles insoupçonnées dans les modèles d'IA générative

Les modèles d’IA sont susceptibles de divulguer en clair les données personnelles utilisées pendant leur phase d’entraînement. Le comportement interne des modèles d’IA générative est mal maîtrisé, du fait notamment du gigantisme nécessaire à leur pertinence. Le modèle Chat GPT 4 contiendrait près de 1 800 milliards de paramètres de calcul. Plusieurs équipes de recherche ont montré que ces modèles comportent des failles insoupçonnées par la majorité des utilisateurs, et peuvent, lorsqu’ils sont habilement interrogés, divulguer les données personnelles sensibles qu’ils ont ingérées pendant leur phase d’entraînement. Ces fuites peuvent avoir des conséquences graves pour les individus concernés, tels que le vol d’identité, hameçonnage mais aussi personnalisation de produits ou d’offres personnalisées à l’insu des consommateurs – par exemple ajuster le prix d’une assurance en fonction des habitudes alimentaires fournies par la carte de fidélité d’une grande surface de distribution. 

En outre, les modèles d’IA sont aisément capables d’associer au même individu des données personnelles de nature très différentes, collectées à des sources très éloignées. Une seule requête permet ainsi d’accéder, de façon consolidée, à des données très éparses concernant un seul individu. 

Doit-on pour autant fuir l’IA ? Elle représente une avancée technologique majeure qui apporte des progrès indéniables dans de nombreux domaines. Ces progrès ne pourront être apportés qu’en assurant la protection de chacun, dans une démarche responsable de l’ensemble des acteurs. L'IA responsable s’impose comme un besoin social indispensable. 

L’importance de maîtriser les données

Depuis deux décennies, la protection de ces données personnelles a été fondée sur la sécurité informatique : enregistrement dans des bases de données fortement protégées et limitation de l’accès aux données à un minimum d’employés, sur la base du need to know. L’avènement du RGPD a également permis la restriction des finalités – en principe, les données personnelles ne sont utilisées que pour certaines finalités, certains usages, qui doivent être expliquées de façon parfaitement explicite aux individus au moment de la collecte de leur consentement. 

Face à cette situation, ces deux stratégies conventionnelles de protection de la vie privée sont en échec. En effet, du point de vue de la sécurité informatique, il est impossible de garantir qu’un modèle soit capable de conserver dans ses entrailles et de ne jamais divulguer en clair les données utilisées pour son entraînement. Et du point de vue du consentement, cette même complexité fait qu’il est impossible d’obtenir un accord libre et éclairé des individus sur les finalités et sur les risques réels de ce nouveau type de traitement. 

Il existe une troisième voie, algorithmique, qui consiste à appliquer une étape d’anonymisation profonde aux données personnelles soumises à l’entraînement des modèles d’IA. En d’autres termes, la meilleure façon d’éviter qu’un modèle trahisse des données personnelles est de n’introduire aucune donnée personnelle dans ce modèle. L’anonymisation profonde, telle que définie par le RGPD, consiste à éliminer des données traitées toute possibilité de réidentification, tout en conservant aux données leur valeur statistique. L’individu est dissous dans le nombre, mais les tendances applicables aux groupes d’individus sont conservées, ce qui préserve la pertinence de l’entraînement. 

Ce mécanisme d’anonymisation profonde des données d’entraînement fait partie des préconisations de l’IA Act. Ses caractéristiques mathématiques ont déjà été définies par le RGPD. Il se fonde sur des techniques algorithmiques connues et éprouvées. Il préserve la confidentialité et le droit à la vie privée des individus tout en conservant la pertinence des modèles d’IA. 

L’anonymisation profonde pour une IA responsable 

Pour créer une IA responsable, l'anonymisation profonde des données d’entraînement apparaît comme la seule approche viable pour protéger la vie privée de chacun. Elle doit être conforme aux prescriptions techniques du RGPD, pour garantir l’impossibilité d’apprendre quoi que ce soit sur un individu. 

Le RGPD et plus récemment l’IA Act énoncent les valeurs essentielles à respecter pour préserver les droits des citoyens ; les protéger est un élément fondamental pour nos démocraties, et aucun compromis ne doit être fait au nom du progrès technique. L’IA responsable doit être gravée dans le marbre de toutes les réglementations à venir. 

La protection des données et la transparence dans leur utilisation par les modèles permettent à l’IA de signer un contrat de confiance avec les utilisateurs. En respectant ces valeurs, nous nous engageons tous à construire un environnement technologique où l'innovation est guidée par le respect des droits fondamentaux de tous.