Loi 25: L’intelligence artificielle au service du respect de la vie privée

L’arrivée de la loi 25 le 23 septembre 2023 amène les entreprises à adopter de nouveaux standards au niveau des opérations analytiques et marketing. Certains principes directeurs doivent être suivis: offrir une transparence dans l’utilisation des données personnelles, assurer une sécurité des données clients, demander l’obtention du consentement explicite et permettre le droit à l’oubli.

Pour comprendre l’impact de la loi 25, vous pouvez consulter notre webinaire qui traite de plusieurs enjeux et mesures d’atténuation.

Un des points souvent non mentionnés est la possibilité de pouvoir utiliser, au sein de son entreprise, des données dépersonnalisées sans le consentement de l’utilisateur à des fins de statistiques et de recherche. Ceci constitue une exception à la loi. Il est important de noter que les entreprises s’exposent à des amendes si les données ont des risques de réidentification. Il est aussi recommandé d'effectuer une évaluation des facteurs relatifs à la vie privée (EFVP) pour s’assurer que l’entreprise a mis en place toutes les mesures nécessaires pour minimiser les risques de réidentification. Quand la situation le permet, la commission d’accès à l’information du Québec privilégie l’obtention du consentement d'où l'importance de l’EFVP.

Ce paragraphe ne constitue pas un avis légal, veuillez consulter vos équipes légales afin de déterminer des risques associés à une telle initiative.

Ceci nous amène à définir: qu’est-ce qu’un renseignement dépersonnalisé?

L’importance de la dépersonnalisation

Selon la loi 25, un renseignement est dépersonnalisé lorsqu’il ne permet plus d’identifier l'individu et que les risques de réidentification sont mineurs. L'entreprise a la responsabilité de mettre en place toutes les mesures pour éviter une réidentification. La dépersonnalisation est différente de l’anonymisation. Au cours des dernières années, certaines techniques utilisées pour l'anonymisation ont montré leurs failles.

Exemple de stratégies traditionnelles d’anonymisation utilisées par les organisations :

Masquer le nom ou le courriel de la personne (identifiants masqués)
Remplacer le nom ou le courriel par un chiffre arbitraire (identifiants randomisés)
Agréger les données afin de ne pas avoir accès aux observations granulaires (agrégation)

Les deux techniques connues pour réellement dépersonnaliser les renseignements personnels sont les données synthétiques (synthetic data) et la confidentialité différentielle (differential privacy). Nous allons les aborder brièvement dans les sections suivantes.

Les données synthétiques (synthetic data)

Les données synthétiques sont des données fictives générées par un modèle l’intelligence artificielle (IA), ces données fictives respectent les attributs statistiques des données originales. Les modèles de génération de données synthétiques sont souvent considérés comme des modèles d’IA générative (comme ChatGPT). C’est grâce aux différentes avancées en intelligence artificielle et en technologies que ces derniers ont pu démontrer le type de performance qui leur permet aujourd’hui d’avoir une application utile et pertinente.

L’image ci-bas représente de façon très simplifiée des données synthétiques générées par un modèle d’IA. Les propriétés statistiques de l’ensemble de données originales sont respectées malgré que les observations individuelles (dans la copie synthétique) sont fictives.

Le générateur de données synthétiques (modèle IA) s’appelle un synthetizer (en anglais). Le synthetizer est une application qui peut être intégrée à votre architecture de données: entrepôt de données, lac de données, base de données opérationnelles.

Dans la prochaine section, prenons le temps de couvrir la confidentialité différentielle qui est une technique très importante dans la recherche de confidentialité.

La confidentialité différentielle (differential privacy)

La confidentialité différentielle est un cadre de travail mathématique qui permet de protéger les individus d’un ensemble de données en y injectant du bruit.

L’image qui suit, illustre un ensemble de données dans lequel du bruit a été introduit par l’intermédiaire d’un algorithme de confidentialité différentielle.

La notion de bruit se traduit par le retrait ou l’ajout d’observations, à l'intérieur de l’ensemble de données, dans le but de rendre plus difficile la détection de tendances. La confidentialité différentielle n’est pas une nouvelle technique, elle a été mise en relief par Cynthia Dwork and Frank McSherry en 2006. C’est une technique utilisée dans le domaine médical pour préserver la confidentialité des individus dans le cadre de travaux de recherche. Selon le type d'algorithme, le niveau de bruit introduit dans l’ensemble de données peut être contrôlé. Un des défis de la confidentialité différentielle est la quantité de bruit nécessaire pour rendre l’information confidentielle sans perdre l’utilité ou l’information contenu dans le set de données.

Données synthétiques et confidentialité différentielle, un duo gagnant

Les paragraphes qui suivent montrent comment les données synthétiques et la confidentialité différentielle peuvent être de puissantes méthodes pour dépersonnaliser les renseignements personnels. Imaginez pouvoir combiner ces deux techniques pour pouvoir créer un nouvel ensemble de données... Oui, c’est possible!

L’architecture ci-bas (source: Microsoft) représente un algorithme qui combine les deux techniques:

Créer un ensemble de données synthétiques avec confidentialité différentielle constitue un des niveaux les plus élevés de confidentialité pour protéger les renseignements personnels des consommateurs. La réidentification des individus devient extrêmement difficile et, dans certains cas, quasi impossible (grands ensembles de données).

Les avantages liés à l’utilisation de données synthétiques

Gartner estime qu’une majorité des algorithmes d’intelligence artificielle seront entraînés sur de la donnée synthétique (voir figure ci bas).

Il y a de nombreux avantages à utiliser de la donnée synthétique:

Génération des données pour les analyses (incluant apprentissage machine) et tests à peu de coûts;
Réduction considérable des risques de réidentification des personnes et individus;
Simplification des échanges de données entre organisations dans le respect de la vie privée;
Accélération du processus de développement de produits de données et de l’entraînement des modèles d’intelligence artificielle.

Les industries les plus susceptibles d’utiliser les données synthétiques sont le domaine bancaire, les assurances, le domaine médical et les télécommunications. Ces industries possèdent énormément d’informations sensibles sur les patients et consommateurs.

Les données synthétiques sont utilisées pour entraîner des modèles afin de détecter la probabilité de perdre un client, détecter les risques de fraude, identifier les facteurs impactant la satisfaction client, effectuer des tests et partager des données avec des partenaires. Dans un contexte de respect de la vie privée, il est fortement recommandé d’intégrer les données synthétiques dans votre stratégie de données afin de rester moderne et compétitif.

Le plus grand défi lié aux données synthétiques est de s’assurer de ne pas introduire de biais dans le modèle d’intelligence artificielle (le synthetizer). Des algorithmes ayant des biais entraîneront des données synthétiques biaisées, par conséquent, des mauvais résultats et mauvaises décisions pour ses utilisateurs. Un danger qui a déjà été soulevé par beaucoup de chercheurs parmi les dangers liés à une mauvaise calibration des algorithmes d’IA.

Si vous désirez en connaître plus sur ce sujet passionnant, n'hésitez pas à nous contacter!