Fuite de données : comment les chatbots d’IA peuvent faire fuiter vos informations

Le chatbot vedette d’OpenAI, ChatGPT, faisait la une des journaux il y a 18 mois  pour avoir accidentellement divulgué les informations personnelles d’un PDG, après lui avoir demandé de répéter un mot à l‘infini Cet incident n’est qu’un parmi de nombreux autres exploits découverts ces derniers mois.

L’exemple d’une fuite de données personnelles dans ChatGPT (décembre 2023)

Figure 1 : L’exemple d’une fuite de données personnelles dans ChatGPT (décembre 2023)

 

Des scandales de ce type révèlent une réalité plus profonde : l’architecture même des grands modèles de langage (LLMs ) comme ChatGPT-4  ou Gemini de Google est, par nature, sujette aux fuites de données. Ces fuites peuvent concerner des informations personnelles identifiables (PII) ou des données confidentielles d’entreprise.

Si les techniques employées par les attaquants continueront d’évoluer en réponse aux défenses renforcées des géants technologiques, les vecteurs sous-jacents, eux, restent inchangés.

Aujourd’hui, trois vecteurs principaux permettent aux PII (informations personnelles identifiables) ou aux données sensibles d’être exposées à ce type d’attaques :

  • L’utilisation de contenus web accessibles au public dans les jeux de données d’entraînement
  • Le réentraînement continu des modèles à partir des requêtes et conversations des utilisateurs
  • L’introduction de fonctionnalités de mémoire persistante dans les chatbots

 

Fuites de données de pré-entraînement des LLM 

 

La plupart des modèles disponibles aujourd’hui sont fondés sur des architecturesfuite transformers, en particulier les GPT (Generative Pre-Trained Transformers). Le terme pré-entraîné dans GPT fait référence à la phase initiale d’entraînement, durant laquelle le modèle est exposé à un corpus massif et diversifié de données, sans lien direct avec son application finale. Cette étape permet au modèle d’apprendre des bases essentielles comme la grammaire, le vocabulaire et des faits généraux.

Lorsque les premiers GPT ont été lancés, les entreprises communiquaient de manière transparente sur la provenance des données d’entraînement. Mais aujourd’hui, les plus grands modèles disponibles sur le web s’appuient sur des jeux de données devenus trop vastes et trop variés, souvent gardés confidentiels.

Une source majeure des données utilisées pour le pré-entraînement des GPT provient des forums en ligne tels que Reddit (pour les modèles de Google), Stack Overflow, et d’autres plateformes sociales. Cela représente un risque important, car ces forums contiennent souvent des informations personnelles identifiables (PII). Bien que les entreprises affirment filtrer ces données sensibles durant l’entraînement, de nombreux exemples ont montré que les LLM peuvent malgré tout divulguer des données personnelles issues de leur corpus d’entraînement, notamment lorsqu’ils sont soumis à des techniques de prompt engineering* ou de jailbreaking* .  Ce risque ne fera que croître, à mesure que les entreprises accélèreront la collecte de données par web scraping pour entrainer des modèles toujours plus grands et plus sophistiqués.

Les fuites connues de ce type sont pour la plupart découvertes par des chercheurs, qui conçoivent des méthodes toujours plus créatives pour contourner les défenses des chatbots. L’exemple mentionné plus tôt en est une illustration: en demandant au chatbot de répéter indéfiniment un mot, celui-ci « oublie » sa tâche initiale et adopte un comportement connu sous le nom de mémorisation. Dans cet état, le chatbot régurgite des données issues de son ensemble d’entraînement. Bien que cette attaque ait été corrigée, de nouvelles techniques de prompt continuent d’émerger pour modifier le comportement des chatbots.

 

Réexploitation des saisies utilisateur pour le réentraînement

 

Le réentraînement à partir des saisies utilisateur est le processus qui consiste à améliorer en continu le LLM en l’entraînant sur les entrées fournies par les utilisateurs. Cela peut se faire de plusieurs manières. La plus répandue étant le RLHF (Reinforcement Learning from Human Feedback), ou apprentissage par renforcement à partir de retours humains.

The feedback button used for RHLF in chatGPTFigure 2:  Le bouton de retour utilisé pour le RHLF 

 

Cette méthode repose sur la collecte de retours utilisateurs concernant les réponses générées par le LLM. De nombreux utilisateurs de LLM ont probablement vu les boutons « Pouce en haut » ou « Pouce en bas » dans ChatGPT ou d’autres plateformes de LLM. Ces boutons permettent de collecter les avis des utilisateurs qui seront utilisés pour réentraîner le modèle.  Si l’utilisateur indique que la réponse est positive, la plateforme prend le couple entrée utilisateur / sortie du modèle et encourage le modèle à reproduire ce comportement. De même, si l’utilisateur indique que la performance du modèle est insatisfaisante, ce couple entrée utilisateur / sortie du modèle sera utilisé pour décourager le modèle de reproduire ce comportement.

Cependant, le réentraînement continu peut également avoir lieu sans aucune interaction utilisateur. Les modèles peuvent parfois utiliser les entrées des utilisateurs et les sorties des modèles pour se réentraîner de manière aléatoire. Le manque de transparence de la part des fournisseurs et développeurs de modèles rend difficile la détermination exacte du processus. Toutefois, de nombreux utilisateurs sur internet ont rapporté que les modèles acquéraient de nouvelles connaissances à travers le réentraînement à partir des discussions d’autres utilisateurs, remontant jusqu’en 2022. Par exemple, le GPT 3.5 d’OpenAI ne devrait pas être capable de connaître des informations après septembre 2021 (date du contenu le plus récent utilisé pour son entrainement). Pourtant, en lui demandant des informations récentes, telles que la nouvelle position d’Elon Musk en tant que PDG de Twitter (maintenant X), vous obtiendrez une réponse différente.

Essentiellement, cela signifie pour les utilisateurs finaux que leurs discussions ne sont absolument pas confidentielles, et toute information donnée au LLM via des documents internes, des comptes rendus de réunions ou des lignes de code de développement  pourrait apparaître dans les discussions d’autres utilisateurs, entraînant ainsi des fuites. Cela pose des risques importants pour la confidentialité, non seulement pour les individus, mais aussi pour les entreprises. Un exemple notable s’est produit en avril 2023, lorsque Samsung a interdit l’utilisation de ChatGPT et d’autres chatbots similaires après qu’un groupe d’employés avait  utilisé l’outil pour ecrire des lignes de code et pour résumer des notes de réunion. Bien que Samsung ne dispose d’aucune preuve concrète que les données aient été utilisées par OpenAI, le risque a été jugé trop élevé pour permettre aux employés de continuer à utiliser l’outil. Il s’agit d’un exemple classique de Shadow AI*,  où l’utilisation non autorisée des outils d’IA pourrait entrainer une fuite d’informations confidentielles ou propriétaires. 

De nombreuses entreprises à l’échelle mondiale attendent des régulations plus strictes sur l’IA et les données avant d’utiliser les LLM à des fins commerciales. Certaines industries, comme le conseil, commencent à s’ouvrir, mais de manière encore très progressive.  D’autres entreprises, en revanche, renforcent  leur contrôle sur l’utilisation interne des LLM pour éviter les fuites de données confidentielles et d’informations sur leurs clients.

 

Mémoire persistante

 

Bien que les deux risques précédents soient connus  depuis quelques années, une nouvelle menace est apparue avec l’introduction d’une fonctionnalité par ChatGPT en septembre 2024. Cette fonctionnalité permet au modèle de conserver une mémoire à long terme des conversations utilisateurs. L’idée est de réduire la redondance en permettant au chatbot de se souvenir des préférences de l’utilisateur, du contexte et des interactions précédentes, améliorant ainsi la pertinence et la personnalisation des réponses.

Cependant, cette commodité comporte un risque de sécurité important. Contrairement aux failles précédentes, où les informations divulguées étaient plus ou moins aléatoires, la mémoire persistante introduit un ciblage du compte . Désormais, les attaquants pourraient potentiellement exploiter cette mémoire pour extraire des détails spécifiques de l’historique d’un utilisateur particulier, augmentant ainsi considérablement les risques.

 

Le chercheur en sécurité Johannes Rehberger a démontré comment cette vulnérabilité pourrait être exploitée via une technique appelée empoisonnement de contexte (context poisoning). Dans sa démonstration, il a créé un site avec une image malveillante contenant des instructions. Une fois que le chatbot ciblé consulte l’URL, sa mémoire persistante est « empoisonnée ». Le chatbot peut ainsi être manipulé et des informations sensibles de l’historique de conversation de la victime peuvent être extraites et transmises à une URL externe.

Cette attaque est particulièrement dangereuse car elle combine persistance et discrétion. Une fois implantée  dans le chatbot, elle reste active indéfiniment, exfiltrant continuellement les données de l’utilisateur jusqu’à ce que la mémoire soit nettoyée. En même temps, elle est suffisamment subtile pour passer inaperçue, nécessitant une analyse minutieuse  de la mémoire pour être détectée.

 

Confidentialité des données des LLM et stratégies de mitigation

 

Les développeurs de LLM rendent souvent difficile la désactivation du réentraînement, car cela profite au développement de leurs modèles. Si vos informations personnelles sont déjà publiques, elles ont probablement été récupérées par des processus de scraping et utilisées pour le pré-entraînement d’un LLM. De plus, si vous avez donné un document confidentiel à ChatGPT ou à un autre LLM dans votre prompt (sans avoir désactivé manuellement le réentraînement), il a potentiellement déjà été utilisé pour le réentraînement.

Actuellement, il n’existe pas de technique fiable permettant à un individu de demander la suppression de ses données une fois qu’elles ont été utilisées pour l’entraînement d’un modèle. Il existe un domaine de recherche émergent appelé Machine Unlearning qui tente de répondre à ce défi.  Ce domaine se concentre sur le développement de méthodes permettant de supprimer sélectivement l’influence de données spécifiques d’un modèle entraîné, effaçant ainsi ces données de la mémoire du modèle. Ce domaine évolue rapidement, notamment en réponse aux réglementations RGPD qui imposent le droit à l’effacement. Pour cette raison, il est important de minimiser ces risques à l’avenir en contrôlant les données que les individus et les organisations diffusent sur internet et les informations que les employés ajoutent dans leurs prompts.

Il est essentiel pour de nombreuses opérations commerciales que la confidentialité des données soit maintenue. Cependant, l’augmentation de la productivité que les LLM apportent au   travail des employés ne peut être ignorée. Pour cette raison, nous avons élaboré un cadre en trois étapes pour garantir que les organisations puissent exploiter la puissance des LLM sans perdre le contrôle de leurs données.

 

Choisir le modèle, l’environnement et la configuration les plus optimaux

Assurez-vous que l’environnement et le modèle que vous utilisez sont bien sécurisés. Vérifiez la période de rétention des données du modèle et la politique du fournisseur concernant le réentraînement sur les conversations des utilisateurs. Assurez-vous que l’option « Suppression automatique » est activée et que « Historique des discussions » est désactivé.

Chez Wavestone, nous avons développé un outil qui compare les 3 modèles propriétaires et open-source principaux en termes de tarification, période de rétention des données, garde-fous et confidentialité pour aider les organisations dans leur parcours en IA.

 

Sensibiliser les employés aux bonnes pratiques lors de l’utilisation des LLM

Assurez-vous que vos employés comprennent le danger de fournir des informations confidentielles  aux LLM et ce qu’ils peuvent faire pour minimiser l’ajout  d’informations confidentielles ou personnelles dans le corpus de données de pré-entraînement et de réentraînement du LLM.

 

Mettre en place une politique interne solide sur l’IA

Pour anticiper les challenges à venir, les entreprises devraient mettre en place une politique interne robuste sur l’IA qui spécifie :

  • Quelles informations peuvent et ne peuvent pas être partagées avec les LLM en interne
  • La surveillance du comportement de l’IA
  • La limitation de leur présence en ligne
  • L’anonymisation des données  
  • Limiter l’utilisation aux outils d’IA sécurisés

En suivant ces étapes, les organisations peuvent minimiser les risques numériques auxquels elles sont confrontées en utilisant les derniers outils GenAI tout en bénéficiant des augmentations de productivité qu’ils apportent.

 

Perspectives… 

 

Les vulnérabilités en matière de confidentialité des données mentionnées dans cet article affectent des individus comme vous et moi. Leurs origines résident dans l’appétit insatiable des développeurs de LLM pour les données.  Cet appétit pour les données assure des produits finis de meilleure qualité, mais au prix de la confidentialité des données et de l’autonomie.
De nouvelles réglementations et technologies ont été mises en place pour lutter contre ce problème, comme le règlement européen sur l’IA (EU AI Act) et la liste des 10 meilleures pratiques LLM d’OWASP. Cependant, se fier uniquement à une gouvernance responsable ne suffit pas. Les individus et les organisations doivent activement reconnaître le rôle critique que jouent les informations personnellement identifiables dans le paysage numérique actuel et prendre des mesures proactives pour les protéger. Cela est d’autant plus important à mesure que nous avançons vers des systèmes d’IA plus agentiques, qui interagissent de manière autonome avec plusieurs services tiers. Ces systèmes traiteront non seulement une quantité croissante de données personnelles et sensibles, mais ces données seront également transmises et manipulées par de nombreux services différents, compliquant ainsi la surveillance et le contrôle. 

 

Références 

 

[1] D. Goodin, “OpenAI says mysterious chat histories resulted from account takeover,” Ars Technica, https://arstechnica.com/security/2024/01/ars-reader-reports-chatgpt-is-sending-him-conversations-from-unrelated-ai-users/ (accessed Jul. 13, 2024). 

[2] M. Nasr et al., “Extracting Training Data from ChatGPT,” not-just-memorization , Nov. 28, 2023. Available: https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html 

[3] “What Is Confidential Computing? Defined and Explained,” Fortinet. Available: https://www.fortinet.com/resources/cyberglossary/confidential-computing#:~:text=Confidential%20computing%20refers%20to%20cloud 

[4] S. Wilson, “OWASP Top 10 for Large Language Model Applications | OWASP Foundation,” owasp.org, Oct. 18, 2023. Available: https://owasp.org/www-project-top-10-for-large-language-model-applications/ 

[5] “Explaining the Einstein Trust Layer,” Salesforce. Available: https://www.salesforce.com/news/stories/video/explaining-the-einstein-gpt-trust-layer/  

[6] “Hacker plants false memories in ChatGPT to steal user data in perpetuity” Ars Technica , 24 sept. 2024 Available: https://arstechnica.com/security/2024/09/false-memories-planted-in-chatgpt-give-hacker-persistent-exfiltration-channel/ 

[7] “Why we’re teaching LLMs to forget things” IBM, 07 Oct 2024 Available: https://research.ibm.com/blog/llm-unlearning 

 

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Back to top