risk - RiskInsight

Fuite de données : comment les chatbots d’IA peuvent faire fuiter vos informations

Jeanne PIGASSOU — Wed, 21 May 2025 14:38:52 +0000

Le chatbot vedette d’OpenAI, ChatGPT, faisait la une des journaux il y a 18 mois pour avoir accidentellement divulgué les informations personnelles d’un PDG, après lui avoir demandé de répéter un mot à l‘infini Cet incident n’est qu’un parmi de nombreux autres exploits découverts ces derniers mois.

Figure 1 : L’exemple d’une fuite de données personnelles dans ChatGPT (décembre 2023)

Des scandales de ce type révèlent une réalité plus profonde : l’architecture même des grands modèles de langage (LLMs ) comme ChatGPT-4 ou Gemini de Google est, par nature, sujette aux fuites de données. Ces fuites peuvent concerner des informations personnelles identifiables (PII) ou des données confidentielles d’entreprise.

Si les techniques employées par les attaquants continueront d’évoluer en réponse aux défenses renforcées des géants technologiques, les vecteurs sous-jacents, eux, restent inchangés.

Aujourd’hui, trois vecteurs principaux permettent aux PII (informations personnelles identifiables) ou aux données sensibles d’être exposées à ce type d’attaques :

L’utilisation de contenus web accessibles au public dans les jeux de données d’entraînement
Le réentraînement continu des modèles à partir des requêtes et conversations des utilisateurs
L’introduction de fonctionnalités de mémoire persistante dans les chatbots

Fuites de données de pré-entraînement des LLM

La plupart des modèles disponibles aujourd’hui sont fondés sur des architecturesfuite transformers, en particulier les GPT (Generative Pre-Trained Transformers). Le terme pré-entraîné dans GPT fait référence à la phase initiale d’entraînement, durant laquelle le modèle est exposé à un corpus massif et diversifié de données, sans lien direct avec son application finale. Cette étape permet au modèle d’apprendre des bases essentielles comme la grammaire, le vocabulaire et des faits généraux.

Lorsque les premiers GPT ont été lancés, les entreprises communiquaient de manière transparente sur la provenance des données d’entraînement. Mais aujourd’hui, les plus grands modèles disponibles sur le web s’appuient sur des jeux de données devenus trop vastes et trop variés, souvent gardés confidentiels.

Une source majeure des données utilisées pour le pré-entraînement des GPT provient des forums en ligne tels que Reddit (pour les modèles de Google), Stack Overflow, et d’autres plateformes sociales. Cela représente un risque important, car ces forums contiennent souvent des informations personnelles identifiables (PII). Bien que les entreprises affirment filtrer ces données sensibles durant l’entraînement, de nombreux exemples ont montré que les LLM peuvent malgré tout divulguer des données personnelles issues de leur corpus d’entraînement, notamment lorsqu’ils sont soumis à des techniques de prompt engineering* ou de jailbreaking* . Ce risque ne fera que croître, à mesure que les entreprises accélèreront la collecte de données par web scraping pour entrainer des modèles toujours plus grands et plus sophistiqués.

Les fuites connues de ce type sont pour la plupart découvertes par des chercheurs, qui conçoivent des méthodes toujours plus créatives pour contourner les défenses des chatbots. L’exemple mentionné plus tôt en est une illustration: en demandant au chatbot de répéter indéfiniment un mot, celui-ci « oublie » sa tâche initiale et adopte un comportement connu sous le nom de mémorisation. Dans cet état, le chatbot régurgite des données issues de son ensemble d’entraînement. Bien que cette attaque ait été corrigée, de nouvelles techniques de prompt continuent d’émerger pour modifier le comportement des chatbots.

Réexploitation des saisies utilisateur pour le réentraînement

Le réentraînement à partir des saisies utilisateur est le processus qui consiste à améliorer en continu le LLM en l’entraînant sur les entrées fournies par les utilisateurs. Cela peut se faire de plusieurs manières. La plus répandue étant le RLHF (Reinforcement Learning from Human Feedback), ou apprentissage par renforcement à partir de retours humains.

Figure 2: Le bouton de retour utilisé pour le RHLF

Cette méthode repose sur la collecte de retours utilisateurs concernant les réponses générées par le LLM. De nombreux utilisateurs de LLM ont probablement vu les boutons « Pouce en haut » ou « Pouce en bas » dans ChatGPT ou d’autres plateformes de LLM. Ces boutons permettent de collecter les avis des utilisateurs qui seront utilisés pour réentraîner le modèle. Si l’utilisateur indique que la réponse est positive, la plateforme prend le couple entrée utilisateur / sortie du modèle et encourage le modèle à reproduire ce comportement. De même, si l’utilisateur indique que la performance du modèle est insatisfaisante, ce couple entrée utilisateur / sortie du modèle sera utilisé pour décourager le modèle de reproduire ce comportement.

Cependant, le réentraînement continu peut également avoir lieu sans aucune interaction utilisateur. Les modèles peuvent parfois utiliser les entrées des utilisateurs et les sorties des modèles pour se réentraîner de manière aléatoire. Le manque de transparence de la part des fournisseurs et développeurs de modèles rend difficile la détermination exacte du processus. Toutefois, de nombreux utilisateurs sur internet ont rapporté que les modèles acquéraient de nouvelles connaissances à travers le réentraînement à partir des discussions d’autres utilisateurs, remontant jusqu’en 2022. Par exemple, le GPT 3.5 d’OpenAI ne devrait pas être capable de connaître des informations après septembre 2021 (date du contenu le plus récent utilisé pour son entrainement). Pourtant, en lui demandant des informations récentes, telles que la nouvelle position d’Elon Musk en tant que PDG de Twitter (maintenant X), vous obtiendrez une réponse différente.

Essentiellement, cela signifie pour les utilisateurs finaux que leurs discussions ne sont absolument pas confidentielles, et toute information donnée au LLM via des documents internes, des comptes rendus de réunions ou des lignes de code de développement pourrait apparaître dans les discussions d’autres utilisateurs, entraînant ainsi des fuites. Cela pose des risques importants pour la confidentialité, non seulement pour les individus, mais aussi pour les entreprises. Un exemple notable s’est produit en avril 2023, lorsque Samsung a interdit l’utilisation de ChatGPT et d’autres chatbots similaires après qu’un groupe d’employés avait utilisé l’outil pour ecrire des lignes de code et pour résumer des notes de réunion. Bien que Samsung ne dispose d’aucune preuve concrète que les données aient été utilisées par OpenAI, le risque a été jugé trop élevé pour permettre aux employés de continuer à utiliser l’outil. Il s’agit d’un exemple classique de Shadow AI*, où l’utilisation non autorisée des outils d’IA pourrait entrainer une fuite d’informations confidentielles ou propriétaires.

De nombreuses entreprises à l’échelle mondiale attendent des régulations plus strictes sur l’IA et les données avant d’utiliser les LLM à des fins commerciales. Certaines industries, comme le conseil, commencent à s’ouvrir, mais de manière encore très progressive. D’autres entreprises, en revanche, renforcent leur contrôle sur l’utilisation interne des LLM pour éviter les fuites de données confidentielles et d’informations sur leurs clients.

Mémoire persistante

Bien que les deux risques précédents soient connus depuis quelques années, une nouvelle menace est apparue avec l’introduction d’une fonctionnalité par ChatGPT en septembre 2024. Cette fonctionnalité permet au modèle de conserver une mémoire à long terme des conversations utilisateurs. L’idée est de réduire la redondance en permettant au chatbot de se souvenir des préférences de l’utilisateur, du contexte et des interactions précédentes, améliorant ainsi la pertinence et la personnalisation des réponses.

Cependant, cette commodité comporte un risque de sécurité important. Contrairement aux failles précédentes, où les informations divulguées étaient plus ou moins aléatoires, la mémoire persistante introduit un ciblage du compte . Désormais, les attaquants pourraient potentiellement exploiter cette mémoire pour extraire des détails spécifiques de l’historique d’un utilisateur particulier, augmentant ainsi considérablement les risques.

Le chercheur en sécurité Johannes Rehberger a démontré comment cette vulnérabilité pourrait être exploitée via une technique appelée empoisonnement de contexte (context poisoning). Dans sa démonstration, il a créé un site avec une image malveillante contenant des instructions. Une fois que le chatbot ciblé consulte l’URL, sa mémoire persistante est « empoisonnée ». Le chatbot peut ainsi être manipulé et des informations sensibles de l’historique de conversation de la victime peuvent être extraites et transmises à une URL externe.

Cette attaque est particulièrement dangereuse car elle combine persistance et discrétion. Une fois implantée dans le chatbot, elle reste active indéfiniment, exfiltrant continuellement les données de l’utilisateur jusqu’à ce que la mémoire soit nettoyée. En même temps, elle est suffisamment subtile pour passer inaperçue, nécessitant une analyse minutieuse de la mémoire pour être détectée.

Confidentialité des données des LLM et stratégies de mitigation

Les développeurs de LLM rendent souvent difficile la désactivation du réentraînement, car cela profite au développement de leurs modèles. Si vos informations personnelles sont déjà publiques, elles ont probablement été récupérées par des processus de scraping et utilisées pour le pré-entraînement d’un LLM. De plus, si vous avez donné un document confidentiel à ChatGPT ou à un autre LLM dans votre prompt (sans avoir désactivé manuellement le réentraînement), il a potentiellement déjà été utilisé pour le réentraînement.

Actuellement, il n’existe pas de technique fiable permettant à un individu de demander la suppression de ses données une fois qu’elles ont été utilisées pour l’entraînement d’un modèle. Il existe un domaine de recherche émergent appelé Machine Unlearning qui tente de répondre à ce défi. Ce domaine se concentre sur le développement de méthodes permettant de supprimer sélectivement l’influence de données spécifiques d’un modèle entraîné, effaçant ainsi ces données de la mémoire du modèle. Ce domaine évolue rapidement, notamment en réponse aux réglementations RGPD qui imposent le droit à l’effacement. Pour cette raison, il est important de minimiser ces risques à l’avenir en contrôlant les données que les individus et les organisations diffusent sur internet et les informations que les employés ajoutent dans leurs prompts.

Il est essentiel pour de nombreuses opérations commerciales que la confidentialité des données soit maintenue. Cependant, l’augmentation de la productivité que les LLM apportent au travail des employés ne peut être ignorée. Pour cette raison, nous avons élaboré un cadre en trois étapes pour garantir que les organisations puissent exploiter la puissance des LLM sans perdre le contrôle de leurs données.

Choisir le modèle, l’environnement et la configuration les plus optimaux

Assurez-vous que l’environnement et le modèle que vous utilisez sont bien sécurisés. Vérifiez la période de rétention des données du modèle et la politique du fournisseur concernant le réentraînement sur les conversations des utilisateurs. Assurez-vous que l’option « Suppression automatique » est activée et que « Historique des discussions » est désactivé.

Chez Wavestone, nous avons développé un outil qui compare les 3 modèles propriétaires et open-source principaux en termes de tarification, période de rétention des données, garde-fous et confidentialité pour aider les organisations dans leur parcours en IA.

Sensibiliser les employés aux bonnes pratiques lors de l’utilisation des LLM

Assurez-vous que vos employés comprennent le danger de fournir des informations confidentielles aux LLM et ce qu’ils peuvent faire pour minimiser l’ajout d’informations confidentielles ou personnelles dans le corpus de données de pré-entraînement et de réentraînement du LLM.

Mettre en place une politique interne solide sur l’IA

Pour anticiper les challenges à venir, les entreprises devraient mettre en place une politique interne robuste sur l’IA qui spécifie :

Quelles informations peuvent et ne peuvent pas être partagées avec les LLM en interne
La surveillance du comportement de l’IA
La limitation de leur présence en ligne
L’anonymisation des données
Limiter l’utilisation aux outils d’IA sécurisés

En suivant ces étapes, les organisations peuvent minimiser les risques numériques auxquels elles sont confrontées en utilisant les derniers outils GenAI tout en bénéficiant des augmentations de productivité qu’ils apportent.

Perspectives…

Les vulnérabilités en matière de confidentialité des données mentionnées dans cet article affectent des individus comme vous et moi. Leurs origines résident dans l’appétit insatiable des développeurs de LLM pour les données. Cet appétit pour les données assure des produits finis de meilleure qualité, mais au prix de la confidentialité des données et de l’autonomie.
De nouvelles réglementations et technologies ont été mises en place pour lutter contre ce problème, comme le règlement européen sur l’IA (EU AI Act) et la liste des 10 meilleures pratiques LLM d’OWASP. Cependant, se fier uniquement à une gouvernance responsable ne suffit pas. Les individus et les organisations doivent activement reconnaître le rôle critique que jouent les informations personnellement identifiables dans le paysage numérique actuel et prendre des mesures proactives pour les protéger. Cela est d’autant plus important à mesure que nous avançons vers des systèmes d’IA plus agentiques, qui interagissent de manière autonome avec plusieurs services tiers. Ces systèmes traiteront non seulement une quantité croissante de données personnelles et sensibles, mais ces données seront également transmises et manipulées par de nombreux services différents, compliquant ainsi la surveillance et le contrôle.

Références

[1] D. Goodin, “OpenAI says mysterious chat histories resulted from account takeover,” Ars Technica, https://arstechnica.com/security/2024/01/ars-reader-reports-chatgpt-is-sending-him-conversations-from-unrelated-ai-users/ (accessed Jul. 13, 2024). 

[2] M. Nasr et al., “Extracting Training Data from ChatGPT,” not-just-memorization , Nov. 28, 2023. Available: https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html 

[3] “What Is Confidential Computing? Defined and Explained,” Fortinet. Available: https://www.fortinet.com/resources/cyberglossary/confidential-computing#:~:text=Confidential%20computing%20refers%20to%20cloud 

[4] S. Wilson, “OWASP Top 10 for Large Language Model Applications | OWASP Foundation,” owasp.org, Oct. 18, 2023. Available: https://owasp.org/www-project-top-10-for-large-language-model-applications/ 

[5] “Explaining the Einstein Trust Layer,” Salesforce. Available: https://www.salesforce.com/news/stories/video/explaining-the-einstein-gpt-trust-layer/ 

[6] “Hacker plants false memories in ChatGPT to steal user data in perpetuity” Ars Technica , 24 sept. 2024 Available: https://arstechnica.com/security/2024/09/false-memories-planted-in-chatgpt-give-hacker-persistent-exfiltration-channel/

[7] “Why we’re teaching LLMs to forget things” IBM, 07 Oct 2024 Available: https://research.ibm.com/blog/llm-unlearning

Cet article Fuite de données : comment les chatbots d’IA peuvent faire fuiter vos informations est apparu en premier sur RiskInsight.

La quantification du risque cybersécurité

Fr@Nc0isLuqu3t — Wed, 03 Jun 2020 12:49:19 +0000

A date, il est intéressant de noter que ce sont les attaques réelles elles-mêmes qui nous permettent le plus aisément de quantifier les risques cyber, et ce par l’estimation des coûts engendrés. On estime ainsi que NotPetya, le fameux malware à 1 milliard, aurait couté plus de 300 millions à des grandes entreprises, de type Fedex, Saint Gobain, et bien d’autres… Ces estimations restent cependant très approximatives et ne sont généralement faisables que plusieurs mois après une attaque. Dès lors, comment anticiper les risques liés aux attaques cyber ? Comment quantifier ce risque avec plus ou moins de fiabilité ?

Aujourd’hui, une attention forte est portée à la quantification du risque, et à juste titre. Il reste pour autant un sujet très complexe. Deux raisons évidentes à cela : nous manquons cruellement d’informations et de retours d’expérience précis sur le sujet ; mais aussi parce que les attaques cyber engendrent de nombreux impacts intangibles (réputation, désorganisation interne, préjudice stratégique, arrêt des opérations) ; ou à couts indirects (chute des ventes, pénalités contractuelles, baisse de valorisation de l’entreprise sur les marchés, etc.).

Nous distinguons aujourd’hui des pistes prometteuses pour quantifier le risque, et des premières solutions permettant d’automatiser cette quantification.

Pourquoi chercher à quantifier le risque cybersécurité ?

Que ce soit pour échanger avec les directions générales, les métiers, voire même les assureurs, il y a un véritable besoin de parvenir à évaluer les risques cyber de la manière la plus objective possible. L’enjeu est double : gagner en pertinence et en légitimité. L’une des pistes possibles est donc de traiter le risque cyber sous le prisme financier, comme tous les autres risques de l’entreprise pour les rendre significatifs pour les décideurs.

Convaincre et démontrer l’efficacité des investissements auprès des comités exécutifs

L’un des véritables enjeux de la quantification des risques cyber réside dans la construction d’une relation de confiance avec les comités exécutifs sur le long-terme. Dans un premier temps, adopter un discours clair pour les convaincre et décrocher des investissements nécessaires au lancement de programmes de sécurité structurants. Pour ensuite démontrer l’efficacité des investissements menés et ainsi pérenniser la relation avec les comités exécutifs dans le temps : démontrer la réduction des risques de manière chiffrée et l’évolution du risque sur plusieurs années. Cela est clé, notamment à la suite de la crise COVID va déboucher sur une réduction et une optimisation des budgets cybersécurité au sein des entreprises. Il sera donc primordial de quantifier le risque cyber pour un contrôle plus fort sur le ROI des investissements cybersécurité.

Sensibiliser et ainsi embarquer les métiers dans la démarche de cybersécurité

La démarche de sécurisation du système d’information d’une entreprise ne peut se faire sans l’instauration du Security by Design, et en ce sens, ne peut se faire sans embarquer les métiers. Parler le même langage est donc nécessaire.

Adapter les plans d’assurance sécurité (PAS) pour ne pas être pris au piège

Enfin, afin de ne pas se retrouver au pied du mur en cas d’attaque, il est primordial pour les entreprises d’anticiper les potentiels coûts d’une attaque afin d’adapter les provisions et les assurances. Cette quantification leur permet de réaliser cela.

Quelles sont les principales difficultés à date ?

Des impacts qui restent pour la plupart intangibles, ou indirects

Compte tenu de leur nature intangible, il parait de prime abord complexe d’évaluer objectivement certains impacts d’attaques cyber. C’est par exemple le cas de l’impact sur l’image de marque, sur la réputation d’une entreprise ou encore le préjudice stratégique, la désorganisation interne. D’autres risques sont bel et bien tangibles mais indirects, ce qui complexifie encore la tâche des entreprises souhaitant quantifier leurs risques, c’est par exemple le cas de la perte de parts de marchés, de la baisse de valorisation de l’entreprise sur les marchés, etc

Une difficulté à estimer avec certitude le degré d’exposition d’une entreprise au risque cyber

Il n’existe pas de formule universelle pour calculer l’impact d’une attaque sur une entreprise. Cela dépend de nombreux paramètres : taille de l’entreprise, niveau de complexité et d’ouverture du système d’information, maturité cyber, etc. Le niveau d’exposition d’une entreprise dépend essentiellement de son niveau de maturité cyber sécurité. Il existe des référentiels tels que NIST, ISO, CIS, etc. pour estimer le niveau de maturité en cybersécurité, mais encore peu d’entreprises parviennent à les mettre en œuvre ou à les utiliser pleinement.

Un cruel manque d’informations sur les attaques les plus récentes et leur coût

Les entreprises souhaitant quantifier leurs risques cyber sont confrontées à une absence de base de données statistiques sur le coût des cyber-attaques. Bien sûr, la plupart des entreprises communiquent peu, voire pas à ce sujet, probablement pour ne pas effrayer leurs clients et leurs partenaires. Et pourtant, la collaboration serait clé face à des attaquants toujours plus astucieux : tant pour augmenter leur cyber-résilience que pour faciliter la quantification du risque. Par exemple, les entreprises Altran et Norsk Hydro ont été touchées par des ransomwares similaires en provenance du même groupe d’attaquants !

Quelques premières pistes pour quantifier le risque cybersécurité

Christine Lagarde, présidente du FMI, s’est d’ores et déjà emparée du sujet et a publié un billet et une méthodologie de quantification des risques s’appliquant au secteur bancaire, utilisée au sein du FMI. Alors comment étendre la quantification aux autres secteurs ?

Les prérequis à une quantification des risques optimale

La méthodologie FAIR est l’une des plus répandues pour quantifier les risques. Une quantification des risques efficace induit :

Une bonne connaissance de ses risques les plus critiques. En effet, vu la complexité de FAIR, il ne vaut mieux pas s’éparpiller et se concentrer sur les scénarios de risque les plus importants. Encore faut-il les connaître ! Un travail de cartographie des risques est à prévoir dans lequel la mobilisation des métiers sera nécessaire ;
Une bonne compréhension des mesures de sécurité existantes pour estimer sa capacité à résister à des attaques et les impacts résiduels ;
Une première ébauche d’un référentiel des coûts types (honoraires d’avocats, de cabinet de communication, etc.), que sera complété dans le temps, ce qui nécessite une expertise métier pour identifier et estimer les coûts.

Aussi, l’estimation du coût des risques, du fait de sa nature transverse appelle à la collaboration de nombreux acteurs de l’entreprise (RH, juridique, etc.), ce qui peut être complexe à mettre en place.

La méthodologie FAIR, une approche qui vient préciser certaines phases de l’analyse et du traitement des risques

Introduction à la méthodologie FAIR (Factor Analysis of Information Risk)

En 2001, Jack Jones était le RSSI de Nationwide Insurance. Il était lui-même confronté aux interrogations persistantes de sa direction générale lui demandant des données chiffrées sur les risques auxquels était exposée l’entreprise. Face à l’insatisfaction causée par le flou de ses réponses, Jack Jones a mis en place une méthodologie pour estimer, de manière chiffrée, les risques pesant sur son entreprise, c’est la méthodologie FAIR.

Concrètement, comment celle-ci se différencie d’une méthodologie d’analyse des risques, tel que EBIOS ?

La méthodologie FAIR ne vient en aucun cas remplacer l’analyse de risque : FAIR est une méthodologie permettant d’évaluer les impacts et les probabilités d’un risque de manière plus fiable. Les impacts sont toujours traduits en pertes financières afin de rendre tangible l’évaluation réalisée. Les compléments apportés sont illustrés par le schéma ci-dessous.

Schéma 1 : FAIR, une approche qui précise certaines phases de l’analyse et du traitement des risques

Habituellement, l’évaluation du risque cyber se traduit par plusieurs types d’impact (impact d’image, financier, opérationnel, juridique, etc). La particularité de la méthodologie FAIR est de transposer chaque impact à un coût financier (coûts direct, indirects, tangibles et intangibles). Par exemple, si un scénario de risque présente un impact sur l’image de l’entreprise, FAIR traduit ce risque sous forme de risque financier en évaluant le coût de l’agence de communication que l’on mobilisera afin de redresser l’image de l’entreprise notamment. Si le directeur général d’une entreprise est mobilisé dans le cadre d’une gestion de crise, alors il faudra estimer le temps passé à gérer cette crise et monétiser celui-ci.

Comment appliquer la méthodologie FAIR ?

Un risque quantifié en euro est le facteur de la fréquence d’attaque réussie (loss event frequency) et le coût de l’attaque réussie (loss magnitude). Le schéma ci-dessus présente la démarche utilisée par la méthodologie FAIR afin d’estimer ces deux caractéristiques.

Schéma 2 : les critères pris en compte par la méthodologie FAIR pour estimer les risques (traduction non disponible à date)

Calcul de la « Loss Event Frequency »

Le « contact frequency » représente la fréquence à laquelle la menace (« threat agent ») entre en contact avec le bien à protéger. Par exemple, il peut s’agir de la fréquence à laquelle a lieu une catastrophe naturelle à endroit donné.

La « probability of action » est la probabilité que la menace agisse de manière malveillante sur le système une fois le contact effectué. Celui-ci ne s’applique que lorsque le threat agent est un être vivant (ne s’applique pas dans le cas d’une tornade par exemple). Cela se déduit du gain, de l’effort et du coût de l’attaque et des risques.

De ces deux paramètres en découle la « threat event frequency ».

La « threat capability » consiste à estimer les capacités du threat agent tant en matière de compétences (expérience et savoir) qu’en matière de ressources (temps et matériel).

La « resistance strength » est la capacité de resistance de l’entreprise face à ce scénario d’attaque. la resistance threat se calcule à partir du niveau de maturité cyber de l’entité par exemple avec une analyse d’écart à NIST.

De ces deux paramètres en découle la « vulnerability », puis la « loss event frequency ».

Calcul de la « Loss Magnitude »

Les « primary loss » constituent le coût des pertes directes. Cela comprend notamment : l’interruption des opérations, les salaires versés aux employés alors que les opérations sont interrompues, le coût de la mobilisation de prestataires pour pallier l’attaque (restaurer les systèmes, mener les investigations), etc.

Les « secondary loss » constituent les pertes indirectes, provenant des réactions d’autres personnes impactées, et sont plus difficiles à estimer. Par exemple, les « secondary loss » peuvent couvrir la perte de part de marché engendrée par la dégradation de l’image de l’entreprise, les coûts de notification d’une attaque via une agence de communication, le paiement d’une amende auprès d’un régulateur ou encore des honoraires d’avocat pour se défendre en justice, etc. Celle-ci se calcule en multipliant la « secondary loss event frequency » et la « secondary loss magnitude » pour chacun des coûts indirects.

Une solution qui accompagne les entreprises dans la mise en application de cette méthodologie

Au-delà de la description théorique de la méthodologie, des solutions se développent pour permettre aux entreprises d’appliquer la méthodologie de manière concrète. C’est le cas de la start-up Citalid qui, par exemple, propose une plateforme de quantification des risques cyber en s’appuyant sur la méthodologie FAIR. Celle-ci permet au RSSI d’affiner et de rendre cohérente la quantification des risques grâce à de la threat intelligence (pour le suivi des attaquants dans le temps). Pour utiliser la solution, l’entreprise doit renseigner des éléments relatifs à son contexte et, pour chacun des scénarios de risque à quantifier, compléter un questionnaire NIST (50 questions pour le plus basique ou 250 pour un niveau de granularité plus fin) et le reste est calculé automatiquement.

Quelles sont les avantages et les limites de la méthodologie FAIR ?

La méthodologie FAIR apporte principalement les éléments suivants :

Elle permet à l’entreprise d’identifier et d’évaluer plus précisément les risques les plus importants. Pour chacun des scénarios de risque choisis, la méthodologie permet une estimation des pertes financières moyennes et maximales et une fréquence estimée. Par exemple : « la probabilité de perdre 150 millions d’euros en raison de la propagation d’un ransomware destructif de type NotPetya exploitant une faille 0-day Windows est de 20% ».
Elle permet l’estimation des coûts-avantages du plan d’actions de réduction des risques. En jouant avec la « resistence strength », il est possible d’estimer le retour sur investissement (ROI) des mesures de sécurité à mettre en place.
Elle transpose tous les risques cyber en un risque financier ce qui permet une meilleure compréhension du risque par les dirigeants de l’entreprise.

Cependant, l’application de FAIR n’est pas sans contraintes car elle demande des ressources parfois importantes (tant en nombre de jours hommes que de connaissance du contexte de l’entreprise). La quantification du risque ne couvre par ailleurs qu’un périmètre restreint (1 scénario de risque). Aussi, la quantification du risque avec la méthodologie FAIR nécessite d’être affinée avec des abaques types de coûts associés à un impact cyber. Cela peut par exemple se faire en capitalisant sur les analyses post-mortem d’un crise cyber qui permettent souvent de donner une illustration réelle des impacts financiers.

Ainsi, la méthodologie FAIR est une piste prometteuse mais qu’il faudra se l’approprier dans le but d’en tirer des bénéfices concrets.

Cet article La quantification du risque cybersécurité est apparu en premier sur RiskInsight.