<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Machine learning - RiskInsight</title>
	<atom:link href="https://www.riskinsight-wavestone.com/tag/machine-learning/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.riskinsight-wavestone.com/tag/machine-learning/</link>
	<description>Le blog cybersécurité des consultants Wavestone</description>
	<lastBuildDate>Wed, 21 May 2025 14:38:53 +0000</lastBuildDate>
	<language>fr-FR</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	

<image>
	<url>https://www.riskinsight-wavestone.com/wp-content/uploads/2024/02/Blogs-2024_RI-39x39.png</url>
	<title>Machine learning - RiskInsight</title>
	<link>https://www.riskinsight-wavestone.com/tag/machine-learning/</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Fuite de données : comment les chatbots d’IA peuvent faire fuiter vos informations</title>
		<link>https://www.riskinsight-wavestone.com/2025/05/fuite-de-donnees-comment-les-chatbots-dia-peuvent-faire-fuiter-vos-informations/</link>
					<comments>https://www.riskinsight-wavestone.com/2025/05/fuite-de-donnees-comment-les-chatbots-dia-peuvent-faire-fuiter-vos-informations/#respond</comments>
		
		<dc:creator><![CDATA[Jeanne PIGASSOU]]></dc:creator>
		<pubDate>Wed, 21 May 2025 14:38:52 +0000</pubDate>
				<category><![CDATA[Cloud & Next-Gen IT Security]]></category>
		<category><![CDATA[Focus]]></category>
		<category><![CDATA[AI]]></category>
		<category><![CDATA[Artificial intelligence act]]></category>
		<category><![CDATA[chatbots]]></category>
		<category><![CDATA[data leak]]></category>
		<category><![CDATA[data protection]]></category>
		<category><![CDATA[LLM]]></category>
		<category><![CDATA[Machine learning]]></category>
		<category><![CDATA[risk]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=26031</guid>

					<description><![CDATA[<p>Le chatbot vedette d’OpenAI, ChatGPT, faisait la une des journaux il y a 18 mois  pour avoir accidentellement divulgué les informations personnelles d’un PDG, après lui avoir demandé de répéter un mot à l‘infini Cet incident n’est qu’un parmi de...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2025/05/fuite-de-donnees-comment-les-chatbots-dia-peuvent-faire-fuiter-vos-informations/">Fuite de données : comment les chatbots d’IA peuvent faire fuiter vos informations</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[
<p style="text-align: justify;">Le chatbot vedette d’OpenAI, ChatGPT, faisait la une des journaux il y a 18 mois  pour avoir accidentellement divulgué les informations personnelles d’un PDG, après lui avoir demandé de répéter un mot à l‘infini Cet incident n’est qu’un parmi de nombreux autres exploits découverts ces derniers mois.</p>
<p><img fetchpriority="high" decoding="async" class="aligncenter wp-image-26023 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2025/05/Diapositive1-e1747818653646.jpg" alt="L’exemple d’une fuite de données personnelles dans ChatGPT (décembre 2023)" width="678" height="560" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2025/05/Diapositive1-e1747818653646.jpg 678w, https://www.riskinsight-wavestone.com/wp-content/uploads/2025/05/Diapositive1-e1747818653646-231x191.jpg 231w, https://www.riskinsight-wavestone.com/wp-content/uploads/2025/05/Diapositive1-e1747818653646-47x39.jpg 47w" sizes="(max-width: 678px) 100vw, 678px" /></p>
<p style="text-align: center;"><em>Figure 1 : L’exemple d’une fuite de données personnelles dans ChatGPT (décembre 2023)</em></p>
<p> </p>
<p style="text-align: justify;">Des scandales de ce type révèlent une réalité plus profonde : l’architecture même des grands modèles de langage (LLMs ) comme ChatGPT-4  ou Gemini de Google est, par nature, sujette aux fuites de données. Ces fuites peuvent concerner des informations personnelles identifiables (PII) ou des données confidentielles d’entreprise.</p>
<p style="text-align: justify;">Si les techniques employées par les attaquants continueront d’évoluer en réponse aux défenses renforcées des géants technologiques, les vecteurs sous-jacents, eux, restent inchangés.</p>
<p style="text-align: justify;">Aujourd’hui, trois vecteurs principaux permettent aux PII (informations personnelles identifiables) ou aux données sensibles d’être exposées à ce type d’attaques :</p>
<ul>
<li>L’utilisation de contenus web accessibles au public dans les jeux de données d’entraînement</li>
<li>Le réentraînement continu des modèles à partir des requêtes et conversations des utilisateurs</li>
<li>L’introduction de fonctionnalités de mémoire persistante dans les chatbots</li>
</ul>
<h2> </h2>
<h2 style="text-align: justify;"><strong>Fuites de données de pré-entraînement des LLM</strong> </h2>
<p> </p>
<p style="text-align: justify;">La plupart des modèles disponibles aujourd’hui sont fondés sur des architecturesfuite transformers, en particulier les GPT (Generative Pre-Trained Transformers). Le terme pré-entraîné dans GPT fait référence à la phase initiale d’entraînement, durant laquelle le modèle est exposé à un corpus massif et diversifié de données, sans lien direct avec son application finale. Cette étape permet au modèle d’apprendre des bases essentielles comme la grammaire, le vocabulaire et des faits généraux.</p>
<p style="text-align: justify;">Lorsque les premiers GPT ont été lancés, les entreprises communiquaient de manière transparente sur la provenance des données d’entraînement. Mais aujourd’hui, les plus grands modèles disponibles sur le web s’appuient sur des jeux de données devenus trop vastes et trop variés, souvent gardés confidentiels.</p>
<p style="text-align: justify;">Une source majeure des données utilisées pour le pré-entraînement des GPT provient des forums en ligne tels que Reddit (pour les modèles de Google), Stack Overflow, et d’autres plateformes sociales. Cela représente un risque important, car ces forums contiennent souvent des informations personnelles identifiables (PII). Bien que les entreprises affirment filtrer ces données sensibles durant l’entraînement, de nombreux exemples ont montré que les LLM peuvent malgré tout divulguer des données personnelles issues de leur corpus d’entraînement, notamment lorsqu’ils sont soumis à des techniques de prompt engineering* ou de jailbreaking* .  Ce risque ne fera que croître, à mesure que les entreprises accélèreront la collecte de données par web scraping pour entrainer des modèles toujours plus grands et plus sophistiqués.</p>
<p style="text-align: justify;">Les fuites connues de ce type sont pour la plupart découvertes par des chercheurs, qui conçoivent des méthodes toujours plus créatives pour contourner les défenses des chatbots. L’exemple mentionné plus tôt en est une illustration: en demandant au chatbot de répéter indéfiniment un mot, celui-ci « oublie » sa tâche initiale et adopte un comportement connu sous le nom de mémorisation. Dans cet état, le chatbot régurgite des données issues de son ensemble d’entraînement. Bien que cette attaque ait été corrigée, de nouvelles techniques de prompt continuent d’émerger pour modifier le comportement des chatbots.</p>
<h2 style="text-align: justify;"><strong> </strong></h2>
<h2 style="text-align: justify;"><strong>Réexploitation des saisies utilisateur pour le réentraînement</strong></h2>
<p> </p>
<p style="text-align: justify;">Le <strong>réentraînement à partir des saisies utilisateur</strong> est le processus qui consiste à améliorer en continu le LLM en l’entraînant sur les entrées fournies par les utilisateurs. Cela peut se faire de plusieurs manières. La plus répandue étant le <strong>RLHF</strong> (<em>Reinforcement Learning from Human Feedback</em>), ou <strong>apprentissage par renforcement à partir de retours humains</strong>.</p>
<p style="text-align: center;"><img decoding="async" class="aligncenter wp-image-26025 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2025/05/Diapositive2-e1747818997148.jpg" alt="The feedback button used for RHLF in chatGPT" width="700" height="143" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2025/05/Diapositive2-e1747818997148.jpg 700w, https://www.riskinsight-wavestone.com/wp-content/uploads/2025/05/Diapositive2-e1747818997148-437x89.jpg 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2025/05/Diapositive2-e1747818997148-71x15.jpg 71w" sizes="(max-width: 700px) 100vw, 700px" /><em>Figure 2:  Le bouton de retour utilisé pour le RHLF </em></p>
<p> </p>
<p style="text-align: justify;">Cette méthode repose sur la collecte de retours utilisateurs concernant les réponses générées par le LLM. De nombreux utilisateurs de LLM ont probablement vu les boutons « Pouce en haut » ou « Pouce en bas » dans ChatGPT ou d’autres plateformes de LLM. Ces boutons permettent de collecter les avis des utilisateurs qui seront utilisés pour réentraîner le modèle.  Si l’utilisateur indique que la réponse est positive, la plateforme prend le couple entrée utilisateur / sortie du modèle et encourage le modèle à reproduire ce comportement. De même, si l’utilisateur indique que la performance du modèle est insatisfaisante, ce couple entrée utilisateur / sortie du modèle sera utilisé pour décourager le modèle de reproduire ce comportement.</p>
<p style="text-align: justify;">Cependant, le réentraînement continu peut également avoir lieu sans aucune interaction utilisateur. Les modèles peuvent parfois utiliser les entrées des utilisateurs et les sorties des modèles pour se réentraîner de manière aléatoire. Le manque de transparence de la part des fournisseurs et développeurs de modèles rend difficile la détermination exacte du processus. Toutefois, de nombreux utilisateurs sur internet ont rapporté que les modèles acquéraient de nouvelles connaissances à travers le réentraînement à partir des discussions d’autres utilisateurs, remontant jusqu’en 2022. Par exemple, le GPT 3.5 d’OpenAI ne devrait pas être capable de connaître des informations après septembre 2021 (date du contenu le plus récent utilisé pour son entrainement). Pourtant, en lui demandant des informations récentes, telles que la nouvelle position d’Elon Musk en tant que PDG de Twitter (maintenant X), vous obtiendrez une réponse différente.</p>
<p style="text-align: justify;">Essentiellement, cela signifie pour les utilisateurs finaux que leurs discussions ne sont absolument pas confidentielles, et toute information donnée au LLM via des documents internes, des comptes rendus de réunions ou des lignes de code de développement  pourrait apparaître dans les discussions d’autres utilisateurs, entraînant ainsi des fuites. Cela pose des risques importants pour la confidentialité, non seulement pour les individus, mais aussi pour les entreprises. Un exemple notable s’est produit en avril 2023, lorsque Samsung a interdit l’utilisation de ChatGPT et d’autres chatbots similaires après qu’un groupe d’employés avait  utilisé l’outil pour ecrire des lignes de code et pour résumer des notes de réunion. Bien que Samsung ne dispose d&rsquo;aucune preuve concrète que les données aient été utilisées par OpenAI, le risque a été jugé trop élevé pour permettre aux employés de continuer à utiliser l’outil. Il s’agit d’un exemple classique de <strong>Shadow AI*</strong>,  où l’utilisation non autorisée des outils d&rsquo;IA pourrait entrainer une fuite d’informations confidentielles ou propriétaires. </p>
<p style="text-align: justify;">De nombreuses entreprises à l’échelle mondiale attendent des régulations plus strictes sur l’IA et les données avant d’utiliser les LLM à des fins commerciales. Certaines industries, comme le conseil, commencent à s’ouvrir, mais de manière encore très progressive.  D’autres entreprises, en revanche, renforcent  leur contrôle sur l’utilisation interne des LLM pour éviter les fuites de données confidentielles et d’informations sur leurs clients.</p>
<p> </p>
<h2 style="text-align: justify;"><strong>Mémoire persistante</strong></h2>
<p> </p>
<p style="text-align: justify;">Bien que les deux risques précédents soient connus  depuis quelques années, une nouvelle menace est apparue avec l&rsquo;introduction d&rsquo;une fonctionnalité par ChatGPT en septembre 2024. Cette fonctionnalité permet au modèle de conserver une mémoire à long terme des conversations utilisateurs. L&rsquo;idée est de réduire la redondance en permettant au chatbot de se souvenir des préférences de l&rsquo;utilisateur, du contexte et des interactions précédentes, améliorant ainsi la pertinence et la personnalisation des réponses.</p>
<p style="text-align: justify;">Cependant, cette commodité comporte un risque de sécurité important. Contrairement aux failles précédentes, où les informations divulguées étaient plus ou moins aléatoires, la mémoire persistante introduit un ciblage du compte . Désormais, les attaquants pourraient potentiellement exploiter cette mémoire pour extraire des détails spécifiques de l’historique d’un utilisateur particulier, augmentant ainsi considérablement les risques.</p>
<p> </p>
<p style="text-align: justify;">Le chercheur en sécurité Johannes Rehberger a démontré comment cette vulnérabilité pourrait être exploitée via une technique appelée <strong>empoisonnement de contexte</strong> (<em>context poisoning</em>). Dans sa démonstration, il a créé un site avec une image malveillante contenant des instructions. Une fois que le chatbot ciblé consulte l&rsquo;URL, sa mémoire persistante est « empoisonnée ». Le chatbot peut ainsi être manipulé et des informations sensibles de l’historique de conversation de la victime peuvent être extraites et transmises à une URL externe.</p>
<p style="text-align: justify;">Cette attaque est particulièrement dangereuse car elle combine persistance et discrétion. Une fois implantée  dans le chatbot, elle reste active indéfiniment, exfiltrant continuellement les données de l&rsquo;utilisateur jusqu&rsquo;à ce que la mémoire soit nettoyée. En même temps, elle est suffisamment subtile pour passer inaperçue, nécessitant une analyse minutieuse  de la mémoire pour être détectée.</p>
<h2 style="text-align: justify;"> </h2>
<h2 style="text-align: justify;"><strong>Confidentialité des données des LLM et stratégies de mitigation</strong></h2>
<p> </p>
<p style="text-align: justify;">Les développeurs de LLM rendent souvent difficile la désactivation du réentraînement, car cela profite au développement de leurs modèles. Si vos informations personnelles sont déjà publiques, elles ont probablement été récupérées par des processus de scraping et utilisées pour le pré-entraînement d&rsquo;un LLM. De plus, si vous avez donné un document confidentiel à ChatGPT ou à un autre LLM dans votre prompt (sans avoir désactivé manuellement le réentraînement), il a potentiellement déjà été utilisé pour le réentraînement.</p>
<p style="text-align: justify;">Actuellement, il n&rsquo;existe pas de technique fiable permettant à un individu de demander la suppression de ses données une fois qu&rsquo;elles ont été utilisées pour l&rsquo;entraînement d&rsquo;un modèle. Il existe un domaine de recherche émergent appelé <strong>Machine Unlearning</strong> qui tente de répondre à ce défi.  Ce domaine se concentre sur le développement de méthodes permettant de supprimer sélectivement l&rsquo;influence de données spécifiques d&rsquo;un modèle entraîné, effaçant ainsi ces données de la mémoire du modèle. Ce domaine évolue rapidement, notamment en réponse aux réglementations RGPD qui imposent le droit à l&rsquo;effacement. Pour cette raison, il est important de minimiser ces risques à l&rsquo;avenir en contrôlant les données que les individus et les organisations diffusent sur internet et les informations que les employés ajoutent dans leurs prompts.</p>
<p style="text-align: justify;">Il est essentiel pour de nombreuses opérations commerciales que la confidentialité des données soit maintenue. Cependant, l&rsquo;augmentation de la productivité que les LLM apportent au   travail des employés ne peut être ignorée. Pour cette raison, nous avons élaboré un cadre en trois étapes pour garantir que les organisations puissent exploiter la puissance des LLM sans perdre le contrôle de leurs données.</p>
<p> </p>
<h3><strong>Choisir le modèle, l&rsquo;environnement et la configuration les plus optimaux</strong></h3>
<p>Assurez-vous que l&rsquo;environnement et le modèle que vous utilisez sont bien sécurisés. Vérifiez la période de rétention des données du modèle et la politique du fournisseur concernant le réentraînement sur les conversations des utilisateurs. Assurez-vous que l&rsquo;option « Suppression automatique » est activée et que « Historique des discussions » est désactivé.</p>
<p>Chez Wavestone, nous avons développé un outil qui compare les 3 modèles propriétaires et open-source principaux en termes de tarification, période de rétention des données, garde-fous et confidentialité pour aider les organisations dans leur parcours en IA.</p>
<p> </p>
<h3><strong>Sensibiliser les employés aux bonnes pratiques lors de l’utilisation des LLM</strong></h3>
<p>Assurez-vous que vos employés comprennent le danger de fournir des informations confidentielles  aux LLM et ce qu&rsquo;ils peuvent faire pour minimiser l&rsquo;ajout  d&rsquo;informations confidentielles ou personnelles dans le corpus de données de pré-entraînement et de réentraînement du LLM.</p>
<p> </p>
<h3><strong>Mettre en place une politique interne solide sur l’IA</strong></h3>
<p>Pour anticiper les challenges à venir, les entreprises devraient mettre en place une politique interne robuste sur l&rsquo;IA qui spécifie :</p>
<ul>
<li>Quelles informations peuvent et ne peuvent pas être partagées avec les LLM en interne</li>
<li>La surveillance du comportement de l&rsquo;IA</li>
<li>La limitation de leur présence en ligne</li>
<li>L&rsquo;anonymisation des données  </li>
<li>Limiter l&rsquo;utilisation aux outils d&rsquo;IA sécurisés</li>
</ul>
<p style="text-align: justify;">En suivant ces étapes, les organisations peuvent minimiser les risques numériques auxquels elles sont confrontées en utilisant les derniers outils GenAI tout en bénéficiant des augmentations de productivité qu&rsquo;ils apportent.</p>
<p> </p>
<h2 style="text-align: justify;"><strong>Perspectives…</strong> </h2>
<p> </p>
<p style="text-align: justify;">Les vulnérabilités en matière de confidentialité des données mentionnées dans cet article affectent des individus comme vous et moi. Leurs origines résident dans l’appétit insatiable des développeurs de LLM pour les données.  Cet appétit pour les données assure des produits finis de meilleure qualité, mais au prix de la confidentialité des données et de l&rsquo;autonomie.<br />De nouvelles réglementations et technologies ont été mises en place pour lutter contre ce problème, comme le règlement européen sur l&rsquo;IA (EU AI Act) et la liste des 10 meilleures pratiques LLM d&rsquo;OWASP. Cependant, se fier uniquement à une gouvernance responsable ne suffit pas. Les individus et les organisations doivent activement reconnaître le rôle critique que jouent les informations personnellement identifiables dans le paysage numérique actuel et prendre des mesures proactives pour les protéger. Cela est d&rsquo;autant plus important à mesure que nous avançons vers des systèmes d&rsquo;IA plus agentiques, qui interagissent de manière autonome avec plusieurs services tiers. Ces systèmes traiteront non seulement une quantité croissante de données personnelles et sensibles, mais ces données seront également transmises et manipulées par de nombreux services différents, compliquant ainsi la surveillance et le contrôle. </p>
<p> </p>
<h2 style="text-align: justify;"><span data-contrast="auto">Références</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></h2>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><span data-contrast="auto">[1] D. Goodin, “OpenAI says mysterious chat histories resulted from account takeover,” Ars Technica, https://arstechnica.com/security/2024/01/ars-reader-reports-chatgpt-is-sending-him-conversations-from-unrelated-ai-users/ (accessed Jul. 13, 2024).</span><span data-contrast="auto"> </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">[2] M. Nasr et al., “Extracting Training Data from ChatGPT,” not-just-memorization , Nov. 28, 2023. </span><span data-contrast="auto">Available: </span><a href="https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html"><span data-contrast="none">https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html</span></a><span data-contrast="auto"> </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">[3] “What Is Confidential Computing? Defined and Explained,” Fortinet. </span><span data-contrast="auto">Available: </span><a href="https://www.fortinet.com/resources/cyberglossary/confidential-computing#:~:text=Confidential%20computing%20refers%20to%20cloud"><span data-contrast="none">https://www.fortinet.com/resources/cyberglossary/confidential-computing#:~:text=Confidential%20computing%20refers%20to%20cloud</span></a><span data-contrast="auto"> </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">[4] S. Wilson, “OWASP Top 10 for Large Language Model Applications | OWASP Foundation,” owasp.org, Oct. 18, 2023. </span><span data-contrast="auto">Available: </span><a href="https://owasp.org/www-project-top-10-for-large-language-model-applications/"><span data-contrast="none">https://owasp.org/www-project-top-10-for-large-language-model-applications/</span></a><span data-contrast="auto"> </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">[5] “Explaining the Einstein Trust Layer,” Salesforce. </span><span data-contrast="auto">Available: https://www.salesforce.com/news/stories/video/explaining-the-einstein-gpt-trust-layer/ </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">[6] “Hacker plants false memories in ChatGPT to steal user data in perpetuity” Ars Technica , 24 sept. 2024 Available: </span><a href="https://arstechnica.com/security/2024/09/false-memories-planted-in-chatgpt-give-hacker-persistent-exfiltration-channel/"><span data-contrast="none">https://arstechnica.com/security/2024/09/false-memories-planted-in-chatgpt-give-hacker-persistent-exfiltration-channel/</span></a><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">[7] “Why we’re teaching LLMs to forget things” IBM, 07 Oct 2024 Available: https://research.ibm.com/blog/llm-unlearning</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:0}"> </span></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"> </p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2025/05/fuite-de-donnees-comment-les-chatbots-dia-peuvent-faire-fuiter-vos-informations/">Fuite de données : comment les chatbots d’IA peuvent faire fuiter vos informations</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://www.riskinsight-wavestone.com/2025/05/fuite-de-donnees-comment-les-chatbots-dia-peuvent-faire-fuiter-vos-informations/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Adopter le MLSecOps : la clé pour des modèles d’IA fiables et sécurisés </title>
		<link>https://www.riskinsight-wavestone.com/2024/10/adopter-le-mlsecops-la-cle-pour-des-modeles-dia-fiables-et-securises/</link>
					<comments>https://www.riskinsight-wavestone.com/2024/10/adopter-le-mlsecops-la-cle-pour-des-modeles-dia-fiables-et-securises/#respond</comments>
		
		<dc:creator><![CDATA[Pierre Aubret]]></dc:creator>
		<pubDate>Fri, 25 Oct 2024 14:58:03 +0000</pubDate>
				<category><![CDATA[Eclairage]]></category>
		<category><![CDATA[artificial intelligence]]></category>
		<category><![CDATA[Intelligence Artificielle]]></category>
		<category><![CDATA[Machine learning]]></category>
		<category><![CDATA[MLOps]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=24300</guid>

					<description><![CDATA[<p>  L’intelligence artificielle (IA) occupe désormais une place centrale dans les produits et services offerts par les entreprises et les services publics, en grande partie grâce à l’essor de l’IA générative. Pour soutenir cette croissance et favoriser l’adoption de l’IA,...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2024/10/adopter-le-mlsecops-la-cle-pour-des-modeles-dia-fiables-et-securises/">Adopter le MLSecOps : la clé pour des modèles d’IA fiables et sécurisés </a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><span data-contrast="auto">L’intelligence artificielle (IA) occupe désormais une place centrale dans les produits et services offerts par les entreprises et les services publics, en grande partie grâce à l’essor de l’IA générative. Pour soutenir cette croissance et favoriser l’adoption de l’IA, il a été nécessaire </span><b><span data-contrast="auto">d’industrialiser la conception</span></b> <b><span data-contrast="auto">des systèmes d’IA</span></b><span data-contrast="auto"> en adaptant les méthodes et procédures de développement de modèles.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">C’est ainsi qu’est né le </span><b><span data-contrast="auto">MLOps</span></b><span data-contrast="auto">, une contraction de “Machine Learning” (le cœur des systèmes d’IA) et “Operations”. À l’instar du DevOps, le MLOps facilite la réussite des projets de Machine Learning tout en assurant la production de modèles performants.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">Cependant, il est crucial de garantir la sécurité des algorithmes pour qu’ils demeurent performants et fiables dans le temps. Pour ce faire, il est nécessaire de </span><b><span data-contrast="auto">faire évoluer le MLOps vers le MLSecOps</span></b><span data-contrast="auto">, en intégrant la sécurité dans les processus, à l’image du DevSecOps. </span><b><span data-contrast="auto">Peu d’entités ont adopté et déployé un processus MLSecOps complet</span></b><span data-contrast="auto">. Dans cet article, nous explorerons en détail la forme que pourrait prendre le MLSecOps.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"> </p>
<h2 style="text-align: justify;"><span data-contrast="none">Le MLOps, les fondamentaux de développement de modèle d’IA</span><span data-ccp-props="{&quot;134245418&quot;:true,&quot;134245529&quot;:true,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:360,&quot;335559739&quot;:80}"> </span></h2>
<h3 style="text-align: justify;"><span data-contrast="none">Rapprochement avec le DevOps</span><span data-ccp-props="{&quot;134245418&quot;:true,&quot;134245529&quot;:true,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:160,&quot;335559739&quot;:80}"> </span></h3>
<p style="text-align: justify;"><span data-contrast="auto">Le DevOps est une approche qui combine le développement logiciel (Dev) et les opérations informatiques (Ops). Son objectif est de raccourcir le cycle de vie du développement tout en assurant des livraisons continues de haute qualité. Les principes clés incluent l’automatisation des processus (développement, test et mise en production), la livraison continue (CI/CD) et des boucles de rétroaction rapides.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">MLOps, quant à lui, est une extension des principes DevOps appliqués spécifiquement aux projets de Machine Learning (ML). Les flux de travail sont simplifiés et automatisés au maximum, de la préparation des données d’entraînement à la gestion des modèles en production. Le MLOps se distingue du DevOps sur plusieurs points :</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<ul style="text-align: justify;">
<li data-leveltext="" data-font="Symbol" data-listid="20" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="auto">Importance des données et des modèles</span></b><span data-contrast="auto"> : Dans le Machine Learning, les données et les modèles sont cruciaux. Le MLOps va plus loin en automatisant toutes les étapes du Machine Learning, de la préparation des données aux phases d’entraînement. De plus, un volume de données plus important est souvent utilisé dans les projets de Machine Learning.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
<li data-leveltext="" data-font="Symbol" data-listid="20" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="auto">Nature expérimentale du développement</span></b><span data-contrast="auto"> : Le développement en Machine Learning est expérimental et implique de tester et d’ajuster continuellement les modèles pour trouver les meilleurs algorithmes, paramètres et données pertinentes pour l’apprentissage. Cela pose des défis pour l’adaptation du DevOps au Machine Learning, car le DevOps se concentre sur l’automatisation et la stabilité des processus.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
<li data-leveltext="" data-font="Symbol" data-listid="20" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="auto">Complexité des tests et de la recette</span></b><span data-contrast="auto"> : La nature évolutive des modèles et la complexité des données rendent les phases de test et de recette plus délicates en Machine Learning. De plus, la surveillance des performances est essentielle pour garantir le bon fonctionnement des modèles en production. Ainsi, en Machine Learning, il faut adapter les procédures de Maintenance en Conditions Opérationnelles pour maintenir la stabilité et la fiabilité des systèmes.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
</ul>
<p style="text-align: justify;"><span data-contrast="auto">En somme, une chaîne MLOps partage des éléments communs avec une chaîne DevOps, mais introduit des étapes supplémentaires et accorde une importance particulière à la gestion et à l’utilisation des données. Le graphique suivant souligne en jaune toutes les étapes supplémentaires que le MLOps introduit :</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<ul style="text-align: justify;">
<li data-leveltext="" data-font="Symbol" data-listid="21" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="auto">Accès et utilisation des données</span></b><span data-contrast="auto"> : Cette étape inclut toutes les phases du Data Engineering (collecte, transformation et versionnement des données utilisées pour l’entraînement). L’enjeu est d’assurer l’intégrité des données et la reproductibilité des tests.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
<li data-leveltext="" data-font="Symbol" data-listid="21" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="auto">Recette du modèle</span></b><span data-contrast="auto"> : Les recettes et les tests d’intégration en ML sont plus complexes et se déroulent sur trois couches différentes : la pipeline des données, la pipeline du modèle de ML et la pipeline applicative.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
<li data-leveltext="" data-font="Symbol" data-listid="21" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="auto">Monitoring en production</span></b><span data-contrast="auto"> : Il s’agit de garantir la performance du modèle dans le temps et d’éviter le “model drifting” (déclin de la performance dans le temps). Pour cela, toutes les déviations (changement instantané, changement graduel, changement récurrent) doivent être détectées, analysées et corrigées si nécessaire.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
</ul>
<p style="text-align: justify;"><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> <img decoding="async" class="aligncenter wp-image-24309 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/1.jpg" alt="" width="980" height="501" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/1.jpg 980w, https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/1-374x191.jpg 374w, https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/1-71x36.jpg 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/1-768x393.jpg 768w" sizes="(max-width: 980px) 100vw, 980px" /></span></p>
<p style="text-align: center;"><span data-ccp-props="{&quot;134245418&quot;:true,&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span><i><span data-contrast="none">Figure </span></i><i><span data-contrast="none">1</span></i><i><span data-contrast="none"> – Adaptation des étapes du DevOps au Machine Learning</span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559739&quot;:200,&quot;335559740&quot;:240}"> </span></p>
<p style="text-align: justify;"> </p>
<h3 style="text-align: justify;"><span data-contrast="none">Mettre en place le MLOps nécessite de créer un dialogue entre ingénieur des données et les opérateurs de DevOps</span><span data-ccp-props="{&quot;134245418&quot;:true,&quot;134245529&quot;:true,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:160,&quot;335559739&quot;:80}"> </span></h3>
<p style="text-align: justify;"><span data-contrast="auto">Le passage au MLOps implique de </span><b><span data-contrast="auto">créer de nouvelles étapes organisationnelles</span></b><span data-contrast="auto"> spécifiquement adaptée à la gestion des données. Cela inclut notamment la collecte et la transformation des données d’entrainement, ainsi que les processus de suivi des différentes versions de données. </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559731&quot;:360}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">En ce sens, la collaboration entre les experts en MLOps, Data Scientists et les Data Engineers est essentielle pour réussir dans ce domaine en constante évolution. L’enjeu principal d’une mise en place d’une chaine MLOps réside donc dans l’intégration des Data Engineers dans les processus DevOps. Ces derniers sont responsables de préparer les données dont les ingénieurs MLOps ont besoin pour entraîner et exécuter des modèles. </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<h3>Et la sécurité dans tout ça ?<span data-ccp-props="{&quot;134245418&quot;:true,&quot;134245529&quot;:true,&quot;335559738&quot;:160,&quot;335559739&quot;:80}"> </span></h3>
<p style="text-align: justify;"><span data-contrast="auto">L’adoption massive des IA génératives en 2024 nous a fourni une variété d’exemples de compromissions de terme de sécurité. En effet, la surface d’attaque est grande : un acteur malveillant peut à la fois </span><b><span data-contrast="auto">attaquer le modèle</span></b><span data-contrast="auto"> en lui-même (vol de modèle, reconstruction de modèle, détournement de l’usage initial) </span><b><span data-contrast="auto">mais également attaquer ses</span></b> <b><span data-contrast="auto">données</span></b><span data-contrast="auto"> (extraire des données d’entraînement, modifier le comportement en ajoutant des fausses données, etc.). Pour illustrer ces derniers, nous avons simulé deux attaques réalistes dans de précédents articles : </span><a href="https://www.riskinsight-wavestone.com/2023/06/attaquer-une-ia-un-exemple-concret/"><span data-contrast="none">Attaquer une IA ? Un exemple concret !</span></a><span data-contrast="auto"> ou </span><a href="https://www.riskinsight-wavestone.com/2023/10/quand-les-mots-deviennent-des-armes-prompt-injection-et-intelligence-artificielle/"><span data-contrast="none">Quand les mots deviennent des armes : prompt injection</span></a><span data-contrast="auto">.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">En parallèle, le MLOps, introduit une automatisation qui accélère la mise en production. Bien que cela puisse réduire le</span><i><span data-contrast="auto"> time to market</span></i><span data-contrast="auto"> (délais de mise sur le marché), cela augmente également les risques (attaque par supply chain, massification). Il est donc crucial de s&rsquo;assurer que les risques liés à la cybersécurité et à l&rsquo;IA sont correctement gérés.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">Comme le fait le DevSecOps pour le DevOps, la chaine de production du MLOps doit être sécurisée. Voici un panorama des principaux risques sur la chaine MLOps :</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> <img loading="lazy" decoding="async" class="aligncenter wp-image-24311 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/2.jpg" alt="" width="956" height="519" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/2.jpg 956w, https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/2-352x191.jpg 352w, https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/2-71x39.jpg 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/2-768x417.jpg 768w" sizes="auto, (max-width: 956px) 100vw, 956px" /></span></p>
<p style="text-align: justify;"><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<h2 style="text-align: justify;"><span data-contrast="none">Adopter le MLSECOPS</span><span data-ccp-props="{&quot;134245418&quot;:true,&quot;134245529&quot;:true,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:360,&quot;335559739&quot;:80}"> </span></h2>
<h3 style="text-align: justify;"><span data-contrast="none">Intégrer la sécurité dans les équipes MLOPS et renforcer la culture sécurité</span><span data-ccp-props="{&quot;134245418&quot;:true,&quot;134245529&quot;:true,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:160,&quot;335559739&quot;:80}"> </span></h3>
<p style="text-align: justify;"><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">Les principes du MLSecOps doivent être compris par les Data Scientists et les Data Engineers. Pour cela, il est crucial que les équipes de sécurité soient intégrées dès le début du projet. Cela peut se faire de deux manières :</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559731&quot;:360}"> </span></p>
<ul style="text-align: justify;">
<li data-leveltext="" data-font="Symbol" data-listid="22" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="auto">Lors de la création d’un nouveau projet, un membre de l’équipe de sécurité est assigné en tant que responsable de la sécurité. Il supervise les avancées et répond aux questions des équipes du projet.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
<li data-leveltext="" data-font="Symbol" data-listid="22" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="auto">Une approche plus agile, similaire au DevSecOps, consiste à désigner un membre de l’équipe comme “</span><b><span data-contrast="auto">Security Champion</span></b><span data-contrast="auto">”. Ce référent cybersécurité au sein de l’équipe projet devient l’interlocuteur privilégié des équipes cyber. Cette méthode permet une intégration plus réaliste de la sécurité dans le projet, mais nécessite une formation adéquate pour le Security Champion.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
</ul>
<p style="text-align: justify;"><span data-contrast="auto">Pour que ce changement soit efficace, il est également nécessaire de modifier la perception de la cybersécurité par les équipes projets :</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<ul style="text-align: justify;">
<li data-leveltext="" data-font="Symbol" data-listid="23" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="auto">En fournissant une formation de base aux équipes pour mieux comprendre les enjeux de la cybersécurité.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
<li data-leveltext="" data-font="Symbol" data-listid="23" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="auto">En intégrant la cybersécurité dans les plateformes de collaboration et de connaissances.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
<li data-leveltext="" data-font="Symbol" data-listid="23" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="auto">En organisant régulièrement des campagnes de sensibilisation.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
</ul>
<p style="text-align: justify;"><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<h3 style="text-align: justify;"><span data-contrast="none">Sécuriser les outils de la chaîne MLOPS</span><span data-ccp-props="{&quot;134245418&quot;:true,&quot;134245529&quot;:true,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:160,&quot;335559739&quot;:80}"> </span></h3>
<p style="text-align: justify;"><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">Pour garantir la sécurité des produits, il est essentiel de sécuriser la chaîne de production. Dans le cadre du MLOps, cela signifie s’assurer que tous les outils sont correctement utilisés avec des pratiques intégrant la cybersécurité, qu’il s’agisse du </span><b><span data-contrast="auto">traitement et de la gestion des données</span></b><span data-contrast="auto"> (comme MongoDB, SQL, etc.), des </span><b><span data-contrast="auto">outils de surveillance</span></b><span data-contrast="auto"> (tel que Prometheus), ou des </span><b><span data-contrast="auto">outils de développement</span></b><span data-contrast="auto"> plus ou moins spécifiques (comme MLFlow ou GitHub).</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559731&quot;:360}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">Par exemple, il est crucial que les équipes restent vigilantes sur des thématiques telles que l’identification et la gestion des identités, la continuité d’activité, la surveillance, et la gestion des données. Les possibilités offertes par les différents outils utilisés tout au long du cycle de vie, ainsi que leurs spécificités, doivent être examinées en lien avec ces enjeux. Idéalement, les caractéristiques de cybersécurité devraient servir de critères de sélection pour choisir l’outil le plus adapté.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p> </p>
<h3 style="text-align: justify;"><span data-contrast="none">Définir des pratiques en matière de sécurité de l’IA</span><span data-ccp-props="{&quot;134245418&quot;:true,&quot;134245529&quot;:true,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:160,&quot;335559739&quot;:80}"> </span></h3>
<p style="text-align: justify;"><span data-contrast="auto">Au-delà de la sécurité des outils qui permettent de construire les systèmes d’IA, il convient d’intégrer des mesures de sécurité permettant de prévenir les vulnérabilités spécifiques aux systèmes d’IA. Ces mesures doivent être incorporées dès la conception et tout au long du cycle de vie de l’application, suivant une approche MLSecOps. De la collecte des données à la surveillance du système, il existe de nombreuses mesures de sécurité à intégrer :</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559731&quot;:360}"> </span></p>
<p style="text-align: justify;"><span data-ccp-props="{}"> <img loading="lazy" decoding="async" class="aligncenter wp-image-24313 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/3.jpg" alt="" width="1040" height="480" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/3.jpg 1040w, https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/3-414x191.jpg 414w, https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/3-71x33.jpg 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/3-768x354.jpg 768w" sizes="auto, (max-width: 1040px) 100vw, 1040px" /></span></p>
<p style="text-align: center;"><i><span data-contrast="none">Figure 2 &#8211; Les mesures de sécurité applicables tout au long du cycle de vie</span></i><span data-ccp-props="{}"> </span></p>
<h2 style="text-align: justify;"><span data-contrast="none">Trois mesures de sécurité à implémenter dans vos processus MLSecOps</span><span data-ccp-props="{&quot;134245418&quot;:true,&quot;134245529&quot;:true,&quot;335559738&quot;:360,&quot;335559739&quot;:80}"> </span></h2>
<p style="text-align: justify;"><span data-contrast="auto">Selon la stratégie de sécurité adoptée, diverses mesures de sécurité peuvent être intégrées tout au long du cycle de vie du MLOps. Nous avons détaillé les principaux mécanismes de défenses pour sécuriser l’IA dans l’article suivant : </span><a href="https://www.riskinsight-wavestone.com/2024/03/securiser-lia-les-nouveaux-enjeux-de-cybersecurite/"><span data-contrast="none">Sécuriser l’IA : Les Nouveaux Enjeux de Cybersécurité</span></a><span data-contrast="auto">. </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">Dans cette partie, nous allons nous attarder sur 3 mesures spécifiques qui peuvent être mises en œuvre pour renforcer la sécurité du MLOps :</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-ccp-props="{&quot;134245418&quot;:true}"> <img loading="lazy" decoding="async" class="aligncenter wp-image-24315 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/4.jpg" alt="" width="1079" height="520" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/4.jpg 1079w, https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/4-396x191.jpg 396w, https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/4-71x34.jpg 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2024/10/4-768x370.jpg 768w" sizes="auto, (max-width: 1079px) 100vw, 1079px" /></span></p>
<p style="text-align: center;"><span data-ccp-props="{}"> </span><i><span data-contrast="none">Figure </span></i><i><span data-contrast="none">3</span></i><i><span data-contrast="none"> – Mesures de sécurité sélectionnées</span></i><span data-ccp-props="{&quot;335551550&quot;:2,&quot;335551620&quot;:2}"> </span></p>
<h3 style="text-align: justify;"><span data-contrast="none">Contrôler la pertinence des données et les risques d’empoisonnement</span><span data-ccp-props="{&quot;134245418&quot;:true,&quot;134245529&quot;:true,&quot;335559738&quot;:160,&quot;335559739&quot;:80}"> </span></h3>
<p style="text-align: justify;"><span data-contrast="auto">Dans le cadre du Machine Learning, la sécurité des données est primordiale pour prévenir les risques d&#8217;empoisonnement et garantir l&rsquo;intégrité des données traitées. </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">Avant de procéder au traitement des données collectées, un contrôle continu de </span><b><span data-contrast="auto">l’origine des données</span></b><span data-contrast="auto"> est essentiel afin d’en garantir leur qualité et leur pertinence. Cela est d’autant plus complexe lors de l’utilisation de flux de données externes, dont la provenance et la véracité peut parfois être incertain. Ainsi, le risque majeur réside dans </span><b><span data-contrast="auto">l&rsquo;intégration de données utilisateurs lors d’un apprentissage en continu</span></b><span data-contrast="auto">. Cela peut conduire à des résultats imprévisibles, comme illustré par l&rsquo;exemple du ChatBot TAY de Microsoft en 2016. Ce dernier, était conçu pour apprendre à travers les interactions utilisateurs. Cependant, sans une modération adéquate, il a rapidement adopté des comportements inappropriés, reflétant les entrées négatives reçues. Cet incident souligne l&rsquo;importance d&rsquo;une surveillance et d&rsquo;une modération constantes des données d&rsquo;entrée, en particulier lorsqu&rsquo;elles proviennent d&rsquo;interactions humaines en temps réel.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">Diverses techniques d&rsquo;analyse peuvent être utilisées pour </span><b><span data-contrast="auto">nettoyer un ensemble de données</span></b><span data-contrast="auto">. L’objectif étant de vérifier l&rsquo;intégrité des données et de supprimer toute données pouvant avoir un impact négatif sur les performances du modèle. Deux méthodes principales sont possibles : </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559739&quot;:0}"> </span></p>
<ul style="text-align: justify;">
<li data-leveltext="" data-font="Symbol" data-listid="19" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;hybridMultilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="auto">D’une part, nous pouvons vérifier individuellement l’intégrité de chacune des données par contrôle des valeurs aberrantes, validation du format ou de métriques caractéristiques…</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559739&quot;:0}"> </span></li>
<li data-leveltext="" data-font="Symbol" data-listid="19" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;hybridMultilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="auto">D’autre part, avec une analyse globale, des approches comme la validation croisée et le clustering statistique sont efficaces pour identifier et éliminer les éléments inappropriés de l’ensemble de données.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
</ul>
<h3 style="text-align: justify;"><span data-contrast="none">Introduire des exemples contradictoires</span><span data-ccp-props="{&quot;134245418&quot;:true,&quot;134245529&quot;:true,&quot;335559738&quot;:160,&quot;335559739&quot;:80}"> </span></h3>
<p style="text-align: justify;"><span data-contrast="auto">Les exemples contradictoires sont des entrées corrompues, modifiées pour induire en erreur les prédictions d&rsquo;un algorithme de Machine Learning. Ces modifications sont construites pour être indétectables à l&rsquo;œil humain mais suffisantes pour tromper l&rsquo;algorithme. Ce type d’attaque exploite les vulnérabilités ou failles présentes dans l’entrainement du modèle pour provoquer des erreurs de prédiction. Pour les réduire, il est alors possible d’apprendre au modèle à identifier et ignorer ce type d’entrée.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">Pour cela, nous pouvons </span><b><span data-contrast="auto">délibérément ajouter des exemples contradictoires aux données d’entraînements</span></b><span data-contrast="auto">. L’objectif est de présenter au modèle des données légèrement altérées, afin de le préparer à identifier et gérer correctement les erreurs potentielles. La création de ce type de données dégradée est complexe. La génération de ces exemples contradictoires, devra être adapté au problème et aux menaces identifiées. Il est crucial de </span><b><span data-contrast="auto">surveiller attentivement la phase d’entraînement</span></b><span data-contrast="auto"> afin de s&rsquo;assurer que le modèle reconnaît efficacement ces entrées incorrectes et sache réagir correctement. </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<h3 style="text-align: justify;"><span data-contrast="none">Modifier les entrées utilisateurs</span><span data-ccp-props="{&quot;134245418&quot;:true,&quot;134245529&quot;:true,&quot;335559738&quot;:160,&quot;335559739&quot;:80}"> </span></h3>
<p style="text-align: justify;"><span data-contrast="auto">La sécurisation des entrées est essentielle pour minimiser les risques liés aux manipulations malveillantes. Une faiblesse importante des LLM (</span><i><span data-contrast="auto">Large Language Models</span></i><span data-contrast="auto">) est leur manque de compréhension contextuelle approfondie et leur sensibilité à la formulation précise des prompts. Une des techniques les plus connue pour exploiter cette vulnérabilité est l’attaque par </span><a href="https://www.riskinsight-wavestone.com/2023/10/quand-les-mots-deviennent-des-armes-prompt-injection-et-intelligence-artificielle/"><i><span data-contrast="none">prompt injection</span></i></a><span data-contrast="auto">. Il est donc nécessaire </span><b><span data-contrast="auto">d’introduire une étape intermédiaire de transformation des données utilisateur</span></b><span data-contrast="auto"> avant leur traitement par le modèle.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-contrast="auto">Il est possible de modifier légèrement l’entrée afin de contrer ce type d’attaque, tout en préservant la précision du modèle. Cette transformation peut se faire via diverses techniques (e.g. codage, ajout de bruit, reformulation, compression des caractéristiques, etc.). L’objectif est de conserver uniquement ce qui est essentiel à la réponse. Ainsi, toute information superflue potentiellement malicieuse est écartée. De plus, cette méthode prive l&rsquo;attaquant de la possibilité d&rsquo;accéder à la véritable entrée du système. Ce qui empêche toute analyse approfondie des relations entre entrées et sorties et complique ainsi la conception de futures attaques. Il reste toutefois essentiel de tester les différentes mesures implémentées, pour s&rsquo;assurer qu&rsquo;elles ne dégradent pas les performances du modèle, garantissant ainsi une sécurité renforcée sans compromettre l&rsquo;efficacité.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;" aria-level="1"> </p>
<p aria-level="1"> </p>
<p style="text-align: justify;"><span data-contrast="auto">Avec l’industrialisation de la production d’applications basées sur le Machine Learning et l’IA, la sécurité à grande échelle devient une question organisationnelle cruciale pour le marché. Il est impératif d’entreprendre une transition vers le MLSecOps. Cette transformation repose sur trois piliers principaux :</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<ul style="text-align: justify;">
<li data-leveltext="" data-font="Symbol" data-listid="24" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="auto">Renforcer la culture de sécurité des équipes de Data Scientists</span></b><span data-contrast="auto"> : Il est essentiel que les Data Scientists comprennent et intègrent les principes de sécurité dans leur travail quotidien. Cela permet de créer une culture de sécurité partagée et de renforcer la collaboration entre les différents acteurs.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
<li data-leveltext="" data-font="Symbol" data-listid="24" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="auto">Sécuriser les outils qui produisent les algorithmes de Machine Learning</span></b><span data-contrast="auto"> : Il est essentiel de sélectionner des outils de MLOps sécurisés et d’appliquer des bonnes pratiques au sein de outils (gestion des droits, etc.) pour sécuriser « l’usine » à algorithmes de Machine Learning et ainsi réduire la surface de compromission.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
<li data-leveltext="" data-font="Symbol" data-listid="24" data-list-defn-props="{&quot;335552541&quot;:1,&quot;335559685&quot;:720,&quot;335559991&quot;:360,&quot;469769226&quot;:&quot;Symbol&quot;,&quot;469769242&quot;:[8226],&quot;469777803&quot;:&quot;left&quot;,&quot;469777804&quot;:&quot;&quot;,&quot;469777815&quot;:&quot;multilevel&quot;}" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="auto">Intégrer des mesures de sécurité spécifiques à l’IA</span></b><span data-contrast="auto"> : Adapter les mesures de sécurité aux particularités des systèmes d’IA est crucial pour prévenir les attaques potentielles et assurer la fiabilité des modèles dans le temps. Il convient donc d’intégrer ces mesures de sécurité dans la chaîne de MLOps à l’aide du MLSecOps.</span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></li>
</ul>
<p style="text-align: justify;"><span data-contrast="auto">Engagez-vous dès aujourd’hui dans la transition vers le MLSecOps. Formez vos équipes, sécurisez vos outils et intégrez des mesures de sécurité spécifiques à l’IA. A ce titre, vous pourrez bénéficier de systèmes d’IA produits industriellement et sécurisés by design. </span><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><b><span data-contrast="none">Remerciements à Louis FAY et Hortense SOULIER qui ont également contribué à la rédaction de cet article.</span></b><span data-ccp-props="{&quot;335551550&quot;:6,&quot;335551620&quot;:6}"> </span></p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2024/10/adopter-le-mlsecops-la-cle-pour-des-modeles-dia-fiables-et-securises/">Adopter le MLSecOps : la clé pour des modèles d’IA fiables et sécurisés </a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://www.riskinsight-wavestone.com/2024/10/adopter-le-mlsecops-la-cle-pour-des-modeles-dia-fiables-et-securises/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>MACHINE LEARNING POUR SA CYBERSECURITE : COMMENT SE RETROUVER DANS LA JUNGLE DES PRODUITS</title>
		<link>https://www.riskinsight-wavestone.com/2020/09/machine-learning-pour-sa-cybersecurite-comment-se-retrouver-dans-la-jungle-des-produits/</link>
		
		<dc:creator><![CDATA[Carole Meyziat]]></dc:creator>
		<pubDate>Mon, 21 Sep 2020 08:00:53 +0000</pubDate>
				<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[analyse de données]]></category>
		<category><![CDATA[Machine learning]]></category>
		<category><![CDATA[POC]]></category>
		<category><![CDATA[SOC]]></category>
		<category><![CDATA[solution]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=14178</guid>

					<description><![CDATA[<p>Le Machine Learning est un sujet émergeant de ces dernières années et notamment dans le cadre de la surveillance cybersécurité. Cependant, comme évoqué dans l’article « Booster sa cybersécurité grâce à du Machine Learning » (Partie 1 &#38; Partie 2), le développement...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/09/machine-learning-pour-sa-cybersecurite-comment-se-retrouver-dans-la-jungle-des-produits/">MACHINE LEARNING POUR SA CYBERSECURITE : COMMENT SE RETROUVER DANS LA JUNGLE DES PRODUITS</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Le <em>Machine Learning</em> est un sujet émergeant de ces dernières années et notamment dans le cadre de la surveillance cybersécurité. Cependant, comme évoqué dans l’article <strong>« Booster sa cybersécurité grâce à du <em>Machine Learning »</em></strong> (<a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/">Partie 1</a> &amp; <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-2-2/">Partie 2</a>), le développement de telles solutions nécessite de forts investissements humains et financiers.</p>
<p>En effet, toutes les entreprises n’ont pas les moyens nécessaires (ou la volonté) de développer en interne ce type de technologie et se tournent alors vers des solutions du marché en se confrontant à une problématique majeure : comment réussir à choisir et intégrer rapidement une solution efficace dans mon contexte ?</p>
<p>&nbsp;</p>
<h2>Pourquoi utiliser du <em>Machine Learning</em> en cybersécurité ?</h2>
<p>Le caractère statique des solutions de détection actuelles (antivirus utilisant des bases de signatures, alertes seuils d’alerte dans un SIEM…) ne permet plus de faire face à des attaques de plus en plus nombreuses et variées. En outre, les équipes de sécurité sont surchargées par le volume de données à analyser.</p>
<p>Comme expliqué dans l’article <strong>« La saga de l’été sur les nouveaux outils du SOC »</strong> (<a href="https://www.riskinsight-wavestone.com/2018/07/nouveaux-outils-du-soc-23/">Partie 2</a> &amp; <a href="https://www.riskinsight-wavestone.com/2018/08/nouveaux-outils-du-soc-33/">Partie 3</a>), le <em>Machine Learning</em> permet de répondre à ces problématiques que rencontre le SOC en utilisant des méthodes d’analyse comportementale pour détecter des attaques avancées et prioriser les alertes à analyser.</p>
<figure id="post-14182 media-14182" class="align-center"><img loading="lazy" decoding="async" class="aligncenter wp-image-14182 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/09/Image.png" alt="" width="778" height="459" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/09/Image.png 778w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/09/Image-324x191.png 324w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/09/Image-66x39.png 66w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/09/Image-120x70.png 120w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/09/Image-768x453.png 768w" sizes="auto, (max-width: 778px) 100vw, 778px" /></figure>
<p style="text-align: center;"><em>Principe de détection d&rsquo;anomalies dans un SOC</em></p>
<p>&nbsp;</p>
<p>Si ces types de solutions apportent une réelle plus-value, elles ne permettent pas de totalement s’affranchir des moyens de détection actuels et sont plutôt utilisées pour compléter les outils en place.</p>
<p>Par ailleurs, leur niveau de complexité (déploiement, traitement des alertes) requiert en prérequis d’avoir déjà atteint un niveau de maturité suffisant en termes de détection et réaction (organisation, outillage, ressources, centralisation de la donnée) avant qu’il soit pertinent de se lancer dans un projet basé sur du <em>Machine Learning</em>. La phase de cadrage n’en sera que facilitée et le déploiement accéléré.</p>
<p>&nbsp;</p>
<h2>En avance de phase : définir le cahier des charges</h2>
<h3>Quel est le cas d’usage que je souhaite adresser ?</h3>
<p>Lors de nos différentes interventions chez nos clients, nous avons accompagné l’intégration de nombreuses solutions et nous pouvons faire ressortir quatre grands types de cas d’usages sur lesquels les entreprises investissent :</p>
<ul>
<li><strong>La lutte contre la fraude</strong>: outils de détection de déviation(s) dans le(s) comportement(s) d’un utilisateur</li>
<li><strong>La surveillance des emails</strong>: outils de prévention contre le phishing ou la fuite d’informations (DLP)</li>
<li><strong>La détection de menaces sur le réseau</strong>: sondes «<em> Next-Gen </em>»</li>
<li><strong>L’identification des menaces sur les </strong><strong><em>endpoints</em></strong>: anti-virus « <em>Next-Gen »</em></li>
</ul>
<p>Le choix d’une solution (et donc d’un cas d’usage) ne devra pas être défini de manière unilatérale par la filière SSI mais devra être réfléchi avec les différents acteurs concernés (SSI, DSI, métiers…). Cet échange permettra de préciser la cible ainsi que de valider les prérequis techniques et organisationnels (accessibilité des logs, ressources à mobiliser, taille des équipes…) pour préparer au mieux son intégration et son exploitation.</p>
<h3>Quel type de solution choisir ?</h3>
<p>Selon les outils déjà en place et en fonction du besoin, plusieurs solutions sont envisageables :</p>
<ul>
<li><strong>Choisir d’implémenter une </strong><strong>solution clé en main</strong> permettant de traiter des cas d’usages très précis et non spécifiques à des problématiques métiers (EDR, biométrie comportementale…). Ce choix convient généralement à un besoin immédiat plutôt qu’à une stratégie à long terme.</li>
<li><strong>Activer un module de <em>Machine Learning</em> sur un outil déjà en place</strong> (SIEM, puits de logs…) dans le but de pouvoir étendre son périmètre de détection. Ce choix permet notamment de pouvoir tester rapidement des cas d’usages et de s’affranchir des phases d’intégration d’un nouvel équipement au sein du son SI.</li>
</ul>
<p>Enfin, il est essentiel de se rappeler qu’il n’existe pas de solution miracle et que chaque type de solution répond à des besoins précis.</p>
<p>&nbsp;</p>
<h2>Devant l’éditeur : challenger les points essentiels</h2>
<h3>Tester la solution et réfléchir à son évolutivité</h3>
<p>Une fois que tous ces prérequis sont définis, il est d’usage de réaliser avec l’éditeur un <em>Proof of Concept</em> (PoC). Cependant, dans le cas spécifique d’une solution de <em>Machine Learning</em>, le PoC permettra de répondre à plusieurs interrogations spécifiques :</p>
<ul>
<li><strong>Mes données actuellement collectées permettent-elles d’avoir des résultats rapidement satisfaisants ? </strong>Les solutions de <em>Machine Learning</em> requièrent l’analyse d’un très grand nombre de données potentiellement enrichies par des référentiels permettant de croiser plusieurs sources. Il est donc nécessaire de s’assurer en avance de phase avec l’éditeur que les données actuellement collectées permettent déjà d’obtenir des premiers résultats.</li>
<li><strong>Combien de temps la phase d’apprentissage durera-t-elle dans mon contexte ?</strong> Certaines solutions de <em>Machine Learning</em> produisent des résultats qu’à partir de plusieurs mois voire années car les phases d’apprentissages peuvent-être extrêmement longues du fait du contexte particulier à chaque entreprise. La possibilité d’utiliser un historique de logs pour les tests permettrait de s’affranchir d’une période d’apprentissage conséquente.</li>
</ul>
<p>Des questions spécifiques seront également à traiter afin d’anticiper le plus long terme :</p>
<ul>
<li><strong>Sera-t-il possible d’enrichir les analyses avec d’autres types de données ?</strong> Les solutions de <em>Machine Learning</em> permettent de pouvoir effectuer des analyses sur de nombreux types de données pouvant avoir des formats hétérogènes, il est donc nécessaire de pouvoir s’assurer que les analyses pourront être enrichies avec de nouveaux types de données collectées.</li>
<li><strong>Sera-t-il possible de mettre en place de nouveaux algorithmes de détection ?</strong> La possibilité de pouvoir personnaliser ces solutions en y ajoutant de nouveaux types d’algorithmes (et potentiellement de manière indépendante) est non négligeable.</li>
<li><strong>Comment suis-je assuré que mon éditeur soit toujours à la pointe de la technologie ?</strong> Au vu de l’évolution exponentielle des techniques sur ce sujet, il est important de s’assurer que l’éditeur poursuive sa course à l’avancée technologique afin de proposer de nouveaux moyens de défense contre des attaques qui ne cessent de se complexifier.</li>
</ul>
<h3>Se préparer à protéger le cycle de vie de la donnée</h3>
<p>Les méthodes de détection basées sur de l’analyse comportementale nécessitent la collecte et le traitement de données sensibles/personnelles. Ainsi, particulièrement dans le cas où la solution est hébergée chez l’éditeur, les problématiques liées à l’usage des données devront être adressées au plus tôt. D’une part les exigences contractuelles de sécurité devront bien sûr être renforcées, et d’autre part il pourra être utile de faire appel en amont à des solutions permettant un traitement plus sécurisé du cycle de vie de la donnée.</p>
<p>Par exemple, des startups comme <a href="https://sarus.tech/">SARUS</a> travaillent sur <strong>le masquage des données personnelles</strong>, permettant aux <em>data scientists </em>d’effectuer du <em>Machine Learning</em> sans accéder aux données sources. Des startups comme <a href="https://hazy.com/">HAZY</a> travaillent elles sur la <strong>génération de données synthétiques</strong> gardant la valeur statistique des données utiles, mais perdant leur caractère sensible. Ce type de solution permet également d’agrandir artificiellement l’échantillon fourni, et d’obtenir une quantité quasiment illimitée de données, ce qui peut être très utile dans le cadre d’un PoC où les données actuellement disponibles sont en quantité limitées.</p>
<p>&nbsp;</p>
<h2>Une fois que la pertinence de la solution est validée, la partie ne fait que commencer !</h2>
<p>Au travers de nos différentes expériences, nous avons pu nous forger une conviction : <strong>le marché est assez mature pour fournir des résultats intéressants</strong>, notamment sur les quatre cas d’usages mentionnés ci-dessus. La mise en place de tels outils saura être efficace si les solutions sont connectées à un écosystème riche et qu’elles répondent à un besoin spécifique. En effet, <strong>la mise en place d’une même solution peut être une franche réussite ou un échec dans deux contextes différents</strong>. Le résultat dépendra notamment de la clarté du besoin, du périmètre visé, de l’expertise présente (Cybersécurité et <em>Data Science</em>), et encore de la disponibilité de la donnée (qualité et quantité).</p>
<p>Si le choix d’une solution de <em>Machine Learning</em> n’est pas simple, le meilleur moyen de se faire rapidement une idée est de réaliser un PoC pouvant être rapide et peu engageant : nous avons pu constater chez certains de nos clients que des solutions remontaient déjà des <strong>résultats intéressants après uniquement deux semaines de PoC</strong>.</p>
<p>Tout en gardant en tête que le PoC n’est que le début de l’aventure. Il résultera sur le lancement d’un <strong>projet de plusieurs mois </strong>passionnant (analyse de nouveaux types d’alertes, découvertes de nouvelles techniques…), apportant une <strong>réelle plus-value sécurité </strong>(détection de nouveaux évènements…), impulsant un <strong>nouveau souffle</strong> au sein des équipes opérationnelles de sécurité (priorisation des efforts, possibilité d’optimisation des tâches rébarbatives…).</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/09/machine-learning-pour-sa-cybersecurite-comment-se-retrouver-dans-la-jungle-des-produits/">MACHINE LEARNING POUR SA CYBERSECURITE : COMMENT SE RETROUVER DANS LA JUNGLE DES PRODUITS</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Hazy &#124; Shake&#8217;Up &#8211; Comment des données synthétiques auraient pu nous permettre de nous préparer à cette pandémie ?</title>
		<link>https://www.riskinsight-wavestone.com/2020/07/hazy-shakeup-comment-des-donnees-synthetiques-auraient-pu-nous-permettre-de-nous-preparer-a-cette-pandemie/</link>
		
		<dc:creator><![CDATA[Jennifer Riggins]]></dc:creator>
		<pubDate>Fri, 31 Jul 2020 13:00:26 +0000</pubDate>
				<category><![CDATA[Cloud & Next-Gen IT Security]]></category>
		<category><![CDATA[Cyber for Financial Services]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[Rubriques]]></category>
		<category><![CDATA[analyse de données]]></category>
		<category><![CDATA[Big Data]]></category>
		<category><![CDATA[Machine learning]]></category>
		<category><![CDATA[prédictions]]></category>
		<category><![CDATA[shake'up]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=14012</guid>

					<description><![CDATA[<p>Nous ouvrons désormais les contributions à ce blog aux start-ups accélérées par notre dispositif Shake’Up. Hazy est un générateur de données synthétiques, combinant confidentialité différentielle, et intégrité référentielle, proposant un support de base de données multi-tableaux et avec un déploiement...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/hazy-shakeup-comment-des-donnees-synthetiques-auraient-pu-nous-permettre-de-nous-preparer-a-cette-pandemie/">Hazy | Shake&rsquo;Up &#8211; Comment des données synthétiques auraient pu nous permettre de nous préparer à cette pandémie ?</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<figure></figure>
<p><em>Nous ouvrons désormais les contributions à ce blog aux start-ups accélérées par notre dispositif Shake’Up. Hazy est un générateur de données synthétiques, combinant confidentialité différentielle, et intégrité référentielle, proposant un support de base de données multi-tableaux et avec un déploiement possible sur des systèmes critiques.</em></p>
<p>&nbsp;</p>
<p><img loading="lazy" decoding="async" class="size-full wp-image-14007 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Capture-1.png" alt="" width="898" height="254" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Capture-1.png 898w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Capture-1-437x124.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Capture-1-71x20.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Capture-1-768x217.png 768w" sizes="auto, (max-width: 898px) 100vw, 898px" /></p>
<p>&nbsp;</p>
<p>Qu&rsquo;ont en commun les organisations tenant le choc de la crise sanitaire ? <strong>Des plans d&rsquo;urgence particulièrement efficaces.</strong></p>
<p>Pour ces quelques cas de réussite, cette planification a commencé par la prise en compte de l’aspect RH. PDG et directeur technique, en totale collaboration, se sont demandé : et si un de nos employés tombait malade, qui serait le suivant ? Que se passerait-il si plusieurs acteurs clés de l’entreprise étaient hospitalisés en même temps ? Ces entreprises ont créé une base comprenant l’ensemble des fournisseurs d&rsquo;accès à Internet et les régions associées, ils l’ont communiquée à tous les ingénieurs d&rsquo;astreinte et ont créé une chaîne de remplacement en cas de panne. Ces organisations ont veillé à ce que non seulement leurs systèmes internes et ceux destinés aux clients soient sauvegardés, mais aussi ceux de leur chaîne logistique.</p>
<p>Mais certains diraient que tout cela est une réaction, et non une planification, ou simplement de la chance. Après tout, chaque organisation et chaque industrie a ses propres obstacles à surmonter. Comment une entreprise pourrait-elle vraiment se préparer à l&rsquo;inconnu ?</p>
<p><strong>Comment une organisation pourrait-elle se préparer à une pandémie mondiale s&rsquo;il n&rsquo;y en a pas eu de cette ampleur depuis une centaine d&rsquo;années ?</strong></p>
<p>C&rsquo;est là que <strong>les données synthétiques</strong> offrent une opportunité intéressante d&rsquo;espérer le meilleur, mais de se préparer au pire. Les données synthétiques &#8211; qui sont des données très précises mais anonymes, et totalement artificielles &#8211; peuvent <strong>permettre à toute organisation de simuler des événements imprévus</strong> comme des pandémies et des catastrophes naturelles.</p>
<p>Les données synthétiques peuvent permettre de définir des plans d&rsquo;urgence, même pour les plus grands imprévus.</p>
<p>&nbsp;</p>
<h2>Qu&rsquo;est-ce que les données synthétiques et comment sont-elles utilisées ?</h2>
<figure id="post-13994 media-13994" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13994 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Hazy-002.png" alt="" width="928" height="1120" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Hazy-002.png 928w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Hazy-002-158x191.png 158w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Hazy-002-32x39.png 32w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Hazy-002-768x927.png 768w" sizes="auto, (max-width: 928px) 100vw, 928px" /></figure>
<p>Comme leur nom l&rsquo;indique, les données synthétiques sont totalement artificielles. Dans le cas de <a href="https://hazy.com/">Hazy</a>, les données synthétiques sont <strong>générées par des algorithmes de Machine Learning de pointe</strong>, qui offrent <strong>certaines garanties mathématiques</strong> d&rsquo;utilité et de confidentialité. Cela est essentiel car aucune donnée sur les clients n&rsquo;est réellement utilisée, alors que les courbes ou les modèles de leurs profils et comportements collectifs sont préservés.</p>
<p>C&rsquo;est incroyablement utile pour faire tomber les barrières à l&rsquo;innovation et aux essais. Cela permet d’obtenir toutes les informations nécessaires sur ses clients, leurs caractéristiques démographiques et leurs habitudes tout en réduisant considérablement le risque de réidentification. Il est ensuite possible de transférer facilement et en toute sécurité ces données synthétiques et ces informations entre différentes divisions, agences gouvernementales, entreprises et zones géographiques, avec la possibilité d’évaluer rapidement des partenaires tiers.</p>
<p>Comme les données synthétiques conservent à la fois leur valeur et leur conformité, <strong>leur potentiel est presque illimité</strong>. Elles peuvent être appliquées à la résolution de certains des plus grands problèmes du monde, de l&rsquo;intensification de la recherche et du traçage des pandémies internationales à un accès plus équitable aux services bancaires, en passant par la détection de la fraude et du blanchiment d&rsquo;argent à une échelle transfrontalière et inter-organisationnelle. Elle peut être utilisée pour faire tomber les frontières et optimiser la collaboration intergouvernementale, jusqu&rsquo;à présent entravée par des bases de données divergentes coincées derrière des murs réglementaires.</p>
<p>Les données synthétiques permettent aux organisations et aux gouvernements de <strong>surmonter les barrières géographiques et les obstacles liés aux ressources</strong>.</p>
<p>Ces données synthétiques peuvent même être appliquées à des événements qui n&rsquo;ont pas encore eu lieu.</p>
<p>Les principales organisations mondiales commencent à exploiter les données synthétiques pour élaborer <strong>des scénarios prédictifs</strong> <strong>afin de mieux répondre aux futures crises</strong> économiques, sanitaires, politiques et environnementales.</p>
<p>Il convient de noter que les données synthétiques ne sont pas aussi avancées et courantes que les autres outils d&rsquo;entreprise. Comme chaque organisation possède des ensembles de données très complexes et variés, il faut les transformer, les pré-traiter et les configurer pour les rendre accessibles aux modèles de <em>Machine Learning</em>. Cela signifie que si n&rsquo;importe qui dans une organisation peut bénéficier de données synthétiques, <strong>les <em>data scientists</em> doivent néanmoins être impliqués dans la préparation de ces données</strong>.</p>
<p>&nbsp;</p>
<h2>Des données synthétiques pour simuler des événements imprévus</h2>
<p>Les données synthétiques sont créées par des modèles de <em>Machine Learning</em> qui, d&rsquo;une certaine manière, peuvent être considérées comme des simulateurs du monde.</p>
<p>Les données synthétiques de Hazy sont déjà utilisées dans les grandes institutions financières pour permettre aux développeurs d&rsquo;applications de simuler des modèles de comportement réalistes de clients avant même que l’application n’ait d’utilisateurs. Ce sont les ingénieurs en <em>Machine Learning</em> qui peuvent le mieux modéliser ce genre de scénarios de la demande future.</p>
<p>Nos clients les plus innovants commencent à étendre les cas d&rsquo;utilisation de cette technologie d&rsquo;avant-garde à des événements pour la plupart imprévisibles.</p>
<p>Cette possibilité n&rsquo;a été rendue possible qu&rsquo;assez récemment grâce à la génération de <strong>données synthétiques conditionnelles</strong>, qui permet d&rsquo;explorer comment certaines relations dans un ensemble de données peuvent jouer avec d&rsquo;autres relations lorsque leurs effets sont amplifiés ou diminués.</p>
<p>En ce moment, cela est d’une importance majeure, notamment lorsqu’on évoque le sujet des <em>deepfakes</em>. Quelqu&rsquo;un pourrait demander à <strong>un générateur conditionnel</strong> de trouver des visages qui ont des cheveux roses, des lunettes et un piercing au nez. Maintenant, le générateur n&rsquo;a peut-être jamais vu quelqu&rsquo;un avec toutes ces caractéristiques combinées, mais il sait approximativement comment chacune de ces entités se combine logiquement à un niveau supérieur. Le modèle de Machine Learning a appris comment les entités de niveau inférieur se combinent pour construire des méta-entités &#8211; par exemple, il sait qu&rsquo;un nez a une relation assez prévisible avec les yeux et la bouche. Cela permet au générateur de prendre ce qu&rsquo;il sait et <strong>de combler avec précision les lacunes et de prédire</strong> à quoi ressembleraient ces <em>punks rockers</em>.</p>
<p>Cela fonctionne un peu différemment avec les données clients comme les données financières séquentielles, car ces tableaux comprennent souvent des milliers de colonnes et ont beaucoup de valeurs catégorielles &#8211; chaque colonne peut être considérée comme une dimension. Il est souvent plus difficile de déterminer comment les valeurs catégorielles d&rsquo;un tableau s&rsquo;imbriquent dans un ensemble de données que de travailler avec un ensemble de données composé des dimensions en pixels d&rsquo;un ensemble de données de visages humains.</p>
<p>Le point positif est que <strong>les banques ont incontestablement beaucoup de données avec lesquelles travailler</strong>. Elles ont également souvent accès à des ensembles de données supplémentaires, comme les mesures des actions, les taux d&rsquo;intérêt et les taux de change. Les interrelations entre les différents ensembles de données peuvent potentiellement être combinées pour mieux <strong>modéliser les relations et explorer des scénarios et des compromis</strong>. Grâce à ces modèles de <em>Machine Learning</em>, il est possible d’étudier le comportement d&rsquo;un produit financier lorsque vous avez une combinaison de taux d&rsquo;intérêt élevés et de faible chômage.</p>
<p>Bien que certains événements n’ont peut-être jamais eu lieu dans la vie réelle, les générateurs peuvent être utilisés pour e<strong>xtrapoler et remplir les blancs,</strong> puisqu’ils savent généralement comment certains événements évoluent ensemble.</p>
<p>Les compagnies d&rsquo;assurance vivent dans le monde du « si cela, alors ceci », mais une grande partie de leurs prévisions actuarielles sont basées sur des données passées. Que pouvez-vous faire si vous n&rsquo;avez pas de données parce que ces événements ne se sont pas encore produits ? <strong>Les données synthétiques sont un bon moyen de construire des scénarios prédictifs qui peuvent aider les organisations à évaluer correctement le risque d&rsquo;événements imprévus.</strong></p>
<p>Et cette boule de cristal ne doit pas seulement être appliquée aux événements qui changent le monde. Vous pouvez utiliser des générateurs de données synthétiques pour comprendre comment un nouveau marché réagirait à votre lancement d&rsquo;un nouveau produit.</p>
<p>Supposons que vous ayez un million de clients au Royaume-Uni et seulement 50 000 en France. Et vous connaissez la variabilité des revenus, les zones géographiques dans lesquelles ils vivent, ainsi que l&rsquo;âge, le revenu et le niveau d&rsquo;éducation de chaque client. Vous créez d&rsquo;abord des données synthétiques qui protègent toutes les informations personnelles identifiables dans deux régions géographiques distinctes. Le modèle apprend ensuite à la fois la manière prévisible dont le produit s&rsquo;est vendu au Royaume-Uni et il connaît les différences de comportement entre les deux pays. Ce modèle peut même apprendre à <strong>extrapoler</strong> intelligemment le comportement des consommateurs britanniques au comportement des consommateurs français afin de prédire la meilleure façon dont une expansion sur le marché français pourrait se dérouler. Ces aperçus disparates se transforment en un solide prédicteur pour atteindre des objectifs d’expansion internationale.</p>
<p>Ces résultats peuvent à nouveau être combinés avec d&rsquo;autres probabilités, comme la façon dont les clients ou les marchés locaux réagiront en fonction du nombre de points de chute de la bourse ou de l&rsquo;impact des températures estivales sur les ventes. Toutefois, si l’on souhaite prédire des événements très rares ou une combinaison d&rsquo;événements rares avec des données limitées, <strong>faire des prédictions reste très difficile sans disposer de suffisamment de données</strong> pour extrapoler de manière significative les tendances et les relations dans les données.</p>
<p>&nbsp;</p>
<h2>Le potentiel illimité des données synthétiques sécurisées</h2>
<p>Les données synthétiques sont <strong>le meilleur moyen de débloquer en toute sécurité le potentiel de l&rsquo;économie des données</strong>. Parce que les données synthétiques &#8211; en étant complètement artificielles &#8211; peuvent résoudre le problème essentiel de la vie privée, elles peuvent <strong>réduire considérablement les fuites de données et protéger les informations personnelles de vos clients</strong>, tout en conservant leur utilité.</p>
<p>Les données synthétiques deviennent le meilleur moyen pour les organisations multinationales de rester aussi compétitives, réactives et innovantes que les start-ups, car elles permettent de planifier l’avenir et ses capacités, en se basant sur l&rsquo;inconnu.</p>
<p>Parce que les grandes institutions financières disposent d&rsquo;une telle richesse de données, elles sont parfaitement positionnées pour tirer parti du potentiel unique des données et donc des données synthétiques. Les organisations peuvent désormais limiter la prise de risques en prévoyant des réponses pour un avenir imprévisible.</p>
<p>Le monde change rapidement. <strong>Votre entreprise doit être prête à y faire face.</strong></p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/hazy-shakeup-comment-des-donnees-synthetiques-auraient-pu-nous-permettre-de-nous-preparer-a-cette-pandemie/">Hazy | Shake&rsquo;Up &#8211; Comment des données synthétiques auraient pu nous permettre de nous préparer à cette pandémie ?</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Booster sa cybersécurité grâce à du Machine Learning ?  Partie 2 – « Oui, mais pas n’importe comment ! »</title>
		<link>https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-2-2/</link>
		
		<dc:creator><![CDATA[Carole Meyziat]]></dc:creator>
		<pubDate>Wed, 08 Jul 2020 12:00:56 +0000</pubDate>
				<category><![CDATA[Cloud & Next-Gen IT Security]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[analyse de données]]></category>
		<category><![CDATA[big data security]]></category>
		<category><![CDATA[data science]]></category>
		<category><![CDATA[Machine learning]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=13853</guid>

					<description><![CDATA[<p>Dans une première partie, nous avons présenté une démarche pas à pas de Machine Learning appliqué à la cybersécurité afin d’illustrer sa valeur et d’en comprendre le fonctionnement. Dans cette seconde partie, nous allons répondre à un certain nombre de...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-2-2/">Booster sa cybersécurité grâce à du Machine Learning ?  Partie 2 – « Oui, mais pas n’importe comment ! »</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Dans une <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/">première partie</a>, nous avons présenté une démarche pas à pas de <em>Machine Learning</em> appliqué à la cybersécurité afin d’illustrer sa valeur et d’en comprendre le fonctionnement. Dans cette seconde partie, nous allons répondre à un certain nombre de <strong>questions courantes</strong> que l’on peut se poser avant de se lancer dans de telles initiatives.</p>
<p>&nbsp;</p>
<h2>Je suis en mesure d’envoyer toutes mes données à un algorithme de <em>Machine Learning</em>, va-t-il m’en sortir de la valeur ?</h2>
<p>Non, absolument pas. #GarbageInGarbageOut</p>
<p>C’est même la meilleure manière d’être déçu par le <em>Machine Learning</em> ! Ce n’est pas un outil magique : si n’importe quoi lui est donné en entrée, il n’en sortira pas magiquement des résultats pertinents.</p>
<p>Il est non seulement nécessaire de définir précisément son cas d’usage avant de se lancer, mais également de choisir intelligemment les données qui vont nourrir le modèle.</p>
<p>&nbsp;</p>
<h2>Justement, quel cas d’usage choisir ?</h2>
<p>Le problème est pris à l’envers !</p>
<p>La question est plutôt de savoir si :</p>
<ul>
<li>Aujourd’hui, <strong>des cas d’usages vous posent problème </strong><em>(e.g. chronophages parce que les alertes levées nécessitent beaucoup de retraitement et finalement remontent beaucoup de faux positifs).</em></li>
<li><strong>Le <em>Machine Learning</em> pourrait permettre d’apporter des solutions</strong> à certains d’entre eux <em>(e.g. levée d’alerte sur un comportement « normal » plutôt que sur des seuils de détection fixes complexes à configurer et maintenir à jour).</em></li>
<li><strong>Et les solutions classiques </strong>pour y répondre<strong> semblent arrivées à la limite de leurs capacités</strong>. <em>#JeNeRéinventePasLaRoue</em></li>
</ul>
<p>En cybersécurité, devant un problème <strong>complexe à décrire explicitement</strong> (e.g. qu’est-ce qu’une communication suspecte ?) qui en plus a de fortes chances <strong>d’évoluer dans le temps</strong> (e.g. les seuils de détections sont constamment à ajuster), il est très difficile de trouver le bon compromis entre détection des cas suspects et faux positifs avec des règles statiques. Dans ce genre de situation il est intéressant d’explorer la piste du <em>Machine Learning</em>.</p>
<p>&nbsp;</p>
<h2>Qui mène le projet : l’équipe cyber ou l’équipe data ?</h2>
<p>Les deux et avec de nombreux échanges ! #OneTeam</p>
<p>Ces deux équipes ont des <strong>expertises différentes</strong>, technique pour les <em>data scientists</em>, métier pour l’équipe cybersécurité. L’une sans l’autre ne permet pas de conduire un projet de <em>Machine Learning</em> pour la cybersécurité correctement.</p>
<p>Sans <em>data scientists,</em> l’équipe cybersécurité risque par exemple de :</p>
<ul>
<li>Se lancer en ayant trop peu de données <em>(e.g. le volume de données ne permet pas à l’algorithme de définir une norme de comportement, il interprète donc des situations normales comme anormales).</em></li>
<li>Ne pas penser à combiner certaines données <em>(e.g. chaque première connexion d’un utilisateur à une nouvelle application remonte en anomalie parce qu’on ne lui a pas ajouté de variable lui permettant de comparer ce comportement à celui de la masse des utilisateurs (qui utilisent déjà l’application)).</em></li>
<li>Ne pas savoir interpréter les alertes remontées par l’algorithme, et <em>a fortiori</em> ne pouvoir l’optimiser <em>(e.g. l’algorithme remonte des anomalies qui n’en sont pas, l’équipe cybersécurité ne comprend pas sur quoi il base son analyse et ne sait donc pas les réorienter).</em></li>
</ul>
<p>Et sans l’équipe cybersécurité, les <em>data scientists</em> risquent de :</p>
<ul>
<li>Ne pas pouvoir évaluer si l’algorithme remonte des anomalies pertinentes (<em>e.g. l’algorithme remonte un log en anomalie mais les data scientists ne peuvent pas évaluer s’il s’agit d’un vrai problème de cybersécurité ou non).</em></li>
<li>Ne pas pouvoir sélectionner finement les données à communiquer à l’algorithme <em>(e.g. la cybersécurité a donné les logs de ses proxys aux data scientists mais n’a pas trié les champs les plus pertinents pour le cas d’usage : les résultats de l’algorithme sont confus).</em></li>
<li>Passer à côté d’éléments cruciaux à intégrer dans le calcul de l’algorithme pour répondre au besoin métier <em>(e.g. voulant optimiser un algorithme, un champ nécessaire à la catégorisation d’une anomalie de cybersécurité est supprimé du jeu de données, les résultats de l’algorithme perdent toute leur valeur cybersécurité).</em></li>
</ul>
<p><strong>Combiner</strong> <strong>les expertises de ces deux équipes est clé</strong> <strong>pour garantir que les ressources du <em>Machine Learning</em> seront utilisées efficacement pour apporter une réponse à haute valeur ajoutée pour la cybersécurité</strong>.</p>
<p>&nbsp;</p>
<h2>Quels sont les prérequis ?</h2>
<p>Les données !</p>
<p>Sans données, fin de l’histoire avant même qu’elle n’ait commencée.</p>
<p>Pour rappel, le <em>Machine Learning</em> est l’ensemble des techniques permettant aux machines d’apprendre, sans avoir été explicitement programmées pour. Et pour cela, nos algorithmes apprennent en se nourrissant de <strong>données</strong> que nous allons pouvoir leur fournir.</p>
<ul>
<li>Il les leur faudra <strong>en quantité</strong> pour qu’ils puissent tirer une « norme » la plus affutée possible, car définie et confrontée à des volumes importants de cas réels. A noter que « quantité » ne veut pas forcément dire « diversité » : il est important de sélectionner uniquement les données pertinentes pour le cas d’usage.</li>
<li>Il les leur faudra également en <strong>qualité</strong> pour ne pas tromper l’apprentissage de l’algorithme, n’introduisant pas de biais par exemple.</li>
</ul>
<p>Il sera donc nécessaire d’identifier les types de données intéressantes à analyser (e.g. logs de sécurité), les sources où elles seront collectées (e.g. proxy web) et les ressources qui permettront de les enrichir (e.g. CMDB pour faire le lien entre IP et nom de machine), si nécessaire.</p>
<p>&nbsp;</p>
<h2>J’ai peu de données disponibles pour mon cas d’usage, le <em>Machine Learning</em> n’est donc pas pour moi ?</h2>
<p>Pas forcément !</p>
<p>Si les données disponibles sont particulièrement pertinentes pour le cas d’usage à adresser et bien réparties (e.g. représentatives d’une situation habituelle sur une période de temps pour qu’un algorithme non supervisé puisse apprendre la situation « normale ») il est possible d’avoir des résultats intéressants.</p>
<p>A titre indicatif, avec un cas d’usage est bien défini (e.g. cible d’une population d’utilisateurs spécifique) et des logs adéquats collectés, des comportements suspects peuvent être détectés dans des logs proxy avec seulement deux semaines de trafic (suivant la verbosité des logs, cela ne représente que quelques centaines de Go).</p>
<p>&nbsp;</p>
<h2>Quel algorithme j’utilise ?</h2>
<p>En fait, « peu importe » !</p>
<p>L’élément déterminant qui permettra de répondre de manière plus ou moins adaptée à un cas d’usage est plutôt le type d’apprentissage : supervisé ou non.</p>
<p>Le choix d’un algorithme non supervisé plutôt qu’un autre a ensuite peu d’importance : il existe plusieurs algorithmes adaptés à un même cas d’usage, dont la performance dépendra plutôt du contexte (e.g. besoin d’interpréter les résultats, volume de données d’entrainement…).</p>
<p>Les <em>data scientists</em> orientent le choix sur la base de leur veille, pour proposer des algorithmes plus reconnus pour être performants sur un cas d’usage et dans un contexte défini.</p>
<p>&nbsp;</p>
<h2>Je fais moi-même ou je sous-traite ?</h2>
<p>Ça dépend, et ça peut évoluer dans le temps !</p>
<p>Notre premier article détaille un exemple d’implémentation : le développement avec ses propres outils, en partant de zéro. Mais dans les faits, trois possibilités d’implémentations sont possibles. Le choix dépend des cas d’usages envisagés, des ressources disponibles et de ses ambitions.</p>
<p>&nbsp;</p>
<figure id="post-13856 media-13856" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13856 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-3.png" alt="" width="1379" height="664" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-3.png 1379w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-3-397x191.png 397w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-3-71x34.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-3-768x370.png 768w" sizes="auto, (max-width: 1379px) 100vw, 1379px" /></figure>
<p>&nbsp;</p>
<p>Chacun de ses scénarios présente ses avantages et ses contraintes, et il est possible de les utiliser de concert. Par ailleurs, il est essentiel de resonder régulièrement le marché afin d’étudier si de nouvelles solutions innovantes et plus performantes ne sont pas apparues depuis le déploiement de la solution initiale.</p>
<p>#TakeAStepBack</p>
<p>&nbsp;</p>
<h2>Est-ce facile à tester ?</h2>
<p>Si le cadrage est bien fait, oui ! #Test&amp;Learn</p>
<p>Une fois le cas d’usage sélectionné, la disponibilité des données vérifiée et le choix d’une implémentation en fonction de son contexte faite, il est plutôt simple de réaliser un test de l’apport du <em>Machine Learning</em> avant d’investir davantage.</p>
<p>Ce type de projet <strong>se prête très bien à des démarches itératives ou par <em>sprints</em></strong>. Cela permet d’éprouver rapidement les solutions retenues et d’en démontrer la pertinence par la valeur apportée, ou au contraire mettre en évidence que pour ce cas d’usage les résultats ne sont pas suffisamment satisfaisants pour poursuivre.</p>
<p>Dans tous les cas, une démarche par <em>PoC</em> à la suite d’une étude d’opportunité permet de se faire rapidement une idée. Cette étape, avant de se lancer à grande échelle permet également de prendre de la hauteur pour évaluer les gains potentiels (e.g. gains de temps car moins de faux positifs à traiter, meilleure réactivité globale car les alertes levées sont plus pertinentes) par rapport aux investissements à réaliser (e.g. infrastructures de calcul spécifiques, compétences à recruter) avant de se lancer.</p>
<p>&nbsp;</p>
<h2>Une fois que j’ai fait mon PoC comment je passe à l’échelle ?</h2>
<p>Encore une fois, pas à pas !</p>
<p>Une fois les premiers résultats concluants obtenus sur un cas d’usage, il est possible d’envisager son passage en production. Attention toutefois à ne pas aller trop vite : le passage en production amène de nouvelles questions auxquelles il est nécessaire de répondre avant de poursuivre, par exemple :</p>
<ul>
<li>Quels volumes de données seront à analyser ? Quelles opérations de <em>pre-processing </em>(préparation des données) seront à réaliser ? A quelle fréquence ? (Temps réel, différé…)</li>
<li>A quelle fréquence l’algorithme devra-t-il refaire son apprentissage ? Sur quels volumes de données ?</li>
<li>Quelles infrastructures seront donc nécessaires ?</li>
<li>Quelles compétences et ressources permettront de maintenir la solution dans le temps ?</li>
</ul>
<p>Il sera alors le moment de prendre un pas de recul et de <strong>faire des choix opérationnels</strong>, en ayant en tête une vision long terme.</p>
<p>&nbsp;</p>
<h2>Combien ça coûte ?</h2>
<p>Tout dépend du stade de réflexion et de ses ambitions.</p>
<p>Pour un PoC, un cadrage permet de limiter l’investissement tant que l’apport du <em>Machine Learning</em> n’est pas démontré (e.g. activation d’une option sur un outil de sécurité le temps de tester, pas d’investissement en infrastructures).</p>
<p>Une fois la valeur ajoutée démontrée, se pose la question des coûts à engager pour la mise en production et le maintien dans le temps. Plusieurs éléments sont à considérer pour évaluer l’investissement total qui sera nécessaire :</p>
<ul>
<li><strong>Investissements matériels</strong> (e.g. boîtiers pour les solutions du marché, infrastructures et ressources pour gagner en puissance de calcul pour les développements internes) <strong>et logiciels </strong>(licences, activation des fonctionnalités Machine Learning sur les SIEM, outils de Big Data pour la data science…). Il est clé de ne pas négliger la puissance de calcul nécessaire au fonctionnement de certains modèles. C’est une raison en plus de la qualité des résultats pour cibler au maximum les données les plus pertinentes pour répondre à un cas d’usage.</li>
<li><strong>Acquisition des compétences </strong>: tant les nouveaux profils à intégrer (e.g. data scientists, data engineers) que les profils métiers et experts pertinents, qui seront sollicités non seulement en phase projet mais également dans la durée (traitement des alertes, réapprentissage, tests de non-déviation de la solution, etc.)</li>
</ul>
<p>&nbsp;</p>
<h2>En synthèse, quels sont les principaux pièges à éviter ?</h2>
<p>#Reminder</p>
<p>&nbsp;</p>
<figure id="post-13854 media-13854" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13854 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-4.png" alt="" width="1505" height="758" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-4.png 1505w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-4-379x191.png 379w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-4-71x36.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-4-768x387.png 768w" sizes="auto, (max-width: 1505px) 100vw, 1505px" /></figure>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-2-2/">Booster sa cybersécurité grâce à du Machine Learning ?  Partie 2 – « Oui, mais pas n’importe comment ! »</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Booster sa cybersécurité grâce à du Machine Learning ?  Partie 1 &#8211; « Absolument, voici comment! »</title>
		<link>https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/</link>
		
		<dc:creator><![CDATA[Carole Meyziat]]></dc:creator>
		<pubDate>Fri, 03 Jul 2020 12:00:17 +0000</pubDate>
				<category><![CDATA[Cloud & Next-Gen IT Security]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[analyse de données]]></category>
		<category><![CDATA[DLP]]></category>
		<category><![CDATA[Machine learning]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=13770</guid>

					<description><![CDATA[<p>Aujourd’hui, nous entendons parler de l’intelligence artificielle (IA) partout, elle touche tous les secteurs… et la cybersécurité n’est pas en reste ! Selon un benchmark mondial publié par CapGemini à l’été 2019, 69% des organisations considèrent qu’elles ne seront bientôt plus capables de répondre à une cyberattaque sans...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/">Booster sa cybersécurité grâce à du Machine Learning ?  Partie 1 &#8211; « Absolument, voici comment! »</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><span data-contrast="none">Aujourd’hui</span><span data-contrast="none">,</span><span data-contrast="none"> </span><span data-contrast="none">nous entendons </span><span data-contrast="none">parler de l’intelligence artificielle</span><span data-contrast="none"> </span><span data-contrast="none">(IA) </span><span data-contrast="none">partout</span><span data-contrast="none">, elle touche tous les secteurs</span><span data-contrast="none">… e</span><span data-contrast="none">t la cybersécurité n’est pas en reste</span><span data-contrast="none"> !</span><span data-contrast="none"> Selon un benchmark mondial publié par </span><span data-contrast="none">CapGemini</span><span data-contrast="none"> </span><span data-contrast="none">à l’</span><span data-contrast="none">été 2019, 69% des organisations considèrent qu’elles ne seront bientôt plus capables de répondre à une cyberattaque sans IA. Le Gartner place </span><b><span data-contrast="none">l’IA appliquée à la cybersécurité</span></b><span data-contrast="none"> dans les </span><span data-contrast="none">10</span><span data-contrast="none"> </span><span data-contrast="none">tendances technologiques stratégiques majeures de 2020.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">N</span><span data-contrast="none">ous </span><span data-contrast="none">allons au travers de deux articles </span><span data-contrast="none">explorer les capacités </span><span data-contrast="none">de l’IA</span><span data-contrast="none">, en particulier celles du </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none">,</span><span data-contrast="none"> pour la cybersécurité</span><span data-contrast="none">. </span><span data-contrast="none">Dans ce premier article,</span><span data-contrast="none"> </span><span data-contrast="none">nous</span><span data-contrast="none"> </span><span data-contrast="none">allons parcourir </span><span data-contrast="none">pas à pas </span><span data-contrast="none">les étapes d’un projet de </span><span data-contrast="none">Machine Learning</span><span data-contrast="none"> focalisé sur un cas d’usage </span><span data-contrast="none">cybersécurité </span><span data-contrast="none">: </span><b><span data-contrast="none">l’exfiltration de données depuis le SI</span></b><span data-contrast="none">, sur un cas très simplifié</span><span data-contrast="none">. Nous </span><span data-contrast="none">en </span><span data-contrast="none">avons choisi un, mais les concepts de cet article sont applicables à tous les projets de </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> et peuvent être </span><span data-contrast="none">transposés à </span><span data-contrast="none">tout autre</span><span data-contrast="none"> </span><span data-contrast="none">cas d’usage, notamment cyber</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<h2 aria-level="2"><span data-contrast="none">Avant toute chose, de quoi parle-t-on ?</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Le terme </span><span data-contrast="none">d’</span><span data-contrast="none">I</span><span data-contrast="none">ntelligence </span><span data-contrast="none">Artificielle</span><span data-contrast="none"> </span><span data-contrast="none">(IA) </span><span data-contrast="none">regroupe toutes les techniques permettant aux machines de simuler l’intelligence.</span><span data-contrast="none"> </span><span data-contrast="none">Aujourd’hui t</span><span data-contrast="none">outefois</span><span data-contrast="none">, </span><span data-contrast="none">lorsqu’on </span><span data-contrast="none">parle d’IA on parle très souvent de </span><b><i><span data-contrast="none">Machine Learning</span></i></b><span data-contrast="none">, </span><span data-contrast="none">l’un de ses </span><span data-contrast="none">sous-domaine</span><span data-contrast="none">s</span><span data-contrast="none">. Il s’agit </span><span data-contrast="none">des </span><b><span data-contrast="none">techniques permettant aux machines d’apprendre</span></b><b><span data-contrast="none"> une tâche</span></b><b><span data-contrast="none">, sans </span></b><b><span data-contrast="none">avoir été</span></b><b><span data-contrast="none"> explicitement </span></b><b><span data-contrast="none">programmée</span></b><b><span data-contrast="none">s</span></b><b><span data-contrast="none"> pour</span></b><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Pour nous professionnels de la cybersécurité, c</span><span data-contrast="none">ela tombe bien : nous avons bien souvent du mal à décrire explicitement </span><span data-contrast="none">ce que nous voulons détecter</span><span data-contrast="none"> ! Le </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> </span><span data-contrast="none">nous offre</span><span data-contrast="none"> </span><span data-contrast="none">alors </span><span data-contrast="none">de </span><span data-contrast="none">nouvelles perspectives, avec déjà de nombreux cas d’application</span><span data-contrast="none">, dont les principaux sont ill</span><span data-contrast="none">ustrés ci-dessous:</span></p>
<p>&nbsp;</p>
<figure id="post-13849 media-13849" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13849 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2.png" alt="" width="1593" height="715" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2.png 1593w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2-426x191.png 426w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2-71x32.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2-768x345.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2-1536x689.png 1536w" sizes="auto, (max-width: 1593px) 100vw, 1593px" /></figure>
<p>&nbsp;</p>
<h2><span data-contrast="none">L’</span><span data-contrast="none">exemple</span><span data-contrast="none"> d</span><span data-contrast="none">’un </span><span data-contrast="none">cas d’usage </span><span data-contrast="none">pour la </span><span data-contrast="none">cybersécurité ML-augmenté : l</span><span data-contrast="none">e</span><span data-contrast="none"> DLP</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Pour illustrer l’apport du </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> à la cybersécurité,</span><span data-contrast="none"> </span><span data-contrast="none">nous </span><span data-contrast="none">avons choisi de nous intéresser à l’extraction frauduleuse de données</span><span data-contrast="none"> de</span><span data-contrast="none">puis</span><span data-contrast="none"> </span><span data-contrast="none">le</span><span data-contrast="none"> </span><span data-contrast="none">système d’information</span><span data-contrast="none"> d’une entreprise</span><span data-contrast="none">. Autrement </span><span data-contrast="none">dit</span><span data-contrast="none">,</span><span data-contrast="none"> le cas du DLP (</span><i><span data-contrast="none">Data </span></i><i><span data-contrast="none">Leakage</span></i><i><span data-contrast="none"> Prevention</span></i><span data-contrast="none">)</span><span data-contrast="none">, </span><span data-contrast="none">problématique rencontrée par </span><span data-contrast="none">un grand nombre</span><span data-contrast="none"> d’entreprises.</span><span data-contrast="none"> </span><span data-contrast="none">Nous souhaitons détecter les communications suspectes vers l’extérieur afin de pouvoir les empêcher.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<figure id="post-13771 media-13771" class="align-none"></figure>
<figure id="post-13790 media-13790" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13790 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1.png" alt="" width="1701" height="412" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1.png 1701w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1-437x106.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1-71x17.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1-768x186.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1-1536x372.png 1536w" sizes="auto, (max-width: 1701px) 100vw, 1701px" /></figure>
<p>&nbsp;</p>
<p><i><span data-contrast="none">« </span></i><i><span data-contrast="none">Très bien mais</span></i><i><span data-contrast="none">…</span></i><i><span data-contrast="none"> comment caractériser une communication suspecte</span></i><i><span data-contrast="none"> ?</span></i><i><span data-contrast="none"> »</span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Par des volumes échangés importants ? Par une destination étrange ? Par une heure de connexion inhabituelle ? </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">En réalité, n</span><span data-contrast="none">otre problème est </span><b><span data-contrast="none">complexe à </span></b><b><span data-contrast="none">expliciter</span></b><span data-contrast="none"> </span><span data-contrast="none">et</span><span data-contrast="none"> </span><span data-contrast="none">ce que nous devons évaluer </span><span data-contrast="none">a de </span><b><span data-contrast="none">fortes chances d’évoluer </span></b><b><span data-contrast="none">dans</span></b><b><span data-contrast="none"> le temps</span></b><span data-contrast="none">. </span><span data-contrast="none">C’est pourquoi, en utilisant uniquement des règles</span><span data-contrast="none"> de détection</span><span data-contrast="none"> statiques, </span><span data-contrast="none">no</span><span data-contrast="none">s équipes sécurité </span><span data-contrast="none">ont </span><span data-contrast="none">du mal à être exhaustives</span><span data-contrast="none">.</span><span data-contrast="none"> </span><span data-contrast="none">E</span><span data-contrast="none">lles peuvent jouer sur les seuils de ces règles</span><span data-contrast="none"> pour affiner</span><span data-contrast="none"> les éléments détectés</span><span data-contrast="none">, </span><span data-contrast="none">mais</span><span data-contrast="none"> </span><span data-contrast="none">se retrouvent </span><span data-contrast="none">malheureusement </span><span data-contrast="none">encore </span><span data-contrast="none">avec </span><span data-contrast="none">un nombre important de </span><span data-contrast="none">faux positifs</span><span data-contrast="none"> à traiter</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">On comprend que le </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> </span><span data-contrast="none">tel que nous l’avons défini </span><span data-contrast="none">précédemment</span><span data-contrast="none"> </span><span data-contrast="none">peut nous être utile ici.</span><span data-contrast="none"> Et si on essayait ?</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:2,&quot;335551620&quot;:2,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13773 media-13773" class="align-none"></figure>
<figure id="post-13792 media-13792" class="align-none"></figure>
<figure id="post-13818 media-13818" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13818 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2.png" alt="" width="1634" height="680" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2.png 1634w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2-437x182.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2-71x30.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2-768x320.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2-1536x639.png 1536w" sizes="auto, (max-width: 1634px) 100vw, 1634px" /></figure>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<h2 aria-level="2"><span data-contrast="none">Etape 1 : Clarifier le besoin</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">C’est ce que nous ve</span><span data-contrast="none">n</span><span data-contrast="none">ons de </span><span data-contrast="none">faire !</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:2,&quot;335551620&quot;:2,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<h2 aria-level="2"><span data-contrast="none">Etape 2 : </span><span data-contrast="none">Choisir les données</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Quand </span><span data-contrast="none">on </span><span data-contrast="none">entend les mots</span><span data-contrast="none"> </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none">, il faut </span><span data-contrast="none">généralement comprendre</span><span data-contrast="none"> « données »</span><span data-contrast="none"> pour</span><span data-contrast="none"> </span><span data-contrast="none">alimenter</span><span data-contrast="none"> </span><span data-contrast="none">les</span><span data-contrast="none"> algorithme</span><span data-contrast="none">s. </span><b><span data-contrast="none">B</span></b><b><span data-contrast="none">eaucoup de données</span></b><b><span data-contrast="none">,</span></b><b><span data-contrast="none"> et </span></b><b><span data-contrast="none">de</span></b><b><span data-contrast="none"> qualité</span></b><span data-contrast="none"> !</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">En demandant où aller chercher des données utiles </span><span data-contrast="none">pour</span><span data-contrast="none"> notre cas d’exfiltration des données</span><span data-contrast="none"> </span><b><span data-contrast="none">à notre </span></b><b><span data-contrast="none">métier demandeur</span></b><span data-contrast="none"> (</span><span data-contrast="none">qui pour une fois est la </span><span data-contrast="none">cybersécurité !)</span><span data-contrast="none">, </span><span data-contrast="none">le </span><span data-contrast="none">proxy web </span><span data-contrast="none">ressort comme grand gagnant : </span><span data-contrast="none">il </span><span data-contrast="none">voit </span><span data-contrast="none">passer quasiment tout le trafic </span><span data-contrast="none">sortant </span><span data-contrast="none">du SI.</span><span data-contrast="none"> </span><span data-contrast="none">Nous récupérons donc </span><span data-contrast="none">ses </span><span data-contrast="none">logs,</span><span data-contrast="none"> ils </span><span data-contrast="none">ressemblent à ça</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:1,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13775 media-13775" class="align-none"></figure>
<figure id="post-13794 media-13794" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13794 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1.png" alt="" width="1669" height="443" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1.png 1669w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1-437x116.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1-71x19.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1-768x204.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1-1536x408.png 1536w" sizes="auto, (max-width: 1669px) 100vw, 1669px" /></figure>
<p>&nbsp;</p>
<p><i><span data-contrast="none">« </span></i><i><span data-contrast="none">C</span></i><i><span data-contrast="none">a</span></i><i><span data-contrast="none"> m’a l’air bien compliqué tout ça… »</span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Les </span><i><span data-contrast="none">data scientists</span></i><span data-contrast="none"> ont </span><span data-contrast="none">en effet </span><span data-contrast="none">de quoi être perdus</span><span data-contrast="none"> :</span><span data-contrast="none"> </span><span data-contrast="none">d</span><span data-contrast="none">’une part l’ensemble est peu digeste, </span><span data-contrast="none">de l’autre</span><span data-contrast="none">, </span><span data-contrast="none">après consultation du métier-c</span><span data-contrast="none">ybersécurité, </span><b><span data-contrast="none">tou</span></b><b><span data-contrast="none">s les champs ne sont</span></b><b><span data-contrast="none"> pas vraiment utile</span></b><b><span data-contrast="none">s</span></b><span data-contrast="none"> </span><b><span data-contrast="none">pour notre cas d’usage</span></b><span data-contrast="none">.</span><span data-contrast="none"> </span><b><span data-contrast="none">Nous en sélectionnons donc</span></b><span data-contrast="none"> quelques-uns</span><span data-contrast="none"> avec </span><span data-contrast="none">lui </span><span data-contrast="none">avant de poursuivre.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<figure id="post-13777 media-13777" class="align-none"></figure>
<figure id="post-13796 media-13796" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13796 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1.png" alt="" width="1623" height="270" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1.png 1623w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1-437x73.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1-71x12.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1-768x128.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1-1536x256.png 1536w" sizes="auto, (max-width: 1623px) 100vw, 1623px" /></figure>
<p>&nbsp;</p>
<p><span data-contrast="none">Le résultat </span><span data-contrast="none">est</span><span data-contrast="none"> plus exploitable par les </span><i><span data-contrast="none">data</span></i><i><span data-contrast="none"> </span></i><i><span data-contrast="none">scientists</span></i><span data-contrast="none"> !</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<h2 aria-level="2"><span data-contrast="none">Etape 3 : préparer les données</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Les</span><span data-contrast="none"> </span><i><span data-contrast="none">data</span></i><i><span data-contrast="none"> </span></i><i><span data-contrast="none">scientists</span></i><span data-contrast="none"> peuvent maintenant </span><span data-contrast="none">« </span><span data-contrast="none">explore</span><span data-contrast="none">r </span><span data-contrast="none">les données » </span><span data-contrast="none">afin de garantir </span><span data-contrast="none">un apprentissage optimal de l’algorithme. Ici, ils nous remontent un élément surprenant dans </span><span data-contrast="none">la répartition de nos requêtes suivant leur volume d’</span><i><span data-contrast="none">upload</span></i><span data-contrast="none">. Puisqu’on souhaite</span><span data-contrast="none"> </span><span data-contrast="none">détecter</span><span data-contrast="none"> </span><span data-contrast="none">d</span><span data-contrast="none">es exfiltrations de données, </span><span data-contrast="none">cette variable</span><span data-contrast="none"> nous intéresse </span><span data-contrast="none">en effet </span><span data-contrast="none">particulièrement</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13784 media-13784" class="align-none"></figure>
<figure id="post-13779 media-13779" class="align-none"></figure>
<figure id="post-13798 media-13798" class="align-none"></figure>
<figure id="post-13814 media-13814" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13814 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3.png" alt="" width="1770" height="657" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3.png 1770w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3-437x162.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3-71x26.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3-768x285.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3-1536x570.png 1536w" sizes="auto, (max-width: 1770px) 100vw, 1770px" /></figure>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:2,&quot;335551620&quot;:2,&quot;335559685&quot;:-283,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">La valeur de notre variable n’est pas distribuée, nous avons même un très fort volume à 0.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><i><span data-contrast="none">« Mais, </span></i><i><span data-contrast="none">elles sont quand même nombreuses ces </span></i><i><span data-contrast="none">requêtes avec un </span></i><i><span data-contrast="none">volume d’</span></i><i><span data-contrast="none">upload</span></i><i><span data-contrast="none"> </span></i><i><span data-contrast="none">nul, </span></i><i><span data-contrast="none">est-ce que </span></i><i><span data-contrast="none">c’est vraiment pertinent de les garder</span></i><i><span data-contrast="none"> dans notre cas</span></i><i><span data-contrast="none"> ? ». </span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Effectivement</span><span data-contrast="none">, </span><span data-contrast="none">après discussion avec </span><span data-contrast="none">le métier-</span><span data-contrast="none">cybersécurité, il ressort que ces données n</span><span data-contrast="none">’apporte</span><span data-contrast="none">nt</span><span data-contrast="none"> pas </span><span data-contrast="none">grand-chose </span><span data-contrast="none">pour </span><span data-contrast="none">notre cas d’usage</span><span data-contrast="none">. </span><span data-contrast="none">Nous décidons donc de les retirer, notre jeu est alors distribué comme suit :</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<figure class="align-none"></figure>
<figure id="post-13781 media-13781" class="align-none"></figure>
<figure id="post-13816 media-13816" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13816 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3.png" alt="" width="1586" height="715" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3.png 1586w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-424x191.png 424w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-71x32.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-768x346.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-1536x692.png 1536w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-730x330.png 730w" sizes="auto, (max-width: 1586px) 100vw, 1586px" /></figure>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:2,&quot;335551620&quot;:2,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Après plusieurs aller</span><span data-contrast="none">s-</span><span data-contrast="none">retours</span><span data-contrast="none"> entre les </span><i><span data-contrast="none">data scientists</span></i><span data-contrast="none"> challengeant les données avec un point de vue statistique et </span><span data-contrast="none">les équipes </span><span data-contrast="none">cybersécurité</span><span data-contrast="none"> répondant avec leur œil métier, </span><span data-contrast="none">les données sont simplifiées au maximum</span><span data-contrast="none">. Elles sont</span><span data-contrast="none"> ensuite :</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<ul>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="none">Enrichies</span></b><b><span data-contrast="none"> </span></b><span data-contrast="none">en créant </span><span data-contrast="none">de nouvelles variables </span><span data-contrast="none">plus denses en information utile</span><span data-contrast="none">. </span><span data-contrast="none">Nous avons </span><span data-contrast="none">introduit un </span><b><span data-contrast="none">volume d’</span></b><b><i><span data-contrast="none">upload</span></i></b><b><span data-contrast="none"> relatif</span></b><span data-contrast="none"> vers chaque site, </span><span data-contrast="none">mesurant </span><span data-contrast="none">l’écart entre le volume d’</span><i><span data-contrast="none">upload</span></i><span data-contrast="none"> d’une requête et sa valeur moyenne observée sur les 90 derniers jours</span><span data-contrast="none">. Nous pourrions également ajouter </span><span data-contrast="none">la </span><b><span data-contrast="none">durée de connexion</span></b><span data-contrast="none"> </span><span data-contrast="none">par exemple</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:709,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="2" data-aria-level="1"><b><span data-contrast="none">Normalis</span></b><b><span data-contrast="none">ée</span></b><b><span data-contrast="none">s</span></b><span data-contrast="none"> en </span><span data-contrast="none">r</span><span data-contrast="none">édui</span><span data-contrast="none">sant</span><span data-contrast="none"> l’amplitude </span><span data-contrast="none">de chaque</span><span data-contrast="none"> </span><span data-contrast="none">variable</span><span data-contrast="none"> </span><span data-contrast="none">pour </span><span data-contrast="none">diminuer </span><span data-contrast="none">une sur ou sous-pondération de certaines variables</span><span data-contrast="none">.</span></li>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="2" data-aria-level="1"><b><span data-contrast="none">Numérisées</span></b><span data-contrast="none">, </span><span data-contrast="none">l</span><span data-contrast="none">a plupart des </span><span data-contrast="none">algorithme</span><span data-contrast="none">s</span><span data-contrast="none"> </span><span data-contrast="none">ne pouvant interpréter que des variables numériques</span><span data-contrast="none">. </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
</ul>
<p><span data-contrast="none">Nous pouvons maintenant </span><span data-contrast="none">séparer </span><span data-contrast="none">notre jeu de données </span><span data-contrast="none">en deux : </span><span data-contrast="none">un </span><b><span data-contrast="none">jeu</span></b><b><span data-contrast="none"> allant servir à l</span></b><b><span data-contrast="none">’entraînement</span></b><span data-contrast="none"> </span><span data-contrast="none">de notre modèle, </span><span data-contrast="none">un </span><b><span data-contrast="none">jeu qui nous permettra de tester</span></b><span data-contrast="none"> sa performance.</span><span data-contrast="none"> </span><span data-contrast="none">Plusieurs méthodes de séparation existe</span><span data-contrast="none">nt, permettant de conserver </span><span data-contrast="none">certaines caractéristiques des données (e.g. la saisonnalité), mais l’objectif reste le même : garantir une </span><span data-contrast="none">mesure d’</span><span data-contrast="none">évaluation </span><span data-contrast="none">au plus proche des performances réelles du modèle, en présentant au modèle des données qu’il n’a</span><span data-contrast="none"> pas</span><span data-contrast="none"> eu </span><span data-contrast="none">a</span><span data-contrast="none"> disposition durant l’entraînement.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<h2 aria-level="2"><span data-contrast="none">Etape 4 : </span><span data-contrast="none">Choisir l</span><span data-contrast="none">a méthode d’apprentissage</span><span data-contrast="none"> et entrainer le modèle</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Certains algorithmes sont plus performants </span><span data-contrast="none">que d’autres pour </span><span data-contrast="none">une</span><span data-contrast="none"> problématique</span><span data-contrast="none"> donnée</span><span data-contrast="none">, il convient donc </span><span data-contrast="none">de </span><span data-contrast="none">faire un choix raisonné.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Il existe deux </span><span data-contrast="none">principales </span><span data-contrast="none">catégories d’algorithmes de </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> : </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<ul>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="none">Supervisés</span></b><span data-contrast="none">, lorsqu</span><span data-contrast="none">e </span><span data-contrast="none">l’on a des données labelisées comme référence</span><span data-contrast="none"> à donner en exemple à notre algorithme.</span><span data-contrast="none"> </span><span data-contrast="none">Ces a</span><span data-contrast="none">lgorithmes </span><span data-contrast="none">sont </span><span data-contrast="none">par exemple utilisés en cybersécurité par les solutions </span><i><span data-contrast="none">anti-spam</span></i><span data-contrast="none"> : ils peuvent apprendre </span><span data-contrast="none">via la classification </span><span data-contrast="none">des </span><i><span data-contrast="none">e</span></i><i><span data-contrast="none">mails</span></i><span data-contrast="none"> comme </span><i><span data-contrast="none">spam</span></i><span data-contrast="none"> </span><span data-contrast="none">par les utilisateurs</span><span data-contrast="none"> par exemple</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="2" data-aria-level="1"><b><span data-contrast="none">Non supervisé</span></b><b><span data-contrast="none">s</span></b><span data-contrast="none">, </span><span data-contrast="none">lorsque </span><span data-contrast="none">l’</span><span data-contrast="none">on </span><span data-contrast="none">ne </span><span data-contrast="none">sait </span><span data-contrast="none">pas </span><span data-contrast="none">précisément ce qu’on souhaite détecter</span><span data-contrast="none"> ou </span><span data-contrast="none">que l’on </span><span data-contrast="none">manque d’exemples à fournir à l’algorithme pour son apprentissage</span><span data-contrast="none"> (i.e. nous manquons données labélisées)</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
</ul>
<p><span data-contrast="none">Comme expliqué plus haut, </span><span data-contrast="none">le contexte de </span><span data-contrast="none">notre cas d’usage </span><span data-contrast="none">nous oriente </span><span data-contrast="none">plutôt </span><span data-contrast="none">vers la deuxième option.</span><span data-contrast="none"> </span><span data-contrast="none">C</span><span data-contrast="none">’est d’ailleurs pour </span><span data-contrast="none">les mêmes raisons</span><span data-contrast="none"> que nous avions initialement pensé au </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none">.</span><span data-contrast="none"> Nous choisissons ensuite notre algorithme </span><span data-contrast="none">d’apprentissage non supervisé</span><span data-contrast="none"> (</span><i><span data-contrast="none">Isolation Forest</span></i><span data-contrast="none"> </span><span data-contrast="none">ici, mais</span><span data-contrast="none"> nous aurions pu en choisir un autre</span><span data-contrast="none">)</span><span data-contrast="none"> et entrainons notre modèle</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<h2 aria-level="2"><span data-contrast="none">Etape 5 : A</span><span data-contrast="none">nalyser les résultats</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Nous utilisons notre jeu de données de test</span><span data-contrast="none"> pour </span><span data-contrast="none">évaluer</span><span data-contrast="none"> l’efficacité de notre modèle pour détecter les cas d’exfiltration. </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Le modèle conçu permet de </span><span data-contrast="none">détecter des </span><i><span data-contrast="none">patterns</span></i><span data-contrast="none"> dans les données </span><span data-contrast="none">(requêtes)</span><span data-contrast="none">, pour ensuite </span><span data-contrast="none">comparer les </span><span data-contrast="none">nouvelles </span><span data-contrast="none">données</span><span data-contrast="none"> (requêtes) </span><span data-contrast="none">avec ce</span><span data-contrast="none">s </span><i><span data-contrast="none">patterns</span></i><span data-contrast="none"> </span><span data-contrast="none">et </span><b><span data-contrast="none">mettre en lumière celles qui s’éloigne</span></b><b><span data-contrast="none">nt</span></b><b><span data-contrast="none"> de ce qu’il considère comme la </span></b><b><span data-contrast="none">norme</span></b><b><span data-contrast="none"> </span></b><b><span data-contrast="none">de par</span></b><b><span data-contrast="none"> son apprentissage </span></b><b><span data-contrast="none">(score d’anomalie)</span></b><span data-contrast="none">. </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Voici nos résultats</span><span data-contrast="none"> </span><span data-contrast="none">: </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13802 media-13802" class="align-none"></figure>
<figure id="post-13824 media-13824" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13824 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1.png" alt="" width="971" height="421" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1.png 971w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1-437x189.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1-71x31.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1-768x333.png 768w" sizes="auto, (max-width: 971px) 100vw, 971px" /></figure>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><i><span data-contrast="none">« Ok, mais comment j’interprète tout ça ? »</span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Le graphique</span><span data-contrast="none"> à gauche</span><span data-contrast="none"> représente le</span><span data-contrast="none">s</span><span data-contrast="none"> score</span><span data-contrast="none">s</span><span data-contrast="none"> d’anomalie associé</span><span data-contrast="none">s</span><span data-contrast="none"> à chaque </span><span data-contrast="none">requête</span><span data-contrast="none"> du jeu de test, triés par ordre chronologique. A droite se trouve</span><span data-contrast="none">nt</span><span data-contrast="none"> les logs présentant le</span><span data-contrast="none">s</span><span data-contrast="none"> score</span><span data-contrast="none">s</span><span data-contrast="none"> d’anomalie le</span><span data-contrast="none">s</span><span data-contrast="none"> plus </span><span data-contrast="none">importan</span><span data-contrast="none">ts</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Après investigation avec le métier</span><span data-contrast="none">-cybersécurité</span><span data-contrast="none"> </span><span data-contrast="none">:</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<ul>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="none">Le pic en jaune, correspond à un </span><b><i><span data-contrast="none">upload</span></i></b><b><span data-contrast="none"> de volume beaucoup plus important que les autres</span></b><span data-contrast="none">, d’un utilisateur qui extrait un large volume de données.</span><span data-contrast="none"> Cette anomalie est légitime</span><span data-contrast="none">. Toutefois, </span><span data-contrast="none">une alerte</span><span data-contrast="none"> </span><span data-contrast="none">sur la base d’une règle </span><span data-contrast="none">statique</span><span data-contrast="none"> sur le vol</span><span data-contrast="none">ume par requête aurait </span><span data-contrast="none">également </span><span data-contrast="none">permis de détecter cette communication suspecte</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
</ul>
<ul>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="none">Plus intéressant maintenant, l</span><span data-contrast="none">es pics en rouge, correspondent à des </span><b><span data-contrast="none">requêtes de faibles volumes d’</span></b><b><i><span data-contrast="none">upload</span></i></b><span data-contrast="none"> </span><b><span data-contrast="none">régulière</span></b><b><span data-contrast="none">s </span></b><b><span data-contrast="none">vers des sites inconnus depuis le même utilisateur</span></b><span data-contrast="none">. Ces anomalies sont plus difficile</span><span data-contrast="none">s</span><span data-contrast="none"> à détecter </span><span data-contrast="none">avec des moyens classiques</span><span data-contrast="none">, pourtant </span><b><span data-contrast="none">notre algorithme leur a attribué le même score d’anomalie que pour un large volume</span></b><span data-contrast="none">. Elle</span><span data-contrast="none">s</span><span data-contrast="none"> </span><span data-contrast="none">deviennent </span><span data-contrast="none">donc tout</span><span data-contrast="none"> </span><span data-contrast="none">aussi prioritaire</span><span data-contrast="none">s</span><span data-contrast="none"> à qualifier</span><span data-contrast="none"> pour nos équipes de gestion des alertes</span><span data-contrast="none"> </span><span data-contrast="none">de cybersécurité</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
</ul>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13826 media-13826" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13826 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1.png" alt="" width="947" height="412" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1.png 947w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1-437x191.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1-71x31.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1-768x334.png 768w" sizes="auto, (max-width: 947px) 100vw, 947px" /></figure>
<figure id="post-13804 media-13804" class="align-none"></figure>
<p>&nbsp;</p>
<p><span data-contrast="none">Maintenant</span><span data-contrast="none">,</span><span data-contrast="none"> focalisons-nous sur le large paquet au centre du graphique</span><span data-contrast="none"> (en orange)</span><span data-contrast="none">.</span><span data-contrast="none"> </span><span data-contrast="none">Le premier jour, on observe un score d’anomalie</span><span data-contrast="none"> important</span><span data-contrast="none">, il s’agit d’un </span><b><span data-contrast="none">envoi soudain de données par de nombreux utilisateurs</span></b><b><span data-contrast="none"> </span></b><b><span data-contrast="none">vers le site </span></b><b><span data-contrast="none">web de transport en commun de la ville</span></b><span data-contrast="none">. Après investigation on se rend compte qu’il ne s’agit </span><b><span data-contrast="none">pas d’un vrai incident</span></b><b><span data-contrast="none"> de sécurité</span></b><span data-contrast="none">, mais de l’envoi annuel de justificatifs pour poursuite des abonnements </span><span data-contrast="none">de transport</span><span data-contrast="none"> </span><span data-contrast="none">(nous sommes début septembre…). </span><span data-contrast="none">On obs</span><span data-contrast="none">erve </span><span data-contrast="none">par la suite</span><span data-contrast="none"> que</span><span data-contrast="none"> </span><b><span data-contrast="none">l’algorithme « comprend » que ces flux reviennent </span></b><b><span data-contrast="none">chez plusieurs utilisateurs</span></b><b><span data-contrast="none"> </span></b><b><span data-contrast="none">et les intègr</span></b><b><span data-contrast="none">e </span></b><b><span data-contrast="none">progressivement </span></b><b><span data-contrast="none">comme une habitude. Le score de risques décroit donc jour après jour.</span></b><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276,&quot;335559991&quot;:284}"> </span></p>
<p><span data-contrast="none">L</span><span data-contrast="none">e modèle détecte </span><span data-contrast="none">donc </span><span data-contrast="none">ce qui sort de la norme, quelle que soit la norme et s’autocorrige avec l’expérience. </span><b><span data-contrast="none">C’est en cela que le </span></b><b><i><span data-contrast="none">Machine Learning</span></i></b><b><span data-contrast="none"> tient une vraie valeur ajoutée par rapport aux méthodes classiques de détection.</span></b><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276,&quot;335559991&quot;:284}"> </span></p>
<p><span data-contrast="none">S</span><span data-contrast="none">i</span><span data-contrast="none"> la performance du modèle </span><span data-contrast="none">sur ce premier cas d’usage simplifié </span><span data-contrast="none">perm</span><span data-contrast="none">et d’a</span><span data-contrast="none">ttester de la valeur potentielle du Machine Learning</span><span data-contrast="none">, il peut être temps de passer à l’étape 6 – le déploiement</span><span data-contrast="none"> à l’échelle</span><span data-contrast="none"> ! </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">D</span><span data-contrast="none">ans </span><span data-contrast="none">un second </span><span data-contrast="none">articl</span><span data-contrast="none">e nous reviendrons </span><span data-contrast="none">sur ces étapes </span><span data-contrast="none">pour mettre en </span><span data-contrast="none">lumière les facteurs de réussite et </span><span data-contrast="none">pièges à éviter lorsqu’on souhaite </span><span data-contrast="none">étudier </span><span data-contrast="none">les possibilités du </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> en cybersécurité.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/">Booster sa cybersécurité grâce à du Machine Learning ?  Partie 1 &#8211; « Absolument, voici comment! »</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>L’utilisation du Machine Learning par les startups françaises dans le domaine de la cybersécurité</title>
		<link>https://www.riskinsight-wavestone.com/2019/10/radar-startups-2019-33/</link>
		
		<dc:creator><![CDATA[Paul Bonnaure]]></dc:creator>
		<pubDate>Tue, 22 Oct 2019 11:45:50 +0000</pubDate>
				<category><![CDATA[Cloud & Next-Gen IT Security]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[Machine learning]]></category>
		<category><![CDATA[radar]]></category>
		<category><![CDATA[start-up]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=12182</guid>

					<description><![CDATA[<p>Cet article a pour but de présenter nos convictions sur l’utilisation du Machine Learning par les startups françaises en cybersécurité du Radar Wavestone 2019. L’intelligence artificielle est un sujet à la mode et la cybersécurité fait partie des cas d’usages...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2019/10/radar-startups-2019-33/">L’utilisation du Machine Learning par les startups françaises dans le domaine de la cybersécurité</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><em>Cet article a pour but de présenter nos convictions sur l’utilisation du Machine Learning par les startups françaises en cybersécurité du <a href="https://www.riskinsight-wavestone.com/2019/10/radar-startups-2019-13/">Radar Wavestone 2019</a>.</em></p>
<p>L’intelligence artificielle est un sujet à la mode et la cybersécurité fait partie des cas d’usages phare de développement. Est-ce aussi le cas pour les <em>startups</em> françaises en cybersécurité ? Qu’en est-il de son utilisation ? Quelles sont les tendances du marché concernant cette technologie ?</p>
<p>&nbsp;</p>
<h2>« Intelligence Artificielle », « Machine Learning », « Deep Learning » : trois termes trop souvent confondus</h2>
<p>Avant de rentrer dans le vif du sujet, commençons par clarifier le vocabulaire qui sera employé dans la suite de l’article :</p>
<ul>
<li><em><strong>Intelligence Artificielle</strong></em>: ensemble des techniques mises en œuvre pour que des machines simulent l’intelligence ;</li>
<li><strong><em>Machine Learning</em></strong>: technique reposant sur des modèles statistiques qui permettent à l’ordinateur « d’apprendre » à partir d’un grand nombre de données ;</li>
<li><strong><em>Deep Learning</em></strong>: méthode de <em>Machine Learning</em> basée sur un réseau de neurones profonds. D’autres méthodes existent : <em>Support Vector Machines, Random Forests, K-Nearest Neighbors</em>, …</li>
</ul>
<p>La confusion entre ces trois termes est fréquente. Bien souvent l’utilisation du terme « Intelligence Artificielle » en cybersécurité désigne l’utilisation du <em>Machine Learning</em>, sous toutes ses formes.</p>
<p>&nbsp;</p>
<figure id="post-12183 media-12183" class="align-none"><img loading="lazy" decoding="async" class="aligncenter wp-image-12183 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-1.png" alt="" width="1250" height="591" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-1.png 1250w, https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-1-404x191.png 404w, https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-1-768x363.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-1-71x34.png 71w" sizes="auto, (max-width: 1250px) 100vw, 1250px" /></figure>
<p>&nbsp;</p>
<h2>La cybersécurité, un terreau fertile pour les technologies de Machine Learning</h2>
<p>Sur les <strong>134 <em>startups</em></strong> recensées dans notre radar 2019 des <em>startups</em> françaises en cybersécurité, <strong>19% </strong>proposent des solutions basées sur du <em>Machine Learning</em>. Interrogées, <strong>70%</strong> de ces <em>startups</em> déclarent que développer ce type de technologie dans leurs solutions fait partie de leur stratégie.</p>
<p><img loading="lazy" decoding="async" class="aligncenter wp-image-12185 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-2.png" alt="" width="1274" height="941" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-2.png 1274w, https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-2-259x191.png 259w, https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-2-768x567.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-2-53x39.png 53w" sizes="auto, (max-width: 1274px) 100vw, 1274px" /></p>
<p>De plus, l’utilisation du <em>Machine Learning</em> dans certains domaines de la cybersécurité devient quasi <strong>incontournable</strong> et la majorité des <em>startups</em> de ces domaines envisagent de baser les futures évolutions de leur solution sur cette technologie.</p>
<p>Le <em>Machine Learning</em> en cybersécurité est en pleine progression et son utilisation, déjà implanté dans l’écosystème des <em>startups</em> françaises, démontre une forte volonté d’innovation du marché. On pressent que ce rythme d’adoption va continuer à s’accélérer dans les années à venir, la même « photo » de l’état des lieux dans un an devrait le prouver.</p>
<p>&nbsp;</p>
<h2>Le Machine Learning utilisé dans un but d’amélioration de performances</h2>
<p>Les <em>startups</em> qui ont choisi d’utiliser le <em>Machine Learning</em> le font principalement afin de :</p>
<ul>
<li><strong>Obtenir des temps de réponses courts</strong>: réduire le temps de réponse de la prise de décision en utilisation nominale. En effet, dans certains cas où le nombre de données est particulièrement important, il faudrait des mois à un algorithme n’utilisant pas de <em>Machine Learning</em> pour fournir un résultat ;</li>
<li><strong>Améliorer la fiabilité des détections</strong>: réduire le nombre d’erreurs, c’est-à-dire diminuer le taux de faux positif et faux négatifs. Les solutions anti-<em>phishing</em> sont une bonne illustration car celles reposant sur du <em>Machine Learning</em> filtrent avec moins d’erreur qu’une solution dite « classique ».</li>
</ul>
<p>&nbsp;</p>
<h2>Une adoption hétérogène selon le thème du radar…</h2>
<p>L’adoption du <em>Machine Learning</em> varie de manière importante d’une thématique du radar à l’autre. Les thématiques où l’utilisation du <em>Machine Learning</em> est la plus répandue sont : « <em>Application Security</em> », « <em>Endpoint</em> », « <em>Industrial Security</em> » et « <em>Web Security</em> ». On note également quelques cas d’usages particuliers dans d’autres thèmes du radar tel DPO Consulting utilisant du <em>Machine Learning</em> pour aider à la prise de décisions dans le cas d’une évaluation des risques.</p>
<figure id="post-12195 media-12195" class="align-none"><img loading="lazy" decoding="async" class="aligncenter wp-image-12195 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-3-1.png" alt="" width="755" height="694" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-3-1.png 755w, https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-3-1-208x191.png 208w, https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-3-1-42x39.png 42w" sizes="auto, (max-width: 755px) 100vw, 755px" /></figure>
<h2>…expliqué par la nature même du Machine Learning.</h2>
<p>Le Machine Learning nécessite un certain nombre de prérequis et de conditions pour fonctionner efficacement. Toute la performance des modèles de Machine Learning repose sur la phase <strong>d’entrainement</strong> où le modèle « apprend » grâce aux données qu’on lui fournit. Ces données, que nous allons illustrer par le cas d’une solution anti-phishing pour boite mail, doivent être :</p>
<ul>
<li><strong>Pertinentes</strong>: c’est-à-dire porteuses d’informations utiles. Dans notre exemple de solution anti-<em>phishing</em>, une information utile est par exemple la présence de certains mots souvent utilisés dans des mails de <em>phishing</em> ; une image ou la taille du fichier mail sont moins utiles ;</li>
<li>En <strong>nombre suffisant</strong>: ce nombre varie selon le cas d’usage et le niveau de précision souhaité. Dans notre exemple de solution anti-<em>phishing</em>, il faudrait probablement entrainer l’algorithme avec quelques dizaines de milliers de mails ;</li>
<li><strong>Variées</strong>: si possible de sources différentes pour plus de résilience de l’algorithme. Dans notre exemple de solution anti-<em>phishing</em>, il serait bon que la base de données d’entrainement contienne des mails issus de différentes campagnes de <em>phishing</em>, reçus par différents entreprises/particuliers, des mails ciblés ou non…, et qu’elle puisse traiter à la fois le contenu du mail mais également les <em>headers</em>, etc. ;</li>
<li><strong>Représentatives </strong>: c’est-à-dire<strong> ne pas</strong> <strong>introduire de biais </strong>et<strong> être à jour</strong>. Dans notre exemple de solution anti-<em>phishing</em>, il convient par exemple de ré-entrainer régulièrement le modèle afin de prendre en compte les dernières tendances en matière de <em>phishing</em>.</li>
</ul>
<p><img loading="lazy" decoding="async" class="aligncenter wp-image-12189 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-4.png" alt="" width="1474" height="806" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-4.png 1474w, https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-4-349x191.png 349w, https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-4-768x420.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2019/10/Image-4-71x39.png 71w" sizes="auto, (max-width: 1474px) 100vw, 1474px" /></p>
<p style="text-align: center;"><em>Schéma de fonctionnement d’une solution basée sur du Machine Learning</em></p>
<p>Dans les domaines où le Machine Learning est le plus utilisé, il s’avère que ces conditions sont plus facilement réunies. En effet, les données nécessaires à l’entrainement sont souvent déjà disponibles dans les équipements en place (log applicatifs, log système, log réseau, alerte anti-virus, …), voire déjà consolidées dans des équipements de sécurité centraux (SIEM, Data Lake…).</p>
<p>&nbsp;</p>
<h2>« Intelligence Artificielle » : Gare à l’effet de mode !</h2>
<p>Si le <em>Machine Learning</em> offre de nouvelles possibilités permettant de grandement améliorer les capacités cybersécurité des entreprises, cette technologie n’est pas en soi une solution miracle. Il est important de bien comprendre ces algorithmes et de garder certains points d’attention en tête avant de se lancer dans l’acquisition d’une telle solution.</p>
<p>Tout d’abord, comme la phase d’entrainement est clé pour la performance du <em>Machine Learning</em>, il faut s’interroger sur sa capacité à fournir à la solution les données nécessaires et suffisantes pour l’apprentissage. Le principal frein remonté par les <em>startups</em> proposant des solutions entrainées avec des données clients est d’ailleurs la<strong> difficulté d’obtenir des données en qualité et quantité suffisante </strong>pour faire tourner leur solution.</p>
<p>Il est également important de réussir à lire au-delà du discours commercial pour comprendre l’apport réel du <em>Machine Learning</em> à la solution, au risque de payer plus cher un outil qui ne serait pas forcément justifié. Et surtout, il faut être conscient que le <em>Machine Learning</em> ne signifie pas ne plus avoir de risques. Ces solutions, comme toute solution de sécurité, répondent à un cas d’usage précis et viennent compléter un ensemble de mesures de sécurité.</p>
<p>Cette mise en garde nous semble nécessaire même si nous avons constaté une utilisation pertinente et justifiée de ces technologies par les startups françaises en cybersécurité dans le cadre de notre analyse.</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2019/10/radar-startups-2019-33/">L’utilisation du Machine Learning par les startups françaises dans le domaine de la cybersécurité</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Détecter des incidents cyber par Machine Learning : notre maquette en 5 étapes clefs !</title>
		<link>https://www.riskinsight-wavestone.com/2019/08/detecter-incidents-machine-learning/</link>
		
		<dc:creator><![CDATA[Hugo.MORET@wavestone.fr]]></dc:creator>
		<pubDate>Mon, 05 Aug 2019 07:19:08 +0000</pubDate>
				<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[Ethical Hacking & Incident Response]]></category>
		<category><![CDATA[détection]]></category>
		<category><![CDATA[Intelligence Artificielle]]></category>
		<category><![CDATA[Machine learning]]></category>
		<category><![CDATA[SOC]]></category>
		<category><![CDATA[Threat intelligence]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=12027</guid>

					<description><![CDATA[<p>Alors que la place de l’Intelligence Artificielle grandit dans les entreprises, allant de la maintenance prédictive à l’optimisation tarifaire, de nouveaux outils dits « intelligents » se développent pour la cybersécurité. Comment ces outils exploitent-ils les récents développements du Machine Learning ? Quelles...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2019/08/detecter-incidents-machine-learning/">Détecter des incidents cyber par Machine Learning : notre maquette en 5 étapes clefs !</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><em>Alors que la place de <strong>l’Intelligence Artificielle</strong> grandit dans les entreprises, allant de la maintenance prédictive à l’optimisation tarifaire, de nouveaux outils dits « <strong>intelligents</strong> » se développent pour la cybersécurité. Comment ces outils exploitent-ils les récents développements du Machine Learning ? Quelles étapes suivre pour développer une solution de détection intelligente et surtout pertinente dans son contexte ?</em></p>
<p>&nbsp;</p>
<h2>Des méthodes de détection statiques à de l’analyse comportementale</h2>
<p>Les attaques évoluant de plus en plus rapidement et de manière toujours plus élaborée, le SOC (<em>Security Operations Center</em>) est forcé de revoir son approche concernant les outils en place car les mécanismes de détection statiques deviennent trop rapidement obsolètes :</p>
<ul>
<li>L’approche historique repose sur la <strong>reconnaissance de comportements et d’empreintes connues </strong>(ex : signatures de malwares). Cette méthode, appelée <strong><em>misuse-based</em></strong>, remonte des alertes explicites et simples à analyser pour les opérationnels, mais seules les attaques déjà subies et détectées pourront être reconnues.</li>
<li>La nouvelle approche vise à <strong>analyser les actions déviant du comportement normalement observé</strong> sans avoir à définir explicitement et exhaustivement un acte malveillant (ex : comportement d’un individu s’éloignant de celui de ses collègues). Cette approche <strong><em>anomaly-based</em></strong> permet de détecter des attaques non renseignées directement dans les outils mais nécessite d’exploiter de plus larges volumes de données.</li>
</ul>
<p>L’approche <em>anomaly-based</em> exploite les capacités de corrélation des algorithmes d’<strong>apprentissage non supervisé</strong> mettant en avant des liens dans des données non labellisées (non catégorisées comme normales ou anormales).</p>
<p>&nbsp;</p>
<h2>Recette de l’été : détection d’anomalies sur lit de Machine Learning</h2>
<p>Pour savoir si le <em>Machine Learning</em> convient à son contexte, la meilleure solution reste de réaliser un PoC (<em>Proof of Concept</em>). Comment l’implémenter ? Quels sont les points d’attention ? Voici les étapes clés de notre développement.</p>
<p>&nbsp;</p>
<h3>Entrée, plat ou dessert : définir le cas d’usage</h3>
<p>Faire du <em>Machine Learning</em>, c’est bien. Savoir pourquoi, c’est mieux. Définir un <strong>cas d’usage</strong> revient à répondre à la question « Que voulez-vous observer ? » et déterminer les moyens disponibles pour y répondre.</p>
<p>Dans notre contexte, un cas d’usage est un scénario de menace portant sur un ou des groupes de comptes (administrateurs malveillants, exfiltration de données sensibles…). Pour les évaluer, plusieurs critères sont à prendre en considération :</p>
<ul>
<li><strong>Utilité</strong>: quel serait l’impact si le scénario se réalisait ?</li>
<li><strong>Disponibilité des données</strong>: quelles sont les sources de données utiles disponibles ?</li>
<li><strong>Complexité des données</strong>: les données disponibles sont-elles structurées (nombres, tableaux) ou non structurées (images, texte) ?</li>
</ul>
<p>Nous avons choisi de travailler sur la compromission de <strong>comptes de services</strong> : certains peuvent avoir des droits importants, et leurs actions automatisées génèrent des données relativement structurées. Dans le cadre d’un PoC, un périmètre restreint et des sources de données homogènes et facilement accessibles sont à privilégier pour obtenir des résultats concrets et exploitables, avant d’envisager des cas d’usages plus ambitieux.</p>
<p>&nbsp;</p>
<h3>Pesée des ingrédients : déterminer le modèle de données</h3>
<p>Afin d’exploiter au mieux les données, il est nécessaire de définir une représentation permettant de <strong>modéliser un comportement à partir des informations disponibles</strong>. Ici intervient notamment l’expertise métier : une <strong>action isolée</strong> peut-elle être signe de compromission ou faut-il plutôt prendre en compte une <strong>série d’actions</strong> pour détecter un comportement malveillant ?</p>
<p>Dans un premier temps, nous avons défini un modèle basé sur l’analyse de logs unitaires et de même famille (ex : connexions, accès aux ressources…) pour évaluer le fonctionnement global. Cependant, un <strong>modèle trop simple</strong> ignorera des signaux faibles cachés dans des <strong>corrélations</strong> d’actions, tandis qu’une <strong>représentation trop complexe</strong> ajoutera du temps de traitement et sera plus sensible aux biais de modélisation.</p>
<p>&nbsp;</p>
<h3>Sélection des ustensiles : choisir l’algorithme</h3>
<p>Plusieurs types d’algorithmes peuvent être employés pour la détection d’anomalies :</p>
<ul>
<li>Certains tentent <strong>d’isoler</strong> chaque point : si un point est facile à isoler, il est éloigné des autres et donc plus anormal.</li>
<li>Les algorithmes de <strong><em>clustering</em></strong> créent des groupes de points qui se ressemblent et calculent le barycentre de chacun correspondant au comportement moyen : si un point est trop éloigné du barycentre, il est considéré comme anormal.</li>
<li>Moins fréquents, les <a href="https://towardsdatascience.com/credit-card-fraud-detection-using-autoencoders-in-h2o-399cbb7ae4f1"><strong>auto-encodeurs</strong></a> sont des réseaux de neurones artificiels qui apprennent à recréer le comportement normal avec moins de paramètres : les erreurs de reproduction du comportement pourront être considérées comme un score d’anomalie.</li>
</ul>
<p>D’autres approches existent encore, jusqu’aux plus exotiques <a href="https://www.hindawi.com/journals/tswj/2014/156790/abs/">systèmes immunitaires artificiels</a> qui imitent les mécanismes biologiques pour créer un outil de détection évolutif. Il faut cependant ne pas oublier qu’<strong>un outil simple et bien optimisé est souvent plus efficace qu’un outil trop complexe</strong>.</p>
<p>L’algorithme de clustering des <strong>k-moyennes</strong> a été sélectionné dans notre cas : utilisé notamment dans la détection de fraude bancaire, il simplifie le réentrainement qui permet à l’outil de rester adapté malgré les évolutions des comportements.</p>
<p>Tous ces algorithmes peuvent également être <strong>enrichis</strong>, <strong>selon le modèle de comportements</strong> choisi, pour prendre en compte une suite d’actions. Ainsi, des réseaux de neurones <a href="https://fr.wikipedia.org/wiki/R%C3%A9seau_neuronal_convolutif">convolutifs</a> ou <a href="https://fr.wikipedia.org/wiki/R%C3%A9seau_de_neurones_r%C3%A9currents">récurrents</a> peuvent être ajoutés en amont pour prendre en compte des <strong>séries temporelles</strong>.</p>
<p>&nbsp;</p>
<h3>Préparation des ingrédients : transformer les données</h3>
<p>Une fois que l’algorithme a été sélectionné, il faut traiter les données brutes afin de les rendre exploitables. Ce traitement s’effectue en plusieurs étapes :</p>
<ul>
<li><strong>Le</strong> <strong>nettoyage</strong>: correction des erreurs de <em>parsing</em>, suppression des informations inutiles et ajout des informations manquantes</li>
<li><strong>L’enrichissement</strong>: ajout des données venant d’autres sources et retraitement des champs pour mettre en avant une information (ex : indiquer si une date est un jour férié…)</li>
<li><strong>La transformation</strong>: création de colonnes binaires pour les données qualitatives (ex : nom de compte, type d’événement…) ne pouvant pas être directement transformées en nombres (une colonne pour chaque valeur unique, indiquant si la valeur est présente ou non)</li>
<li><strong>La normalisation </strong>: retraitement des valeurs afin qu’elles soient toutes comprises entre 0 et 1 (pour éviter qu’un champ ne prenne l’ascendant sur un autre)</li>
</ul>
<p>En raison de la variété d’événements possibles et de la complexité des logs, nous avons fait le choix d’automatiser ce processus : pour chaque champ, l’algorithme détecte le type de données et sélectionne la transformation adaptée dans une bibliothèque prédéfinie. L’opérateur peut ensuite interagir avec l’outil pour modifier ce choix avant de continuer le processus.</p>
<p>&nbsp;</p>
<h3>Assaisonnement : tester et optimiser l’outil</h3>
<p>Une fois le modèle défini, l’algorithme choisi et les données transformées, l’outil développé devrait être en capacité de lever des alertes sur des anomalies. Ces alertes ont-elles du sens ou sont-elles des faux positifs ?</p>
<p>Afin d’évaluer la performance de l’outil, nous avons effectué deux types de tests :</p>
<ul>
<li>La <strong>simulation d’intrusion </strong>en effectuant des actions malveillantes pour vérifier si elles sont bien détectées comme anormales (cette approche peut être également traitée en ajoutant directement de « faux » logs dans les <em>sets</em> de données)</li>
<li>L’<strong>analyse des anomalies </strong>en vérifiant si les alertes levées correspondent effectivement à des comportements malveillants</li>
</ul>
<p>De nombreux paramètres peuvent être ajustés dans les algorithmes permettant d’affiner la détection. <strong>L’optimisation des performances</strong> se fait par itérations, en modifiant les paramètres et en observant l’effet sur un <strong><em>set</em> de données de validation</strong>. Chronophage manuellement, elle peut être améliorée par l’approche <a href="https://en.wikipedia.org/wiki/Hyperparameter_optimization"><strong>AutoML</strong></a><strong> </strong>qui cherche à automatiser certaines étapes par l’utilisation d’algorithmes d’optimisation.</p>
<p>Cependant, l’optimisation des paramètres ne suffit pas : les résultats de notre PoC nous ont permis de constater que la qualité d’une détection basée sur de l’analyse comportementale repose en grande partie sur la pertinence des comportements définis en amont du développement de l’algorithme.</p>
<p>&nbsp;</p>
<h2>ML or not ML: that may not be the question</h2>
<p>Malgré ses atouts indéniables, le <em>Machine Learning</em> est un <strong>outil à utiliser de manière raisonnée</strong> : les <em>frameworks</em> deviennent de plus en plus accessibles et simples d’utilisation, mais les étapes cruciales restent la <strong>définition du use-case</strong> et du <strong>modèle de comportement</strong>. Ces choix, où l’expertise métier est indispensable, influenceront de manière irréversible le choix des données, la sélection de l’algorithme de détection et les tests à effectuer.</p>
<p>La question n’est donc plus « Où puis-je mettre du <em>Machine Learning</em> dans mon SOC ? », mais « Parmi toutes les approches disponibles, <strong>quelle est la plus efficace</strong> pour répondre à mon problème ? ».</p>
<p>Pour le savoir, une seule solution : allumez les fourneaux !</p>
<p>&nbsp;</p>
<table style="width: 100%; border-collapse: collapse; background-color: #dbceeb; border-color: #080707;">
<tbody>
<tr>
<td style="width: 100%;">
<h2 style="text-align: left;">Pour aller plus loin&#8230;</h2>
<p style="text-align: left;">Voici les outils utilisés lors de notre POC :</p>
<ul style="text-align: left;">
<li><strong>IDE</strong>
<ul>
<li><strong>Pycharm</strong>: environnement de développement clair et pratique avec une gestion des bibliothèques efficace</li>
</ul>
</li>
<li><strong>Langage</strong>
<ul>
<li><strong>Python</strong>: langage très largement utilisé dans le domaine de la Data Science possédant de nombreuses bibliothèques performantes</li>
</ul>
</li>
<li><strong>Bibliothèques</strong>
<ul>
<li><strong>Scikit-learn</strong>: bibliothèque de Machine Learning complète (supervisé, non supervisé…)</li>
<li><strong>Pandas</strong>: traitement complexe de tableaux de données</li>
<li><strong>Numpy</strong>: manipulation de matrices et vecteurs</li>
<li><strong>Matplotlib, </strong><strong>Seaborn</strong>: affichage de graphiques pour la visualisation</li>
</ul>
</li>
</ul>
</td>
</tr>
</tbody>
</table>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2019/08/detecter-incidents-machine-learning/">Détecter des incidents cyber par Machine Learning : notre maquette en 5 étapes clefs !</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Revolution technologique : quelle perspective pour la lutte contre la fraude ? (2/2)</title>
		<link>https://www.riskinsight-wavestone.com/2018/11/quelle-perspective-pour-la-lutte-contre-la-fraude-22/</link>
		
		<dc:creator><![CDATA[m@THIEU]]></dc:creator>
		<pubDate>Fri, 02 Nov 2018 18:17:47 +0000</pubDate>
				<category><![CDATA[Cyber for Financial Services]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[Banque]]></category>
		<category><![CDATA[confiance]]></category>
		<category><![CDATA[détection]]></category>
		<category><![CDATA[financial services cyber]]></category>
		<category><![CDATA[fraude]]></category>
		<category><![CDATA[Machine learning]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=11400/</guid>

					<description><![CDATA[<p>Après un premier article présentant les nouvelles technologies que l&#8217;on trouve dans la lutte contre la fraude, ce deuxième article présente comment intégrer ces technologies au mieux. Le dilemme de l&#8217;évolution des dispositifs antifraude : quels leviers pour intégrer ces...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2018/11/quelle-perspective-pour-la-lutte-contre-la-fraude-22/">Revolution technologique : quelle perspective pour la lutte contre la fraude ? (2/2)</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><em>Après un premier article présentant les nouvelles technologies que l&rsquo;on trouve dans la lutte contre la fraude, ce deuxième article présente comment intégrer ces technologies au mieux.</em></p>
<h2>Le dilemme de l&rsquo;évolution des dispositifs antifraude : quels leviers pour intégrer ces technologies ?</h2>
<p>Faisant écho à ces problématiques, l’écosystème des éditeurs s’est organisé pour proposer des solutions antifraude s’appuyant sur ces technologies. Ainsi éditeurs et start-ups se sont très largement développés, partout dans le monde (plus de 150 fournisseurs ont été recensés au sein du radar « Antifraude » Wavestone). Le besoin de lutte antifraude a en effet par nature une dimension internationale, notamment dans la protection des flux monétaires qui sont rarement limités à un seul pays.</p>
<figure id="post-11405 media-11405" class="align-center"><img loading="lazy" decoding="async" class="aligncenter wp-image-11405" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-2.png" alt="" width="691" height="551" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-2.png 894w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-2-239x191.png 239w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-2-768x613.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-2-49x39.png 49w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-2-155x125.png 155w" sizes="auto, (max-width: 691px) 100vw, 691px" /></figure>
<p style="text-align: center;"><em>Figure 2 :</em><em>Exemple du radar des éditeurs antifraude Wavestone (extrait non exhaustif)</em></p>
<p>Même si la lutte contre la fraude apparait comme un <em>use case</em> de choix pour démontrer le ROI du Machine Learning (réduction du nombre de fraudes, automatisation de la détection…) et au-delà du choix de la stratégie d’outillage de lutte contre la fraude au regard de la maturité du marché, les questions à se poser doivent rester celles d’une solution SI « standard » (exploitation, maintenance, évolutivité…).</p>
<p>Si les coûts d’infrastructures nécessaires à la mise en place d’outils basés sur le Machine Learning et le big data ne sont pas négligeables, ils permettent de créer un environnement favorable à l’exploitation de la richesse des données pour divers usages (maintenance prédictive des serveurs, connaissance client, etc.) en gardant à l’esprit les garde-fous mis en place par le RGPD.</p>
<figure id="post-11407 media-11407" class="align-center"><img loading="lazy" decoding="async" class="aligncenter wp-image-11407" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-3.png" alt="" width="1026" height="497" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-3.png 1361w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-3-394x191.png 394w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-3-768x372.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-3-71x34.png 71w" sizes="auto, (max-width: 1026px) 100vw, 1026px" /></figure>
<p style="text-align: center;"><em>Figure 3 : Où peut-on agir avec le Machine Learning : exemple d’une banque</em></p>
<h2>Une nouvelle cible à atteindre : une approche « sans couture » technologique et métier</h2>
<p>Face aux nouveaux enjeux et l’apport des technologies émergentes, une nouvelle stratégie antifraude doit être désormais définie.</p>
<p>La mise en place d’un dispositif <strong>de détection globale de confiance qui devra respecter 5 grands principes.</strong></p>
<ul>
<li>L’efficience et l’automatisation : il bénéficiera d’une détection à plusieurs critères (moteur de règles et Machine Learning) et d’une efficacité opérationnelle optimisée par l’automatisation de mesures allant de l&rsquo;augmentation du niveau d&rsquo;authentification demandé au gel d&rsquo;un virement.</li>
<li>L’évolutivité et l’omnicanal : il intègrera plusieurs périmètres dans la détection avec une logique « sans couture » entre le monde cyber et le monde « hors cyber » et sera conçu pour permettre l’intégration de nouvelles données disponibles (ex : données de biométrie comportementale).</li>
<li>La visibilité et l’exploitabilité : il fournira la visibilité (<em>reporting</em>) et l’explication des résultats de détection, aux équipes antifraude, aux clients et également aux régulateurs.</li>
<li>La conformité et la sécurisation : il respectera les obligations en matière de détection ainsi que les réglementations (RGPD), et traitera les risques inhérents au Machine Learning (tentatives de <em>poisoning</em>, compréhension par l’attaquant du modèle…).</li>
<li>La gouvernance transverse cybersécurité et métier : une collaboration étroite des équipes de détection de menaces cyber et métier antifraude, dépassant les silos encore trop présents, permettra une réponse globale avec une vision 360 des menaces et fera le meilleur usage des données disponibles.</li>
</ul>
<p>Pour bénéficier de tous les atouts apportés par cette nouvelle stratégie de détection, il conviendra également de ne pas négliger les systèmes d’investigation et de réaction.</p>
<p>Une décentralisation partielle de la lutte contre la fraude, impliquant les conseiller bancaires, permettra une plus grande capacité d’investigation. Ayant la connaissance la plus fine de leurs clients, ces derniers représentent un atout dans le processus d’investigation.</p>
<p>De plus, la biométrie comportementale et le machine learning permettent de fournir une meilleure visibilité sur le niveau de confiance qu’on peut accorder à l’utilisateur. Une fois le niveau de confiance défini, il est donc possible d’adapter les niveaux d’authentification demandés en conséquence. Une contribution adaptée et graduée de l’utilisateur permettra ainsi de réduire le nombre d’alertes émises.</p>
<p>La mise en place d’une nouvelle cible antifraude n’est pas seulement pour assurer une réponse adaptée à un changement de contexte mais aussi pour anticiper une vague de fond qui s’amorce aujourd’hui. La détection de fraudes deviendra à l’avenir de plus en plus complexe compte tenu d’une digitalisation qui va continuer à s’accélérer, en particulier sur les moyens de paiement. L’émergence de nouveaux acteurs, comme les <em>Fintechs</em>, et la désintermédiation grandissante des banques vont notamment entraîner un appauvrissement de la donnée disponible. Les dispositifs antifraude sont donc voués à évoluer en profondeur afin de garder et développer leur efficacité.</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2018/11/quelle-perspective-pour-la-lutte-contre-la-fraude-22/">Revolution technologique : quelle perspective pour la lutte contre la fraude ? (2/2)</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Revolution technologique : quelle perspective pour la lutte contre la fraude ? (1/2)</title>
		<link>https://www.riskinsight-wavestone.com/2018/10/quelle-perspective-pour-la-lutte-contre-la-fraude-12/</link>
		
		<dc:creator><![CDATA[m@THIEU]]></dc:creator>
		<pubDate>Wed, 31 Oct 2018 08:53:45 +0000</pubDate>
				<category><![CDATA[Cyber for Financial Services]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[anti fraude]]></category>
		<category><![CDATA[Banque]]></category>
		<category><![CDATA[confiance]]></category>
		<category><![CDATA[détection]]></category>
		<category><![CDATA[financial services cyber]]></category>
		<category><![CDATA[fraude]]></category>
		<category><![CDATA[Machine learning]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=11382/</guid>

					<description><![CDATA[<p>La protection des actifs, notamment contre leur vol ou leur détournement, est depuis longtemps un enjeu majeur des entreprises. Les dispositifs de lutte contre la fraude s’organisent autour de trois grands piliers : la prévention, la détection et la réaction. Ces...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2018/10/quelle-perspective-pour-la-lutte-contre-la-fraude-12/">Revolution technologique : quelle perspective pour la lutte contre la fraude ? (1/2)</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>La protection des actifs, notamment contre leur vol ou leur détournement, est depuis longtemps un enjeu majeur des entreprises. Les dispositifs de lutte contre la fraude s’organisent autour de trois grands piliers : la prévention, la détection et la réaction. Ces dispositifs historiques font aujourd’hui face à de multiples évolutions qui offrent également des opportunités sans précédent que les entreprises se doivent de saisir.</p>
<p>Les expériences et expérimentations du secteur bancaire, en avance sur ces problématiques, permettent d’envisager les perspectives à venir et fournit donc un prisme d’analyse utile aussi pour les autres secteurs.</p>
<h2>Menaces, usages, réglementations : trois évolutions majeures qui impliquent des adaptations des dispositifs antifraude</h2>
<p>Les transformations business et technologiques dans l’ensemble des secteurs d’activité font apparaitre des évolutions impactant directement les dispositifs antifraude historiques.</p>
<p>Les menaces évoluent, les <strong>pratiques de fraude se sont professionnalisées</strong> avec de nouveaux outils et de nouvelles pratiques. Prenons l&rsquo;exemple du phishing : même sans connaissances informatiques, une cellule de fraudeurs entrainée peut désormais acheter un kit de phishing prêt à l&#8217;emploi et met en moyenne seulement trois minutes entre une connexion frauduleuse et une sortie d&rsquo;argent. Les<strong> tentatives de fraude se sont donc démultipliées</strong> ces dernières années.</p>
<p>En parallèle, les usages évoluent vers une <strong>plus forte digitalisation</strong>, parfois dictés directement par <strong>des évolutions réglementaires</strong>, à la fois à destination des clients ou à destination des collaborateurs. Par exemple la mise en place de l’Instant Payment en France ou de la directive européenne sur les services de paiement 2ème version (DSP2) prévoient des virements instantanés. Ces nouveaux usages accélèrent les transactions financières entre les acteurs entrainant par la même occasion des <strong>besoins d’évaluation instantanée</strong> des risques de fraude. De plus, cette multiplication des canaux de paiement entraîne une<strong> augmentation de la surface d&rsquo;attaque</strong> avec notamment une diversification des malwares bancaires aux applications mobiles ainsi que l&rsquo;apparition de pratiques d&rsquo;ingénierie sociale complexes <strong>multicanales</strong> et appuyées sur une compréhension des processus métier.</p>
<p>La diversification des fraudes, la volumétrie associée et l&rsquo;augmentation des besoins de traitement instantané rend le traitement manuel presque impossible. La création de règles d&rsquo;alertes plus restrictives pour minimiser les volumes ferait cependant courir le risque de manquer un grand nombre de fraudes.</p>
<p>Dans ce nouveau paysage, où la fraude devient de plus en plus technologique et peut avoir de multiples origines (clients, donneurs d’ordres, sous-traitants, fournisseurs, administrateurs…), les stratégies de détection doivent évoluer et passer d’une détection réactive des fraudes connues à une détection proactive des menaces encore inconnues.</p>
<h2>Les nouvelles technologies, l&rsquo;avenir de l&rsquo;antifraude pour faire face à ce nouveau paradigme</h2>
<p><em>L’approche historique de la détection de fraude est fondée principalement sur la définition de règles unitaires générant une alerte en cas de non-respect d’un des critères et sur la corrélation d’événements, consistant à mettre en œuvre des règles métiers plus avancées prenant en compte plusieurs types de données, afin de générer une alerte lorsque apparaissent des indices du déroulement d’un scénario de fraude connu.</em></p>
<p>Cette approche tout en demeurant efficace pour la détection de fraudes connues, par exemple dans la lutte contre le <em>phishing</em>, n’est plus suffisante pour faire face aux évolutions en cours. Une approche hybride doit être enrichie sur la base des nouvelles technologies présentes sur le marché (intelligence artificielle / Machine Learning, biométrie comportementale&#8230;) qui offrent deux grandes perspectives d’enrichissement des dispositifs actuels.</p>
<ol>
<li><strong> </strong>Passer d’une détection de masse à une détection individualisée beaucoup plus fine qui va se concentrer sur les changements de comportement.</li>
</ol>
<p>Le Machine Learning a la possibilité de créer des profils individuels à chaque client. Ces profils, composés de variables construites à l’aide des données collectées, vont permettre de modéliser le comportement. Ainsi, les algorithmes utilisés vont comparer le profil du client (et donc son habitude) avec un événement donné et, de fait, remonter une anomalie lorsqu’une divergence apparait. A noter que le nombre de variables manipulées peut facilement dépasser plusieurs dizaines, là où des règles statiques n’intègreront que quelques paramètres, permettant ainsi de démultiplier le potentiel de détection ou de réduire le nombre de faux positif.</p>
<ol start="2">
<li>Diversifier les périmètres à couvrir en bénéficiant des économies d’échelle apportées par ces technologies (mutualisation des infrastructures big data, massification des données, automatisation permettant un gain de temps pour les analystes…)</li>
</ol>
<p>Ces technologies ont la capacité d’intégrer et corréler, grâce à des <em>Data Lake</em> sur lesquels elles s’appuient, des volumétries importantes de données brutes, techniques ou métiers (logs applicatifs, connaissances clients, opérations financières…) et d’apporter un potentiel d’enrichissement par des données extérieures (liste de surveillance, transformation d’adresses IP en localisations physiques…). Pour tirer le maximum de bénéfices des systèmes antifraudes, le <em>Data Lake</em> doit disposer d’un historique de données pertinentes et conformes, à savoir 13 mois pour des personnes physiques et 6 mois pour des personnes morales.</p>
<p>Pour autant ces technologies ne sont pas « magiques », elles nécessitent d’avoir à disposition des données en qualité et en quantité afin de réaliser un important travail préparatoire sur la construction des variables qui portent les capacités de détection des algorithmes. Cette phase de construction nécessite un apport d’expertise à la fois métier mais aussi technologique (<em>datascience</em>, développeurs, etc.).</p>
<figure id="post-11384 media-11384" class="align-center"><img loading="lazy" decoding="async" class="aligncenter wp-image-11384" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-1.png" alt="" width="459" height="647" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-1.png 519w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-1-135x191.png 135w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/11/schema-1-28x39.png 28w" sizes="auto, (max-width: 459px) 100vw, 459px" /></figure>
<p style="text-align: center;"><em>Figure 1 &#8211; les principales méthodes de détection</em></p>
<p>Le choix des algorithmes n’est également pas à négliger, notamment d’un point de vue de la transparence. En effet, certains outils sont basés sur des algorithmes où les résultats sont difficilement justifiables. Le manque de visibilité sur les critères d’établissement des résultats entraine une remontée d’alertes en « boîte noire » et ne permet pas toujours de justifier les blocages aux clients. Une trop grande opacité peut également avoir des conséquences juridiques, voir être illégale, lorsque ces alertes ont des conséquences directes sur des clients.</p>
<p>Si ce premier article présente quelles sont les technologies d&rsquo;avenir dans la lutte contre la fraude, un deuxième article viendra détailler comment les intégrer au mieux.</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2018/10/quelle-perspective-pour-la-lutte-contre-la-fraude-12/">Revolution technologique : quelle perspective pour la lutte contre la fraude ? (1/2)</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>SOAR, UEBA, CASB, EDR et autres acronymes… suivez la saga de l’été pour comprendre et choisir parmi les nouveaux outils du SOC (3/3)</title>
		<link>https://www.riskinsight-wavestone.com/2018/08/nouveaux-outils-du-soc-33/</link>
		
		<dc:creator><![CDATA[Amaury Coulomban]]></dc:creator>
		<pubDate>Tue, 28 Aug 2018 17:28:43 +0000</pubDate>
				<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[Ethical Hacking & Incident Response]]></category>
		<category><![CDATA[Innovation]]></category>
		<category><![CDATA[Machine learning]]></category>
		<category><![CDATA[outillage]]></category>
		<category><![CDATA[Security Operations Center]]></category>
		<category><![CDATA[supervision]]></category>
		<category><![CDATA[Threat intelligence]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=11225/</guid>

					<description><![CDATA[<p>Après le premier épisode consacré à l’axe Étendre la détection à de nouveaux périmètres (consutable ici). Après l’épisode 2, dédié à l’axe Compléter la détection avec de nouvelles approches (consutable ici). Retrouvez le dénouement de cette (épique) saga dans ce dernier...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2018/08/nouveaux-outils-du-soc-33/">SOAR, UEBA, CASB, EDR et autres acronymes… suivez la saga de l’été pour comprendre et choisir parmi les nouveaux outils du SOC (3/3)</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><strong>Après le premier épisode consacré à l’axe <em>Étendre la détection à de nouveaux périmètres </em>(consutable <a href="https://www.riskinsight-wavestone.com/2018/07/nouveaux-outils-du-soc-13/">ici</a>). Après l’épisode 2, dédié à l’axe <em>Compléter la détection avec de nouvelles approches </em>(consutable <a href="https://www.riskinsight-wavestone.com/2018/07/nouveaux-outils-du-soc-23/">ici</a>). Retrouvez le dénouement de cette (épique) saga dans ce dernier épisode regroupant les deux derniers axes !</strong></p>
<h2>Améliorer la connaissances des menaces et des attaquants : plateformes CTI (<em>-Cyber-Threat Intelligence</em>)</h2>
<p>La <em>Cyber Threat Intelligence</em> (CTI ou <em>Threat Intel</em>’) est une discipline regroupant <strong>la récolte, la consolidation et l’exploitation de toutes les informations sur les cyber-menaces</strong>. “Connais ton ennemi” indique Sun Tzu dans l’Art de la Guerre. Bien que cette citation fasse référence aux guerres « physique », le principe reste vrai… et l’est sans doute même davantage pour les luttes « cyber ».</p>
<p>En effet, aujourd’hui, un nombre important de dispositifs de sécurité s’appuient sur une <strong>connaissance des attaques</strong> : approche par signature des anti-virus et IDS, scénarios de détection ciblés… Même si la tendance s’inverse (notamment avec la détection d’anomalies), la grande <strong>majorité des produits de sécurité s’appuient toujours -et continueront de s’appuyer- sur des principes de Threat Intelligence</strong>.</p>
<p>Les besoins des entreprises étant de plus en plus spécifiques, et les attaquants de plus en plus spécialisés, les solutions de <em>Threat Intel’</em> se démocratisent et proposent directement leurs services aux entreprises. En complément des offres commerciales, de plus en plus de plateformes d’échanges et de partenariats permettent de collaborer directement avec d’autres entreprises (de même secteur, zone géographique…).</p>
<p>Les services rendus par la <em>Threat Intel’ </em>sont multiples. D’une part la <strong><em>Threat Intel’</em> « stratégique »</strong> aide les SOC à mieux connaître le contexte et les <strong>menaces spécifiques à leur entreprise.</strong> Pour cela, les risques pesant sur chaque écosystème sont étudiés : aspects géographique, politique, idéologique, sectorielle… Ces informations permettent aux équipes sécurités de mieux connaître les menaces les concernant, et d’orienter leurs décisions pour définir leur <strong>stratégie « long terme »</strong> (solutions à déployer…).</p>
<p>D’autre part, la <strong><em>Threat Intel’</em> « tactique »</strong> donne des informations plus précises sur les méthodes des attaquants et permet notamment au SOC de faciliter la détection et d’adapter les mesures existantes : nouveaux scénarios de menaces à surveiller, ports à bloquer….</p>
<p>En complément de ces approches, la <strong><em>Threat Intel’</em> « technique »</strong> participe grandement à l’<strong>analyse des évènements de sécurité</strong> en fournissant, sur demande (depuis un SOAR notamment, voir partie suivante), des éléments permettant de juger de la véracité d’une alerte : appartenance d’une IP à un <em>botnet</em>, hash de fichier correspondant à un virus connu…</p>
<p>Les dispositifs de <em>Threat Intelligence</em> figurent donc parmi les outils les plus polyvalents du SOC, en permettant de tirer parti au mieux des dispositifs existant, en restant à jour et priorisant les menaces à détecter, et en orientant vers les prochains outils et mesures à déployer.</p>
<p><strong><u>Exemples d’éditeurs Threat Intelligence :</u></strong></p>
<figure id="post-11231 media-11231" class="align-center"><img loading="lazy" decoding="async" class="aligncenter size-full wp-image-11231" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-1-2.png" alt="" width="691" height="373" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-1-2.png 691w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-1-2-354x191.png 354w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-1-2-71x39.png 71w" sizes="auto, (max-width: 691px) 100vw, 691px" /></figure>
<h2>Industrialiser et automatiser le processus de réaction : SOAR</h2>
<p>Les SOAR (pour <em>Security Orchestration, Automation &amp; Response</em>) sont issus de la combinaison de trois outils du SOC : les <strong>SIRP</strong> (<em>Security Incident Response Plateform</em>, plus de détails <a href="http://www.securityinsider-wavestone.com/2016/12/sirp-la-panacee-de-la-reponse-incident.html">ici</a>), les <strong>SOA</strong> (<em>Security Orchestration &amp; Automation</em>, les solutions d’industrialisation et d’automatisation) et une partie des fonctionnalités de plateformes de <strong><em>Threat Intelligence</em></strong>. Pour résumer, ce sont des plateformes <strong>d’aide et d’automatisation de la réaction</strong> aux incidents de sécurité. Ces solutions se rapprochent d’outils de <em>ticketing</em> (ITSM) classiques, mais embarquent des fonctionnalités spécifiques aux problématiques de cybersécurité. Les SOAR offrent principalement trois capacités, chacune liée à l’un des trois types d’outils à leur origine.</p>
<p>Premièrement, comme les SIRP, ils permettent la<strong> définition de processus de réaction</strong> adaptés à chaque évènement de sécurité. Ceux-ci sont basés sur des <strong><em>playbooks</em> prédéfinis par l’éditeur</strong>, <strong>publiés par la communauté</strong> de la solution, ou <strong>créés manuellement</strong> pour une meilleure adaptation aux besoins de l’entreprise. Cette tâche impose notamment aux équipes de réaction d’établir un processus clairement défini, les aidant ainsi à se poser les bonnes questions lors de la création de procédures de réaction, et à capitaliser et stocker ces connaissances.</p>
<p>Le gain des SOAR repose cependant davantage sur l’automatisation des différentes étapes suivant la détection. Lors de la phase d’analyse, l’outil va <strong>automatiquement</strong> <strong>enrichir l’évènement de sécurité</strong> en allant <strong>récupérer des informations de contexte sur le SI</strong> (identité dans l’AD, criticité d’une ressource…), et en <strong>interrogeant des services de Threat Intelligence</strong> externes (via des API) ou proposés avec la solution. Outre l’automatisation de l’enrichissement et des étapes d’analyse, les SOAR <strong>facilitent aussi le travail des analystes</strong> -investigation de postes, interrogation de VirusTotal… en un clic-  lorsque leur intervention est nécessaire.</p>
<p>Mais l’automatisation ne s’arrête pas là ! Bien que polémique, l’<strong>automatisation de la réaction</strong> (via la connexion aux équipements de sécurité, héritage du SOA) peut représenter un gain important pour les équipes de sécurité : blocage d’URL, génération de signature de fichier et propagation aux antivirus, <em>blacklisting</em> d’IP…</p>
<p>L’objectif des SOAR est donc clair : faciliter la tâche des équipes en charge de l’analyse et de la réaction, en les aidant à définir des processus et en automatisant les tâches au maximum. Même si les SOAR sont très adaptables, et peuvent donc aider à répondre à toute type d’attaque, ils brillent tout particulièrement pour <strong>automatiser le traitement des attaques courantes</strong> (ransomware, phishing…), très répétitives et mobilisant les efforts des équipes de réaction.</p>
<p>Une fois ces tâches automatisées, les équipes sécurité en charge de la réaction peuvent se <strong>concentrer sur les alertes plus complexes</strong>, où leurs connaissances apportent une véritable valeur ajoutée.</p>
<p>À conditions d’être prêt à fournir l’effort initial (formalisation des processus…), les <strong>gains en réactivité et en charge</strong> attendus sont donc conséquents. Les SOAR sont amenés à changer le mode de travail des équipes SOC, en particulier pour les analystes de premier niveau. Même si ces solutions sont encore peu déployées en France, ils devraient devenir l’un des indispensables du SOC dans les années qui viennent.</p>
<p><strong><u>Exemples d’éditeurs SOAR :</u></strong></p>
<figure id="post-11227 media-11227" class="align-center"><img loading="lazy" decoding="async" class="aligncenter size-full wp-image-11227" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-2-1.png" alt="" width="785" height="176" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-2-1.png 785w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-2-1-437x98.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-2-1-768x172.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-2-1-71x16.png 71w" sizes="auto, (max-width: 785px) 100vw, 785px" /></figure>
<figure id="post-11229 media-11229" class="align-center"><img loading="lazy" decoding="async" class="aligncenter size-full wp-image-11229" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-3-1.png" alt="" width="858" height="606" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-3-1.png 858w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-3-1-270x191.png 270w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-3-1-768x542.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-3-1-55x39.png 55w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-3-1-345x245.png 345w" sizes="auto, (max-width: 858px) 100vw, 858px" /></figure>
<p>Même si l’outillage n’est qu’une partie du SOC, chacune de ces solutions présente des avantages certains qui aideront les équipes de détection à rester d’actualité face à l’évolution du SI et des menaces.</p>
<p>Tous ces outils sont prometteurs, et certains arrivent à maturité. Cependant, il est important de garder à l’esprit que l’outillage actuel lève déjà de nombreuses alertes, difficiles à prendre en compte. Il est donc conseillé de finir de déployer et d’industrialiser l’existant (en utilisant un SOAR par exemple), avant de se tourner vers de nouvelles solutions.</p>
<p>Et, comme pour tout produit innovant, il faut savoir garder la tête froide : le déploiement d’une nouvelle solution doit être motivé par des besoins bien définis.</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2018/08/nouveaux-outils-du-soc-33/">SOAR, UEBA, CASB, EDR et autres acronymes… suivez la saga de l’été pour comprendre et choisir parmi les nouveaux outils du SOC (3/3)</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>SOAR, UEBA, CASB, EDR et autres acronymes… suivez la saga de l’été pour comprendre et choisir parmi les nouveaux outils du SOC (2/3)</title>
		<link>https://www.riskinsight-wavestone.com/2018/07/nouveaux-outils-du-soc-23/</link>
		
		<dc:creator><![CDATA[Amaury Coulomban]]></dc:creator>
		<pubDate>Tue, 31 Jul 2018 12:09:16 +0000</pubDate>
				<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[Ethical Hacking & Incident Response]]></category>
		<category><![CDATA[Deceptive security]]></category>
		<category><![CDATA[Innovation]]></category>
		<category><![CDATA[Machine learning]]></category>
		<category><![CDATA[outillage]]></category>
		<category><![CDATA[Security Operations Center]]></category>
		<category><![CDATA[SOC]]></category>
		<category><![CDATA[supervision]]></category>
		<category><![CDATA[UEBA]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=11136/</guid>

					<description><![CDATA[<p>Après le premier épisode consacré à l’axe « étendre la détection à de nouveaux périmètres » (consutable ici), retrouvez la suite de la saga de l’été dans ce second épisode ! Compléter la détection avec de nouvelles approches Raisonner identité pour détecter les...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2018/07/nouveaux-outils-du-soc-23/">SOAR, UEBA, CASB, EDR et autres acronymes… suivez la saga de l’été pour comprendre et choisir parmi les nouveaux outils du SOC (2/3)</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><em><strong>Après le premier épisode consacré à l’axe « étendre la détection à de nouveaux périmètres » (consutable <a href="https://www.riskinsight-wavestone.com/2018/07/nouveaux-outils-du-soc-13/">ici</a>), retrouvez la suite de la saga de l’été dans ce second épisode !</strong></em></p>
<h2><span style="text-decoration: underline;">Compléter la détection avec de nouvelles approches</span></h2>
<h2>Raisonner identité pour détecter les comportements suspects : UEBA</h2>
<p>Les technologies UEBA (pour <em>User and Entity Behavioral Analysis</em>), précédemment appelées UBA, sont parmi les derniers nés des outils venant compléter l’arsenal de détection des SOC. Comme leur nom l’indique, leur approche est claire : faire abstraction des considérations techniques des solutions actuelles (SIEM…) en analysant le<strong> comportement des utilisateurs et des entités</strong> (comprendre terminaux, applications, réseaux, serveurs, objets connectés…).</p>
<p>Le principe est simple, mais son implémentation l’est beaucoup moins. En effet, pour être efficace, les dispositifs UEBA ont besoin de sources nombreuses, avec des <strong>formats de données variés</strong>. Les sources traditionnelles, telles que le SIEM et le(s) gestionnaire(s) de logs, mais aussi directement certaines ressources (AD, proxy, BDD…) sont souvent utilisées.</p>
<p>Mais afin de parfaire la détection, les solutions UEBA interrogent aussi de nouvelles sources : <strong>informations sur les utilisateurs</strong> (applications RH, gestion des badges…), échanges entre employés (chats, échanges vidéo, emails…), ou toute autre contribution pertinente (applications métiers à surveiller…).</p>
<p>À partir de toutes ces informations, les solutions UEBA analysent les comportements des utilisateurs (et entités) pour identifier de potentielles menaces. Elles peuvent utiliser des règles statiques, sous forme de <strong>signatures à détecter</strong> (souvent déjà implémentées dans les solutions SIEM) : connexions simultanées depuis deux endroits différents ou hors des plages horaires classiques…</p>
<p>Mais la véritable force des UEBA réside dans l’utilisation d’algorithmes de <em>Machine Learning</em> pour détecter des <strong>modifications du comportement</strong> d’utilisateurs ou services : opération métier suspecte, accès à des applications critiques jamais utilisées auparavant lors de congés, transferts de données inhabituels…</p>
<p>Si, à l’origine, les UEBA étaient pensés pour lutter contre les fraudes, leur rôle s’est cependant peu à peu élargi pour couvrir certains périmètres posant habituellement des problèmes aux SIEM : vols de données, compromission -ou prêt- de comptes applicatifs, infection de terminaux ou serveurs, abus de privilèges…</p>
<p>Ainsi, les UEBA se positionnent aujourd’hui en compléments des SIEM, en complétant l’approche « technique » par une vision « utilisateur », et en ajoutant une couche d’intelligence supplémentaire dans l’analyse.</p>
<p>Au vu du marché, il probable que les solutions UEBA cessent d’exister en tant que telles dans les années à venir et s’intègrent à des solutions existantes (SIEM, EDR…), passant de produits à fonctionnalités.</p>
<p><strong><u>Exemples d’éditeurs UEBA :</u></strong></p>
<figure id="post-11138 media-11138" class="align-center"><img loading="lazy" decoding="async" class="aligncenter size-full wp-image-11138" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-1.png" alt="" width="1497" height="546" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-1.png 1497w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-1-437x159.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-1-768x280.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-1-71x26.png 71w" sizes="auto, (max-width: 1497px) 100vw, 1497px" /></figure>
<p>&nbsp;</p>
<h2>Piéger les attaquants : Deceptive Security</h2>
<p>La Deceptive Security peut être considérée comme un passage au <strong>niveau supérieur des <em>Honey Pots</em></strong>. Des <strong>leurres</strong>, sous formes de données, d’agents ou d’environnements dédiés, sont répartis à grande échelle dans tout ou partie du SI.</p>
<p>Selon les solutions et les besoins, les outils de Deceptive Security peuvent poursuivre deux buts. En <strong>détournant l’attention des attaquants des vraies ressources</strong> et en les dirigeants vers de fausses pistes, ils peuvent agir comme moyens de <strong>protection</strong>.</p>
<p>Mais surtout, la surveillance de ces leurres peut permettre de <strong>détecter</strong> des menaces se propageant au sein du SI. En effet, ces leurres n&rsquo;ayant d&rsquo;autres utilités que <strong>d&rsquo;appâter de potentiels attaquants ou de divulguer de fausses informations</strong>, toute communication avec l&rsquo;un d&rsquo;entre eux est nécessairement suspecte.</p>
<p>Ce type de solution ne remplace par les solutions existantes, mais répond à des cas d’usage bien spécifiques, pour lesquels les dispositifs de détection classiques sont peu efficaces : les APT, spécialement conçus pour les contourner, et plus largement les mouvements horizontaux au sein du SI.</p>
<p>Pour plus de détails sur les solutions de Deceptive Security, vous pouvez consulter notre article dédié au sujet <a href="https://www.riskinsight-wavestone.com/2017/11/deceptive-security-comment-arroser-larroseur/">ici</a> !</p>
<p><strong><u>Exemples d’éditeurs Deceptive Security :</u></strong></p>
<figure id="post-11140 media-11140" class="align-center"><img loading="lazy" decoding="async" class="aligncenter size-full wp-image-11140" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-2.png" alt="" width="1308" height="555" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-2.png 1308w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-2-437x185.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-2-768x326.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-2-71x30.png 71w" sizes="auto, (max-width: 1308px) 100vw, 1308px" /></figure>
<p>&nbsp;</p>
<h2>Détecter les signaux faibles sur le réseau : sondes « Machine Learning »</h2>
<p>Les sondes de détection classiques (IDPS), basées sur l’analyse de trafic et la comparaison avec des signatures d’attaques connues, sont peu efficaces lorsqu’il s’agit de <strong>détecter des menaces subtiles</strong> (APT…) <strong>ou inconnues</strong> (<em>0 days</em>…). Pour pallier ce problème, les IDPS nouvelles générations intègrent des capacités de <strong><em>Machine Learning</em></strong> (parfois présenté comme de l’Intelligence Artificielle) dans leur arsenal de détection.</p>
<p>Selon les solutions, deux types d’usage du <em>Machine Learning</em> sont à distinguer. D’une part, l’utilisation de ces algorithmes en <strong>mode supervisé,</strong> pour apprendre à <strong>reconnaître le comportement de certaines attaques</strong> ou phases d’attaque lors de leur phase active : commande &amp; contrôle, scans, mouvements latéraux, fuite de données…</p>
<p>Une fois la sonde déployée, l’ajustement des seuils de détection au contexte client est lui aussi basé sur des algorithmes de <em>Machine Learning</em> (comme le font déjà bon nombre de solutions IDPS classiques).</p>
<p>Ce mode de fonctionnement permet un déploiement rapide (solution utilisable <em>out-of-the-box</em> et phase d’apprentissage écourtée), et une meilleure capacité à détecter les attaques caractérisées précédemment. En contrepartie, la détection des attaques non couvertes par l’apprentissage ou complètement inconnues restent difficiles.</p>
<p>A l’opposé de cette approche, des solutions misent sur <strong>l’apprentissage non-supervisé</strong> pour détecter les attaques. Pour cela, lors du déploiement, les sondes sont positionnées sur le réseau pour observer le trafic, et apprendre à reconnaître le trafic légitime.</p>
<p>Une fois la phase d’apprentissage terminée, les sondes sont capables de <strong>détecter des anomalies</strong>, et donc de lever des alertes en cas de comportement suspect. Cette approche permet de détecter des attaques inconnues, mais nécessitent généralement une phase d’apprentissage plus longue pour être efficace et atteindre un taux de fausses alertes acceptables.</p>
<p>Dans les deux cas, les sondes « <em>Machine Learning » </em>permettent de compléter l’arsenal des SOC, aujourd’hui majoritairement destiné à détecter des attaques connues, par des capacités de détection <strong>capables de distinguer des attaques complexes, méconnues</strong>, ou créés pour contourner les dispositifs de sécurité classiques.</p>
<p>Nos premiers retours terrains montrent que ces technologies peuvent en effet détecter des menaces passant au travers des dispositifs de sécurité classiques. Les faux positifs sont cependant très fréquents (la courbe d’apprentissage variant grandement selon les solutions et les contextes), et il reste difficile de juger de l’exhaustivité des menaces détectées.</p>
<p>Les sondes « <em>Machine Learning</em> » ont donc un avenir certain parmi les outils du SOC, même si un gain en maturité reste à réaliser pour qu’elles atteignent leur plein potentiel.</p>
<p><strong><u>Exemples d’éditeurs de sondes ML :</u></strong></p>
<figure id="post-11142 media-11142" class="align-center"><img loading="lazy" decoding="async" class="aligncenter size-full wp-image-11142" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-3.png" alt="" width="1377" height="241" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-3.png 1377w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-3-437x76.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-3-768x134.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/08/image-3-71x12.png 71w" sizes="auto, (max-width: 1377px) 100vw, 1377px" /></figure>
<p>Pour retrouver notre troisième et dernier article sur cette saga, c&rsquo;est par <a href="https://www.riskinsight-wavestone.com/2018/08/nouveaux-outils-du-soc-33/">ici</a>.</p>
<p>&nbsp;</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2018/07/nouveaux-outils-du-soc-23/">SOAR, UEBA, CASB, EDR et autres acronymes… suivez la saga de l’été pour comprendre et choisir parmi les nouveaux outils du SOC (2/3)</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Le Machine Learning, quelles opportunités et quels enjeux dans une Banque en Ligne moderne ?</title>
		<link>https://www.riskinsight-wavestone.com/2016/11/machine-learning-opportunites-enjeux-banque-ligne-moderne/</link>
		
		<dc:creator><![CDATA[ArtHuRC0ugeT]]></dc:creator>
		<pubDate>Wed, 16 Nov 2016 08:22:50 +0000</pubDate>
				<category><![CDATA[Cyber for Financial Services]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[Banque]]></category>
		<category><![CDATA[financial services cyber]]></category>
		<category><![CDATA[fraude]]></category>
		<category><![CDATA[Machine learning]]></category>
		<category><![CDATA[satisfaction client]]></category>
		<category><![CDATA[technologies]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=9303</guid>

					<description><![CDATA[<p>La Banque en Ligne connaît de profondes mutations, tant sur le plan des enjeux métiers – avec des périmètres de plus en plus larges et de moins en moins ensilotés – que sur celui des enjeux règlementaires (Instant Payment, DSP2…)....</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2016/11/machine-learning-opportunites-enjeux-banque-ligne-moderne/">Le Machine Learning, quelles opportunités et quels enjeux dans une Banque en Ligne moderne ?</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>La <strong>Banque en Ligne</strong> connaît de <strong>profondes mutations</strong>, tant sur le plan des <strong>enjeux métiers</strong> – avec des périmètres de plus en plus larges et de moins en moins ensilotés – que sur celui des <strong>enjeux règlementaires</strong> (<em>Instant Payment</em>, <a href="https://www.riskinsight-wavestone.com/2016/01/la-dsp2-une-directive-sur-les-services-de-paiements-qui-prone-la-concurrence/">DSP2</a>…). Les cas de fraude se multiplient et les schémas d’attaque menés par des fraudeurs de plus en plus aguerris se diversifient. Pour accompagner ces nombreux changements, les méthodes et les <strong>processus métiers</strong> se doivent d’être <strong>plus efficaces, mieux adaptés, et plus flexibles</strong>. Les méthodes de <em>Machine Learning</em>, malgré leur récente démocratisation, permettent d’épouser la révolution digitale de la Banque en Ligne.</p>
<h2>Machine Learning, démystification et opportunités</h2>
<p>Le <em>Machine Learning</em> est <a href="http://www.wired.co.uk/article/machine-learning-ai-explained">une forme d’intelligence artificielle</a> qui consiste à apprendre et modéliser un phénomène pour mieux le comprendre et le maîtriser. Pour cela, un ou plusieurs algorithmes permettent d’établir des corrélations entre les évènements qui composent ce phénomène. On distingue deux grands types de méthodes :</p>
<ul>
<li>Les méthodes supervisées, qui créent des modèles à partir d’une base de données d’exemples (généralement des cas déjà traités et validés).</li>
<li>Les méthodes non-supervisées, qui n’ont pas besoin d’une base de données d’exemples</li>
</ul>
<p>Pour illustrer la différence entre les deux méthodes, on peut considérer le cas de la détection de fraude. Pour s’entraîner et créer des modèles précis, les méthodes supervisées utiliseraient en entrée des données déjà traitées et marquées comme étant liées ou non à des cas de fraude (schémas de fraude connus), alors que les méthodes non-supervisées utiliseraient des données brutes issues des applications du SI afin de modéliser les comportements normaux. Conceptuellement, cela revient à modéliser respectivement ce qui est anormal (la fraude – en ayant assez de données pour que cette représentation soit fidèle) ou ce qui est normal (en détectant <em>de facto </em>les fraudes lorsque l’on s’éloigne de cette normalité).</p>
<p>Tous les algorithmes ne se valent pas. Chacun possède des qualités et des défauts qu’il faut savoir peser et qui dépendent en grande partie des données d’entrée, propres à chaque cas métiers. Il est important de <strong>choisir des données à la fois pertinentes et disponibles en quantité suffisante</strong> pour obtenir des résultats probants. Dans le contexte de la Banque en Ligne, <strong>de nombreuses données peuvent faire l’objet de <em>Machine Learning</em></strong><em> </em>:</p>
<ul>
<li>Habitudes de transaction : montants des virements, pays destinataires…</li>
<li>Habitudes de connexion : heure de connexion, user-agent, <em>device</em> utilisé…</li>
<li>Habitudes de navigation : parcours client, vélocité de navigation…</li>
<li>Données comportementales : vitesse de frappe, déplacement de la souris…</li>
<li>Données marketing : produits consommés, libellés des virements…</li>
</ul>
<p>Correctement exploitée par des algorithmes de <em>Machine Learning</em>, la conjugaison de ces différentes données, précédée par un traitement tirant le maximum de leur valeur, peut permettre des <strong>résultats bien plus significatifs</strong> que ne le permettent les méthodes classiques. <strong>La connaissance client (<em>KYC</em>), </strong>en <a href="https://www.internetretailer.com/commentary/2016/10/20/combat-fraud-getting-know-your-customer-better">exploitant par exemple le parcours client</a> type<strong>, la détection de fraude</strong>, en utilisant les habitudes de virement pour identifier des cas suspects (pays de connexion, distribution des montants…),<strong> ou encore le marketing </strong>à travers <a href="http://www.huffingtonpost.com/advertising-week/machine-learning-is-about_b_12649810.html">la connaissance des habitudes</a> de consommations (analyse des libellés, regroupements des achats par catégories…) peuvent notamment largement tirer parti de ces données.</p>
<h2>Concrètement, quels sont les gains du Machine Learning ?</h2>
<p><strong>Tout d’abord, connaître le client et mieux adresser ses besoins</strong></p>
<p>Le <em>Machine Learning </em>permet de tirer le maximum de valeur des données <strong>en singularisant les modèles</strong> là où les méthodes « classiques » reposent sur un modèle commun à l’ensemble des données d’entrée. Par exemple dans le cas de la détection de fraude, les modèles de règles « classiques » reviennent à élaborer un modèle qui sera commun à tous les clients, sans tenir compte de leur unicité, là où le <em>Machine Learning </em>permettra une détection plus efficace en associant un profil à chaque client et en effectuant une surveillance et une détection propres à ce profil. Ce raisonnement vaut pour tous les autres domaines d’applications, et permet, <em>in fine</em>, <strong>une meilleure représentation et une meilleure connaissance</strong> non plus « du client » au sens large, mais <strong>de chacun des clients</strong>.</p>
<p><strong>Le Machine Learning permet également d’offrir de nouveaux services</strong></p>
<p>Au-delà de l’amélioration notable des résultats basés sur les <em>KPI </em>classiques (taux de faux positifs, taux de détection…), le <em>Machine Learning </em>permet une <strong>création de valeur en termes de gains financiers</strong> en personnalisant les outils dont profite le client. Cela peut parfaitement <strong>servir de socle à une offre commerciale</strong> qui reposerait par exemple sur la personnalisation de ses seuils par le client ou sur la possibilité d’être alerté en temps réel lorsqu’une information marketing, commerciale ou concernant sa sécurité a particulièrement du sens. <strong>Certaines banques ont d’ailleurs déjà franchi le pas</strong>, en offrant la possibilité à leurs clients Entreprises d’être alertés en cas de virements qui dépassent des seuils personnalisés préalablement établis.</p>
<p><strong>Finalement, le Machine Learning est aussi une occasion de moderniser les outils et rester à l’état de l&rsquo;art</strong></p>
<p>Lancer un projet de <em>Machine Learning</em> permet de communiquer sur le sujet et de profiter du <em>buzzword</em> pour générer de la <strong>satisfaction </strong>chez un certain nombre de <strong>client de plus en plus sensible à des problématiques de sécurité ou de confidentialité</strong>, tout en s’assurant d’être<strong> à l’état de l’art du marché</strong>. Cela peut également permettre de <strong>moderniser des outils existants</strong> en vue des changements qui vont continuer d’opérer dans la Banque en Ligne <strong>au gré des nouvelles règlementations</strong> et des exigences techniques (temps réel notamment avec <a href="http://www.europeanpaymentscouncil.eu/index.cfm/sepa-instant-payments/what-are-instant-payments/"><em>Instant Payment</em></a>) et métiers qui en découlent. Dans ce cadre, on voit par exemple éclore des méthodes de <em>Machine Learning </em>pour la surveillance des marchés et lutter contre les délits d’initiés.</p>
<p>En conclusion, la pleine maîtrise technique du <em>Machine Learning </em>coïncide avec de <strong>nouveaux besoins et de nouvelles exigences</strong> exprimés dans la Banque en Ligne moderne. Embrasser cette évolution présente de nombreux avantages, <strong>de l’amélioration des performances et des résultats à la satisfaction des clients, en passant par une meilleure flexibilité technique</strong>. La maîtrise des différentes méthodes doit permettre un <strong>renouvellement des traitements et des processus métiers</strong>, en les rapprochant du client (aujourd’hui ces méthodes sont plutôt transparentes pour lui). Dans le cas de la lutte contre la fraude, on peut par exemple imaginer de nombreux cas autour de <em>l’alerting </em>et des contre-mesures, comme une vérification par authentification forte en cas de suspicion, ou des informations reçues en temps réel pour mieux impliquer les clients.</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2016/11/machine-learning-opportunites-enjeux-banque-ligne-moderne/">Le Machine Learning, quelles opportunités et quels enjeux dans une Banque en Ligne moderne ?</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
