<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>DLP - RiskInsight</title>
	<atom:link href="https://www.riskinsight-wavestone.com/tag/dlp/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.riskinsight-wavestone.com/tag/dlp/</link>
	<description>Le blog cybersécurité des consultants Wavestone</description>
	<lastBuildDate>Mon, 12 Jul 2021 08:54:28 +0000</lastBuildDate>
	<language>fr-FR</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	

<image>
	<url>https://www.riskinsight-wavestone.com/wp-content/uploads/2024/02/Blogs-2024_RI-39x39.png</url>
	<title>DLP - RiskInsight</title>
	<link>https://www.riskinsight-wavestone.com/tag/dlp/</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Booster sa cybersécurité grâce à du Machine Learning ?  Partie 1 &#8211; « Absolument, voici comment! »</title>
		<link>https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/</link>
		
		<dc:creator><![CDATA[Carole Meyziat]]></dc:creator>
		<pubDate>Fri, 03 Jul 2020 12:00:17 +0000</pubDate>
				<category><![CDATA[Cloud & Next-Gen IT Security]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[analyse de données]]></category>
		<category><![CDATA[DLP]]></category>
		<category><![CDATA[Machine learning]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=13770</guid>

					<description><![CDATA[<p>Aujourd’hui, nous entendons parler de l’intelligence artificielle (IA) partout, elle touche tous les secteurs… et la cybersécurité n’est pas en reste ! Selon un benchmark mondial publié par CapGemini à l’été 2019, 69% des organisations considèrent qu’elles ne seront bientôt plus capables de répondre à une cyberattaque sans...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/">Booster sa cybersécurité grâce à du Machine Learning ?  Partie 1 &#8211; « Absolument, voici comment! »</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><span data-contrast="none">Aujourd’hui</span><span data-contrast="none">,</span><span data-contrast="none"> </span><span data-contrast="none">nous entendons </span><span data-contrast="none">parler de l’intelligence artificielle</span><span data-contrast="none"> </span><span data-contrast="none">(IA) </span><span data-contrast="none">partout</span><span data-contrast="none">, elle touche tous les secteurs</span><span data-contrast="none">… e</span><span data-contrast="none">t la cybersécurité n’est pas en reste</span><span data-contrast="none"> !</span><span data-contrast="none"> Selon un benchmark mondial publié par </span><span data-contrast="none">CapGemini</span><span data-contrast="none"> </span><span data-contrast="none">à l’</span><span data-contrast="none">été 2019, 69% des organisations considèrent qu’elles ne seront bientôt plus capables de répondre à une cyberattaque sans IA. Le Gartner place </span><b><span data-contrast="none">l’IA appliquée à la cybersécurité</span></b><span data-contrast="none"> dans les </span><span data-contrast="none">10</span><span data-contrast="none"> </span><span data-contrast="none">tendances technologiques stratégiques majeures de 2020.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">N</span><span data-contrast="none">ous </span><span data-contrast="none">allons au travers de deux articles </span><span data-contrast="none">explorer les capacités </span><span data-contrast="none">de l’IA</span><span data-contrast="none">, en particulier celles du </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none">,</span><span data-contrast="none"> pour la cybersécurité</span><span data-contrast="none">. </span><span data-contrast="none">Dans ce premier article,</span><span data-contrast="none"> </span><span data-contrast="none">nous</span><span data-contrast="none"> </span><span data-contrast="none">allons parcourir </span><span data-contrast="none">pas à pas </span><span data-contrast="none">les étapes d’un projet de </span><span data-contrast="none">Machine Learning</span><span data-contrast="none"> focalisé sur un cas d’usage </span><span data-contrast="none">cybersécurité </span><span data-contrast="none">: </span><b><span data-contrast="none">l’exfiltration de données depuis le SI</span></b><span data-contrast="none">, sur un cas très simplifié</span><span data-contrast="none">. Nous </span><span data-contrast="none">en </span><span data-contrast="none">avons choisi un, mais les concepts de cet article sont applicables à tous les projets de </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> et peuvent être </span><span data-contrast="none">transposés à </span><span data-contrast="none">tout autre</span><span data-contrast="none"> </span><span data-contrast="none">cas d’usage, notamment cyber</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<h2 aria-level="2"><span data-contrast="none">Avant toute chose, de quoi parle-t-on ?</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Le terme </span><span data-contrast="none">d’</span><span data-contrast="none">I</span><span data-contrast="none">ntelligence </span><span data-contrast="none">Artificielle</span><span data-contrast="none"> </span><span data-contrast="none">(IA) </span><span data-contrast="none">regroupe toutes les techniques permettant aux machines de simuler l’intelligence.</span><span data-contrast="none"> </span><span data-contrast="none">Aujourd’hui t</span><span data-contrast="none">outefois</span><span data-contrast="none">, </span><span data-contrast="none">lorsqu’on </span><span data-contrast="none">parle d’IA on parle très souvent de </span><b><i><span data-contrast="none">Machine Learning</span></i></b><span data-contrast="none">, </span><span data-contrast="none">l’un de ses </span><span data-contrast="none">sous-domaine</span><span data-contrast="none">s</span><span data-contrast="none">. Il s’agit </span><span data-contrast="none">des </span><b><span data-contrast="none">techniques permettant aux machines d’apprendre</span></b><b><span data-contrast="none"> une tâche</span></b><b><span data-contrast="none">, sans </span></b><b><span data-contrast="none">avoir été</span></b><b><span data-contrast="none"> explicitement </span></b><b><span data-contrast="none">programmée</span></b><b><span data-contrast="none">s</span></b><b><span data-contrast="none"> pour</span></b><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Pour nous professionnels de la cybersécurité, c</span><span data-contrast="none">ela tombe bien : nous avons bien souvent du mal à décrire explicitement </span><span data-contrast="none">ce que nous voulons détecter</span><span data-contrast="none"> ! Le </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> </span><span data-contrast="none">nous offre</span><span data-contrast="none"> </span><span data-contrast="none">alors </span><span data-contrast="none">de </span><span data-contrast="none">nouvelles perspectives, avec déjà de nombreux cas d’application</span><span data-contrast="none">, dont les principaux sont ill</span><span data-contrast="none">ustrés ci-dessous:</span></p>
<p>&nbsp;</p>
<figure id="post-13849 media-13849" class="align-none"><img fetchpriority="high" decoding="async" class="size-full wp-image-13849 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2.png" alt="" width="1593" height="715" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2.png 1593w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2-426x191.png 426w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2-71x32.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2-768x345.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2-1536x689.png 1536w" sizes="(max-width: 1593px) 100vw, 1593px" /></figure>
<p>&nbsp;</p>
<h2><span data-contrast="none">L’</span><span data-contrast="none">exemple</span><span data-contrast="none"> d</span><span data-contrast="none">’un </span><span data-contrast="none">cas d’usage </span><span data-contrast="none">pour la </span><span data-contrast="none">cybersécurité ML-augmenté : l</span><span data-contrast="none">e</span><span data-contrast="none"> DLP</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Pour illustrer l’apport du </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> à la cybersécurité,</span><span data-contrast="none"> </span><span data-contrast="none">nous </span><span data-contrast="none">avons choisi de nous intéresser à l’extraction frauduleuse de données</span><span data-contrast="none"> de</span><span data-contrast="none">puis</span><span data-contrast="none"> </span><span data-contrast="none">le</span><span data-contrast="none"> </span><span data-contrast="none">système d’information</span><span data-contrast="none"> d’une entreprise</span><span data-contrast="none">. Autrement </span><span data-contrast="none">dit</span><span data-contrast="none">,</span><span data-contrast="none"> le cas du DLP (</span><i><span data-contrast="none">Data </span></i><i><span data-contrast="none">Leakage</span></i><i><span data-contrast="none"> Prevention</span></i><span data-contrast="none">)</span><span data-contrast="none">, </span><span data-contrast="none">problématique rencontrée par </span><span data-contrast="none">un grand nombre</span><span data-contrast="none"> d’entreprises.</span><span data-contrast="none"> </span><span data-contrast="none">Nous souhaitons détecter les communications suspectes vers l’extérieur afin de pouvoir les empêcher.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<figure id="post-13771 media-13771" class="align-none"></figure>
<figure id="post-13790 media-13790" class="align-none"><img decoding="async" class="size-full wp-image-13790 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1.png" alt="" width="1701" height="412" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1.png 1701w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1-437x106.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1-71x17.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1-768x186.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1-1536x372.png 1536w" sizes="(max-width: 1701px) 100vw, 1701px" /></figure>
<p>&nbsp;</p>
<p><i><span data-contrast="none">« </span></i><i><span data-contrast="none">Très bien mais</span></i><i><span data-contrast="none">…</span></i><i><span data-contrast="none"> comment caractériser une communication suspecte</span></i><i><span data-contrast="none"> ?</span></i><i><span data-contrast="none"> »</span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Par des volumes échangés importants ? Par une destination étrange ? Par une heure de connexion inhabituelle ? </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">En réalité, n</span><span data-contrast="none">otre problème est </span><b><span data-contrast="none">complexe à </span></b><b><span data-contrast="none">expliciter</span></b><span data-contrast="none"> </span><span data-contrast="none">et</span><span data-contrast="none"> </span><span data-contrast="none">ce que nous devons évaluer </span><span data-contrast="none">a de </span><b><span data-contrast="none">fortes chances d’évoluer </span></b><b><span data-contrast="none">dans</span></b><b><span data-contrast="none"> le temps</span></b><span data-contrast="none">. </span><span data-contrast="none">C’est pourquoi, en utilisant uniquement des règles</span><span data-contrast="none"> de détection</span><span data-contrast="none"> statiques, </span><span data-contrast="none">no</span><span data-contrast="none">s équipes sécurité </span><span data-contrast="none">ont </span><span data-contrast="none">du mal à être exhaustives</span><span data-contrast="none">.</span><span data-contrast="none"> </span><span data-contrast="none">E</span><span data-contrast="none">lles peuvent jouer sur les seuils de ces règles</span><span data-contrast="none"> pour affiner</span><span data-contrast="none"> les éléments détectés</span><span data-contrast="none">, </span><span data-contrast="none">mais</span><span data-contrast="none"> </span><span data-contrast="none">se retrouvent </span><span data-contrast="none">malheureusement </span><span data-contrast="none">encore </span><span data-contrast="none">avec </span><span data-contrast="none">un nombre important de </span><span data-contrast="none">faux positifs</span><span data-contrast="none"> à traiter</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">On comprend que le </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> </span><span data-contrast="none">tel que nous l’avons défini </span><span data-contrast="none">précédemment</span><span data-contrast="none"> </span><span data-contrast="none">peut nous être utile ici.</span><span data-contrast="none"> Et si on essayait ?</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:2,&quot;335551620&quot;:2,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13773 media-13773" class="align-none"></figure>
<figure id="post-13792 media-13792" class="align-none"></figure>
<figure id="post-13818 media-13818" class="align-none"><img decoding="async" class="size-full wp-image-13818 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2.png" alt="" width="1634" height="680" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2.png 1634w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2-437x182.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2-71x30.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2-768x320.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2-1536x639.png 1536w" sizes="(max-width: 1634px) 100vw, 1634px" /></figure>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<h2 aria-level="2"><span data-contrast="none">Etape 1 : Clarifier le besoin</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">C’est ce que nous ve</span><span data-contrast="none">n</span><span data-contrast="none">ons de </span><span data-contrast="none">faire !</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:2,&quot;335551620&quot;:2,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<h2 aria-level="2"><span data-contrast="none">Etape 2 : </span><span data-contrast="none">Choisir les données</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Quand </span><span data-contrast="none">on </span><span data-contrast="none">entend les mots</span><span data-contrast="none"> </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none">, il faut </span><span data-contrast="none">généralement comprendre</span><span data-contrast="none"> « données »</span><span data-contrast="none"> pour</span><span data-contrast="none"> </span><span data-contrast="none">alimenter</span><span data-contrast="none"> </span><span data-contrast="none">les</span><span data-contrast="none"> algorithme</span><span data-contrast="none">s. </span><b><span data-contrast="none">B</span></b><b><span data-contrast="none">eaucoup de données</span></b><b><span data-contrast="none">,</span></b><b><span data-contrast="none"> et </span></b><b><span data-contrast="none">de</span></b><b><span data-contrast="none"> qualité</span></b><span data-contrast="none"> !</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">En demandant où aller chercher des données utiles </span><span data-contrast="none">pour</span><span data-contrast="none"> notre cas d’exfiltration des données</span><span data-contrast="none"> </span><b><span data-contrast="none">à notre </span></b><b><span data-contrast="none">métier demandeur</span></b><span data-contrast="none"> (</span><span data-contrast="none">qui pour une fois est la </span><span data-contrast="none">cybersécurité !)</span><span data-contrast="none">, </span><span data-contrast="none">le </span><span data-contrast="none">proxy web </span><span data-contrast="none">ressort comme grand gagnant : </span><span data-contrast="none">il </span><span data-contrast="none">voit </span><span data-contrast="none">passer quasiment tout le trafic </span><span data-contrast="none">sortant </span><span data-contrast="none">du SI.</span><span data-contrast="none"> </span><span data-contrast="none">Nous récupérons donc </span><span data-contrast="none">ses </span><span data-contrast="none">logs,</span><span data-contrast="none"> ils </span><span data-contrast="none">ressemblent à ça</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:1,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13775 media-13775" class="align-none"></figure>
<figure id="post-13794 media-13794" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13794 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1.png" alt="" width="1669" height="443" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1.png 1669w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1-437x116.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1-71x19.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1-768x204.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1-1536x408.png 1536w" sizes="auto, (max-width: 1669px) 100vw, 1669px" /></figure>
<p>&nbsp;</p>
<p><i><span data-contrast="none">« </span></i><i><span data-contrast="none">C</span></i><i><span data-contrast="none">a</span></i><i><span data-contrast="none"> m’a l’air bien compliqué tout ça… »</span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Les </span><i><span data-contrast="none">data scientists</span></i><span data-contrast="none"> ont </span><span data-contrast="none">en effet </span><span data-contrast="none">de quoi être perdus</span><span data-contrast="none"> :</span><span data-contrast="none"> </span><span data-contrast="none">d</span><span data-contrast="none">’une part l’ensemble est peu digeste, </span><span data-contrast="none">de l’autre</span><span data-contrast="none">, </span><span data-contrast="none">après consultation du métier-c</span><span data-contrast="none">ybersécurité, </span><b><span data-contrast="none">tou</span></b><b><span data-contrast="none">s les champs ne sont</span></b><b><span data-contrast="none"> pas vraiment utile</span></b><b><span data-contrast="none">s</span></b><span data-contrast="none"> </span><b><span data-contrast="none">pour notre cas d’usage</span></b><span data-contrast="none">.</span><span data-contrast="none"> </span><b><span data-contrast="none">Nous en sélectionnons donc</span></b><span data-contrast="none"> quelques-uns</span><span data-contrast="none"> avec </span><span data-contrast="none">lui </span><span data-contrast="none">avant de poursuivre.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<figure id="post-13777 media-13777" class="align-none"></figure>
<figure id="post-13796 media-13796" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13796 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1.png" alt="" width="1623" height="270" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1.png 1623w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1-437x73.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1-71x12.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1-768x128.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1-1536x256.png 1536w" sizes="auto, (max-width: 1623px) 100vw, 1623px" /></figure>
<p>&nbsp;</p>
<p><span data-contrast="none">Le résultat </span><span data-contrast="none">est</span><span data-contrast="none"> plus exploitable par les </span><i><span data-contrast="none">data</span></i><i><span data-contrast="none"> </span></i><i><span data-contrast="none">scientists</span></i><span data-contrast="none"> !</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<h2 aria-level="2"><span data-contrast="none">Etape 3 : préparer les données</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Les</span><span data-contrast="none"> </span><i><span data-contrast="none">data</span></i><i><span data-contrast="none"> </span></i><i><span data-contrast="none">scientists</span></i><span data-contrast="none"> peuvent maintenant </span><span data-contrast="none">« </span><span data-contrast="none">explore</span><span data-contrast="none">r </span><span data-contrast="none">les données » </span><span data-contrast="none">afin de garantir </span><span data-contrast="none">un apprentissage optimal de l’algorithme. Ici, ils nous remontent un élément surprenant dans </span><span data-contrast="none">la répartition de nos requêtes suivant leur volume d’</span><i><span data-contrast="none">upload</span></i><span data-contrast="none">. Puisqu’on souhaite</span><span data-contrast="none"> </span><span data-contrast="none">détecter</span><span data-contrast="none"> </span><span data-contrast="none">d</span><span data-contrast="none">es exfiltrations de données, </span><span data-contrast="none">cette variable</span><span data-contrast="none"> nous intéresse </span><span data-contrast="none">en effet </span><span data-contrast="none">particulièrement</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13784 media-13784" class="align-none"></figure>
<figure id="post-13779 media-13779" class="align-none"></figure>
<figure id="post-13798 media-13798" class="align-none"></figure>
<figure id="post-13814 media-13814" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13814 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3.png" alt="" width="1770" height="657" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3.png 1770w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3-437x162.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3-71x26.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3-768x285.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3-1536x570.png 1536w" sizes="auto, (max-width: 1770px) 100vw, 1770px" /></figure>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:2,&quot;335551620&quot;:2,&quot;335559685&quot;:-283,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">La valeur de notre variable n’est pas distribuée, nous avons même un très fort volume à 0.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><i><span data-contrast="none">« Mais, </span></i><i><span data-contrast="none">elles sont quand même nombreuses ces </span></i><i><span data-contrast="none">requêtes avec un </span></i><i><span data-contrast="none">volume d’</span></i><i><span data-contrast="none">upload</span></i><i><span data-contrast="none"> </span></i><i><span data-contrast="none">nul, </span></i><i><span data-contrast="none">est-ce que </span></i><i><span data-contrast="none">c’est vraiment pertinent de les garder</span></i><i><span data-contrast="none"> dans notre cas</span></i><i><span data-contrast="none"> ? ». </span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Effectivement</span><span data-contrast="none">, </span><span data-contrast="none">après discussion avec </span><span data-contrast="none">le métier-</span><span data-contrast="none">cybersécurité, il ressort que ces données n</span><span data-contrast="none">’apporte</span><span data-contrast="none">nt</span><span data-contrast="none"> pas </span><span data-contrast="none">grand-chose </span><span data-contrast="none">pour </span><span data-contrast="none">notre cas d’usage</span><span data-contrast="none">. </span><span data-contrast="none">Nous décidons donc de les retirer, notre jeu est alors distribué comme suit :</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<figure class="align-none"></figure>
<figure id="post-13781 media-13781" class="align-none"></figure>
<figure id="post-13816 media-13816" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13816 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3.png" alt="" width="1586" height="715" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3.png 1586w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-424x191.png 424w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-71x32.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-768x346.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-1536x692.png 1536w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-730x330.png 730w" sizes="auto, (max-width: 1586px) 100vw, 1586px" /></figure>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:2,&quot;335551620&quot;:2,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Après plusieurs aller</span><span data-contrast="none">s-</span><span data-contrast="none">retours</span><span data-contrast="none"> entre les </span><i><span data-contrast="none">data scientists</span></i><span data-contrast="none"> challengeant les données avec un point de vue statistique et </span><span data-contrast="none">les équipes </span><span data-contrast="none">cybersécurité</span><span data-contrast="none"> répondant avec leur œil métier, </span><span data-contrast="none">les données sont simplifiées au maximum</span><span data-contrast="none">. Elles sont</span><span data-contrast="none"> ensuite :</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<ul>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="none">Enrichies</span></b><b><span data-contrast="none"> </span></b><span data-contrast="none">en créant </span><span data-contrast="none">de nouvelles variables </span><span data-contrast="none">plus denses en information utile</span><span data-contrast="none">. </span><span data-contrast="none">Nous avons </span><span data-contrast="none">introduit un </span><b><span data-contrast="none">volume d’</span></b><b><i><span data-contrast="none">upload</span></i></b><b><span data-contrast="none"> relatif</span></b><span data-contrast="none"> vers chaque site, </span><span data-contrast="none">mesurant </span><span data-contrast="none">l’écart entre le volume d’</span><i><span data-contrast="none">upload</span></i><span data-contrast="none"> d’une requête et sa valeur moyenne observée sur les 90 derniers jours</span><span data-contrast="none">. Nous pourrions également ajouter </span><span data-contrast="none">la </span><b><span data-contrast="none">durée de connexion</span></b><span data-contrast="none"> </span><span data-contrast="none">par exemple</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:709,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="2" data-aria-level="1"><b><span data-contrast="none">Normalis</span></b><b><span data-contrast="none">ée</span></b><b><span data-contrast="none">s</span></b><span data-contrast="none"> en </span><span data-contrast="none">r</span><span data-contrast="none">édui</span><span data-contrast="none">sant</span><span data-contrast="none"> l’amplitude </span><span data-contrast="none">de chaque</span><span data-contrast="none"> </span><span data-contrast="none">variable</span><span data-contrast="none"> </span><span data-contrast="none">pour </span><span data-contrast="none">diminuer </span><span data-contrast="none">une sur ou sous-pondération de certaines variables</span><span data-contrast="none">.</span></li>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="2" data-aria-level="1"><b><span data-contrast="none">Numérisées</span></b><span data-contrast="none">, </span><span data-contrast="none">l</span><span data-contrast="none">a plupart des </span><span data-contrast="none">algorithme</span><span data-contrast="none">s</span><span data-contrast="none"> </span><span data-contrast="none">ne pouvant interpréter que des variables numériques</span><span data-contrast="none">. </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
</ul>
<p><span data-contrast="none">Nous pouvons maintenant </span><span data-contrast="none">séparer </span><span data-contrast="none">notre jeu de données </span><span data-contrast="none">en deux : </span><span data-contrast="none">un </span><b><span data-contrast="none">jeu</span></b><b><span data-contrast="none"> allant servir à l</span></b><b><span data-contrast="none">’entraînement</span></b><span data-contrast="none"> </span><span data-contrast="none">de notre modèle, </span><span data-contrast="none">un </span><b><span data-contrast="none">jeu qui nous permettra de tester</span></b><span data-contrast="none"> sa performance.</span><span data-contrast="none"> </span><span data-contrast="none">Plusieurs méthodes de séparation existe</span><span data-contrast="none">nt, permettant de conserver </span><span data-contrast="none">certaines caractéristiques des données (e.g. la saisonnalité), mais l’objectif reste le même : garantir une </span><span data-contrast="none">mesure d’</span><span data-contrast="none">évaluation </span><span data-contrast="none">au plus proche des performances réelles du modèle, en présentant au modèle des données qu’il n’a</span><span data-contrast="none"> pas</span><span data-contrast="none"> eu </span><span data-contrast="none">a</span><span data-contrast="none"> disposition durant l’entraînement.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<h2 aria-level="2"><span data-contrast="none">Etape 4 : </span><span data-contrast="none">Choisir l</span><span data-contrast="none">a méthode d’apprentissage</span><span data-contrast="none"> et entrainer le modèle</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Certains algorithmes sont plus performants </span><span data-contrast="none">que d’autres pour </span><span data-contrast="none">une</span><span data-contrast="none"> problématique</span><span data-contrast="none"> donnée</span><span data-contrast="none">, il convient donc </span><span data-contrast="none">de </span><span data-contrast="none">faire un choix raisonné.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Il existe deux </span><span data-contrast="none">principales </span><span data-contrast="none">catégories d’algorithmes de </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> : </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<ul>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="none">Supervisés</span></b><span data-contrast="none">, lorsqu</span><span data-contrast="none">e </span><span data-contrast="none">l’on a des données labelisées comme référence</span><span data-contrast="none"> à donner en exemple à notre algorithme.</span><span data-contrast="none"> </span><span data-contrast="none">Ces a</span><span data-contrast="none">lgorithmes </span><span data-contrast="none">sont </span><span data-contrast="none">par exemple utilisés en cybersécurité par les solutions </span><i><span data-contrast="none">anti-spam</span></i><span data-contrast="none"> : ils peuvent apprendre </span><span data-contrast="none">via la classification </span><span data-contrast="none">des </span><i><span data-contrast="none">e</span></i><i><span data-contrast="none">mails</span></i><span data-contrast="none"> comme </span><i><span data-contrast="none">spam</span></i><span data-contrast="none"> </span><span data-contrast="none">par les utilisateurs</span><span data-contrast="none"> par exemple</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="2" data-aria-level="1"><b><span data-contrast="none">Non supervisé</span></b><b><span data-contrast="none">s</span></b><span data-contrast="none">, </span><span data-contrast="none">lorsque </span><span data-contrast="none">l’</span><span data-contrast="none">on </span><span data-contrast="none">ne </span><span data-contrast="none">sait </span><span data-contrast="none">pas </span><span data-contrast="none">précisément ce qu’on souhaite détecter</span><span data-contrast="none"> ou </span><span data-contrast="none">que l’on </span><span data-contrast="none">manque d’exemples à fournir à l’algorithme pour son apprentissage</span><span data-contrast="none"> (i.e. nous manquons données labélisées)</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
</ul>
<p><span data-contrast="none">Comme expliqué plus haut, </span><span data-contrast="none">le contexte de </span><span data-contrast="none">notre cas d’usage </span><span data-contrast="none">nous oriente </span><span data-contrast="none">plutôt </span><span data-contrast="none">vers la deuxième option.</span><span data-contrast="none"> </span><span data-contrast="none">C</span><span data-contrast="none">’est d’ailleurs pour </span><span data-contrast="none">les mêmes raisons</span><span data-contrast="none"> que nous avions initialement pensé au </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none">.</span><span data-contrast="none"> Nous choisissons ensuite notre algorithme </span><span data-contrast="none">d’apprentissage non supervisé</span><span data-contrast="none"> (</span><i><span data-contrast="none">Isolation Forest</span></i><span data-contrast="none"> </span><span data-contrast="none">ici, mais</span><span data-contrast="none"> nous aurions pu en choisir un autre</span><span data-contrast="none">)</span><span data-contrast="none"> et entrainons notre modèle</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<h2 aria-level="2"><span data-contrast="none">Etape 5 : A</span><span data-contrast="none">nalyser les résultats</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Nous utilisons notre jeu de données de test</span><span data-contrast="none"> pour </span><span data-contrast="none">évaluer</span><span data-contrast="none"> l’efficacité de notre modèle pour détecter les cas d’exfiltration. </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Le modèle conçu permet de </span><span data-contrast="none">détecter des </span><i><span data-contrast="none">patterns</span></i><span data-contrast="none"> dans les données </span><span data-contrast="none">(requêtes)</span><span data-contrast="none">, pour ensuite </span><span data-contrast="none">comparer les </span><span data-contrast="none">nouvelles </span><span data-contrast="none">données</span><span data-contrast="none"> (requêtes) </span><span data-contrast="none">avec ce</span><span data-contrast="none">s </span><i><span data-contrast="none">patterns</span></i><span data-contrast="none"> </span><span data-contrast="none">et </span><b><span data-contrast="none">mettre en lumière celles qui s’éloigne</span></b><b><span data-contrast="none">nt</span></b><b><span data-contrast="none"> de ce qu’il considère comme la </span></b><b><span data-contrast="none">norme</span></b><b><span data-contrast="none"> </span></b><b><span data-contrast="none">de par</span></b><b><span data-contrast="none"> son apprentissage </span></b><b><span data-contrast="none">(score d’anomalie)</span></b><span data-contrast="none">. </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Voici nos résultats</span><span data-contrast="none"> </span><span data-contrast="none">: </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13802 media-13802" class="align-none"></figure>
<figure id="post-13824 media-13824" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13824 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1.png" alt="" width="971" height="421" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1.png 971w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1-437x189.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1-71x31.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1-768x333.png 768w" sizes="auto, (max-width: 971px) 100vw, 971px" /></figure>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><i><span data-contrast="none">« Ok, mais comment j’interprète tout ça ? »</span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Le graphique</span><span data-contrast="none"> à gauche</span><span data-contrast="none"> représente le</span><span data-contrast="none">s</span><span data-contrast="none"> score</span><span data-contrast="none">s</span><span data-contrast="none"> d’anomalie associé</span><span data-contrast="none">s</span><span data-contrast="none"> à chaque </span><span data-contrast="none">requête</span><span data-contrast="none"> du jeu de test, triés par ordre chronologique. A droite se trouve</span><span data-contrast="none">nt</span><span data-contrast="none"> les logs présentant le</span><span data-contrast="none">s</span><span data-contrast="none"> score</span><span data-contrast="none">s</span><span data-contrast="none"> d’anomalie le</span><span data-contrast="none">s</span><span data-contrast="none"> plus </span><span data-contrast="none">importan</span><span data-contrast="none">ts</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Après investigation avec le métier</span><span data-contrast="none">-cybersécurité</span><span data-contrast="none"> </span><span data-contrast="none">:</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<ul>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="none">Le pic en jaune, correspond à un </span><b><i><span data-contrast="none">upload</span></i></b><b><span data-contrast="none"> de volume beaucoup plus important que les autres</span></b><span data-contrast="none">, d’un utilisateur qui extrait un large volume de données.</span><span data-contrast="none"> Cette anomalie est légitime</span><span data-contrast="none">. Toutefois, </span><span data-contrast="none">une alerte</span><span data-contrast="none"> </span><span data-contrast="none">sur la base d’une règle </span><span data-contrast="none">statique</span><span data-contrast="none"> sur le vol</span><span data-contrast="none">ume par requête aurait </span><span data-contrast="none">également </span><span data-contrast="none">permis de détecter cette communication suspecte</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
</ul>
<ul>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="none">Plus intéressant maintenant, l</span><span data-contrast="none">es pics en rouge, correspondent à des </span><b><span data-contrast="none">requêtes de faibles volumes d’</span></b><b><i><span data-contrast="none">upload</span></i></b><span data-contrast="none"> </span><b><span data-contrast="none">régulière</span></b><b><span data-contrast="none">s </span></b><b><span data-contrast="none">vers des sites inconnus depuis le même utilisateur</span></b><span data-contrast="none">. Ces anomalies sont plus difficile</span><span data-contrast="none">s</span><span data-contrast="none"> à détecter </span><span data-contrast="none">avec des moyens classiques</span><span data-contrast="none">, pourtant </span><b><span data-contrast="none">notre algorithme leur a attribué le même score d’anomalie que pour un large volume</span></b><span data-contrast="none">. Elle</span><span data-contrast="none">s</span><span data-contrast="none"> </span><span data-contrast="none">deviennent </span><span data-contrast="none">donc tout</span><span data-contrast="none"> </span><span data-contrast="none">aussi prioritaire</span><span data-contrast="none">s</span><span data-contrast="none"> à qualifier</span><span data-contrast="none"> pour nos équipes de gestion des alertes</span><span data-contrast="none"> </span><span data-contrast="none">de cybersécurité</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
</ul>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13826 media-13826" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13826 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1.png" alt="" width="947" height="412" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1.png 947w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1-437x191.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1-71x31.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1-768x334.png 768w" sizes="auto, (max-width: 947px) 100vw, 947px" /></figure>
<figure id="post-13804 media-13804" class="align-none"></figure>
<p>&nbsp;</p>
<p><span data-contrast="none">Maintenant</span><span data-contrast="none">,</span><span data-contrast="none"> focalisons-nous sur le large paquet au centre du graphique</span><span data-contrast="none"> (en orange)</span><span data-contrast="none">.</span><span data-contrast="none"> </span><span data-contrast="none">Le premier jour, on observe un score d’anomalie</span><span data-contrast="none"> important</span><span data-contrast="none">, il s’agit d’un </span><b><span data-contrast="none">envoi soudain de données par de nombreux utilisateurs</span></b><b><span data-contrast="none"> </span></b><b><span data-contrast="none">vers le site </span></b><b><span data-contrast="none">web de transport en commun de la ville</span></b><span data-contrast="none">. Après investigation on se rend compte qu’il ne s’agit </span><b><span data-contrast="none">pas d’un vrai incident</span></b><b><span data-contrast="none"> de sécurité</span></b><span data-contrast="none">, mais de l’envoi annuel de justificatifs pour poursuite des abonnements </span><span data-contrast="none">de transport</span><span data-contrast="none"> </span><span data-contrast="none">(nous sommes début septembre…). </span><span data-contrast="none">On obs</span><span data-contrast="none">erve </span><span data-contrast="none">par la suite</span><span data-contrast="none"> que</span><span data-contrast="none"> </span><b><span data-contrast="none">l’algorithme « comprend » que ces flux reviennent </span></b><b><span data-contrast="none">chez plusieurs utilisateurs</span></b><b><span data-contrast="none"> </span></b><b><span data-contrast="none">et les intègr</span></b><b><span data-contrast="none">e </span></b><b><span data-contrast="none">progressivement </span></b><b><span data-contrast="none">comme une habitude. Le score de risques décroit donc jour après jour.</span></b><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276,&quot;335559991&quot;:284}"> </span></p>
<p><span data-contrast="none">L</span><span data-contrast="none">e modèle détecte </span><span data-contrast="none">donc </span><span data-contrast="none">ce qui sort de la norme, quelle que soit la norme et s’autocorrige avec l’expérience. </span><b><span data-contrast="none">C’est en cela que le </span></b><b><i><span data-contrast="none">Machine Learning</span></i></b><b><span data-contrast="none"> tient une vraie valeur ajoutée par rapport aux méthodes classiques de détection.</span></b><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276,&quot;335559991&quot;:284}"> </span></p>
<p><span data-contrast="none">S</span><span data-contrast="none">i</span><span data-contrast="none"> la performance du modèle </span><span data-contrast="none">sur ce premier cas d’usage simplifié </span><span data-contrast="none">perm</span><span data-contrast="none">et d’a</span><span data-contrast="none">ttester de la valeur potentielle du Machine Learning</span><span data-contrast="none">, il peut être temps de passer à l’étape 6 – le déploiement</span><span data-contrast="none"> à l’échelle</span><span data-contrast="none"> ! </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">D</span><span data-contrast="none">ans </span><span data-contrast="none">un second </span><span data-contrast="none">articl</span><span data-contrast="none">e nous reviendrons </span><span data-contrast="none">sur ces étapes </span><span data-contrast="none">pour mettre en </span><span data-contrast="none">lumière les facteurs de réussite et </span><span data-contrast="none">pièges à éviter lorsqu’on souhaite </span><span data-contrast="none">étudier </span><span data-contrast="none">les possibilités du </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> en cybersécurité.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/">Booster sa cybersécurité grâce à du Machine Learning ?  Partie 1 &#8211; « Absolument, voici comment! »</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>DLP : éviter les fuites, sans colmater les brèches</title>
		<link>https://www.riskinsight-wavestone.com/2018/04/dlp-eviter-fuites-sans-colmater-breches/</link>
		
		<dc:creator><![CDATA[GEneviEveLardon]]></dc:creator>
		<pubDate>Tue, 17 Apr 2018 16:17:22 +0000</pubDate>
				<category><![CDATA[Cloud & Next-Gen IT Security]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[data protection]]></category>
		<category><![CDATA[DLP]]></category>
		<category><![CDATA[données]]></category>
		<category><![CDATA[gestion des données]]></category>
		<category><![CDATA[gouvernance]]></category>
		<category><![CDATA[protection des données]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=10662/</guid>

					<description><![CDATA[<p>La protection des données constitue, aujourd’hui plus que jamais, l’un des enjeux majeurs pour les entreprises. La pression sur le sujet est croissante : textes de lois (RGPD), demandes des régulateurs, menace cyber croissante, prise de conscience des utilisateurs, etc. L’écosystème...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2018/04/dlp-eviter-fuites-sans-colmater-breches/">DLP : éviter les fuites, sans colmater les brèches</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><em>La protection des données constitue, aujourd’hui plus que jamais, l’un des enjeux majeurs pour les entreprises. La pression sur le sujet est croissante : textes de lois (RGPD), demandes des régulateurs, menace cyber croissante, prise de conscience des utilisateurs, etc.</em></p>
<p><em>L’écosystème dans lequel évolue la donnée est, quant à lui, <a href="https://www.riskinsight-wavestone.com/2016/05/levolution-modele-de-securite-chateau-fort-a-laeroport/">en constante complexification</a>. En effet, les systèmes d’information, en pleine transformation, s’ouvrent sur l’extérieur et s’interconnectent avec différents services Cloud publics, constituant de nouvelles portes de sortie pour les données de l’entreprise.</em></p>
<p>&nbsp;</p>
<p>Les événements menant à une fuite de données sont nombreux : négligence d’un employé, fraude interne, piratage par un tiers… Les moyens d’exfiltration eux aussi sont multiples : emails, <em>Shadow IT</em>, clés USB, imprimantes… En cas d’incident avéré, les <strong>conséquences peuvent être significatives</strong>. Les médias n’hésitent pas relayer avec insistance les cas de piratages menant à des fuites de données d’une grande entreprise, ce qui écornera durablement <strong>l’image de la marque</strong>. Les <strong>pertes financières</strong> liées sont également importantes, induites par les <strong>sanctions</strong> prévues des différents régulateurs et faisant suite à la<strong> perte de confiance</strong> des clients et partenaires.</p>
<figure id="post-10665 media-10665" class="align-none">
<figure id="post-10670 media-10670" class="align-none">
<figure id="post-10673 media-10673" class="align-none"><img loading="lazy" decoding="async" class="aligncenter wp-image-10673 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image2-2.png" alt="" width="1614" height="734" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image2-2.png 1614w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image2-2-420x191.png 420w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image2-2-768x349.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image2-2-71x32.png 71w" sizes="auto, (max-width: 1614px) 100vw, 1614px" /></figure>
</figure>
</figure>
<p style="text-align: center;"><em> Le SI aujourd&rsquo;hui, un écosystème complexe ouvrant de nombreuses voies à des fuites de données</em></p>
<p>&nbsp;</p>
<h2>Le DLP, un chantier rarement considéré mais à la portée de tous</h2>
<p>Ce challenge de taille que constitue la lutte contre les fuites de données n’est cependant pas insurmontable. Certaines entreprises, et notamment les banques, ont pris de l’avance sur le sujet vis-à-vis d’autres secteurs d’activité, en déployant des outils prévenant la fuite des données appelés <em>Data Leak Prevention </em>(DLP,<em> ou Data Loss Protection</em>). Ces outils permettent notamment de <strong>suivre les données considérées comme sensibles</strong> et d’y <strong>appliquer des règles </strong>visant à contrôler les flux de données conformément aux politiques définies. Ces règles peuvent s’appliquer au niveau du <strong>terminal</strong> (poste de travail, serveur, etc.), de <strong>l’application</strong> (Office 365, etc.) ou du <strong>réseau</strong> (proxy, etc.).</p>
<p>La mise en œuvre de telles solutions nécessite cependant de mener un <strong>projet à part entière</strong> faisant intervenir à la fois le département de Sécurité de l’Information et les Directions métier. La complexité de cette réalisation sera modulée par trois facteurs principaux :</p>
<p>&nbsp;</p>
<p><img loading="lazy" decoding="async" class="aligncenter wp-image-10663 size-medium" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image1-1-437x104.png" alt="" width="437" height="104" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image1-1-437x104.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image1-1-768x183.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image1-1-71x17.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image1-1.png 1507w" sizes="auto, (max-width: 437px) 100vw, 437px" /></p>
<p>&nbsp;</p>
<p>En effet, les problématiques à traiter et les solutions techniques à implémenter durant le projet dépendront des objectifs fixés par l’entreprise en termes de couverture du risque de fuites de données, ainsi que du niveau actuel des pratiques et <a href="https://www.riskinsight-wavestone.com/2018/02/classification-incontournable-protection-donnees/">méthodes de classification</a>.</p>
<p>Il est par ailleurs impératif, lors de la mise en œuvre des solutions de DLP, de préserver l’<strong>expérience des utilisateurs</strong>, ces derniers ne devant pas voir leurs activités impactées par les mécanismes de protection. Les objectifs de sécurité devront ainsi nécessairement <strong>prendre en compte les besoins métiers, qui peuvent notamment impliquer l’échange d’informations sensibles avec l’extérieur</strong>.</p>
<p>&nbsp;</p>
<h2><strong>Les bons tuyaux pour la réussite d’un projet DLP</strong></h2>
<p>Premièrement, la sélection de l’outil de DLP devra se baser sur les objectifs définis au lancement du projet concernant la structure des données à protéger et les canaux d’échange à analyser.</p>
<p>Certaines solutions du marché ont atteint un niveau de maturité avancé permettant de détecter si une donnée est sensible, quels que soient la structure de la donnée et le canal de transmission. La détection de données structurées est plus simple du fait que leur caractérisation est plus simple (par exemple : le nombre de chiffres est défini pour un numéro de sécurité sociale ou de carte de crédit). Concernant les données non structurées (80% des données selon le Gartner), la détection pourra se baser sur <strong>l’analyse des métadonnées introduites par la classification</strong>.</p>
<p>Par la suite, le cadrage du projet devra définir et formaliser les <strong>4 grands chantiers caractéristiques</strong> d’un projet DLP, les clés du succès pour le déploiement de la solution :</p>
<p>&nbsp;</p>
<h3>La cartographie des données sensibles et la définition des règles de protection associées</h3>
<p>Dans le cas où l’entreprise aurait déjà établi une <strong><a href="https://www.riskinsight-wavestone.com/2018/02/records-management-atout-entreprise/">cartographie répertoriant les données et traitements</a></strong> considérés comme sensibles, ainsi que les flux considérés comme légitimes, celle-ci constituera la base sur laquelle le projet DLP s’appuiera pour l’élaboration des politiques de DLP et des règles de protection fines.</p>
<p>Si cette cartographie n’existe pas, le projet DLP ne pourra aboutir sans <strong>l’implication forte des métiers</strong> sur le sujet. Il s’agira d’identifier avec eux, par Direction et par Activité, les données sensibles et les traitements associés. Cette première réflexion aboutira à la <strong>délimitation des traitements et des canaux de stockage et de transmission légitimes</strong>, à la fois à l’interne et l’externe de l’entreprise. Ce processus nécessite une collaboration rapprochée avec des contributeurs clés des différentes directions qui pourront lors d’entretiens fournir les informations nécessaires.</p>
<p>L’équipe projet peut alors à ce stade, créer les politiques de DLP associées aux scénarios assimilés à une fuite de données.</p>
<p>Les retours des grands comptes montrent toutefois qu’un <strong>facteur clé de la réussite du projet est de savoir choisir ses combats</strong> ; il est en effet illusoire de vouloir implémenter – à minima dans un premier temps – l’ensemble des potentielles politiques de DLP. La bonne couverture des données les plus critiques de l’entreprise sera déjà preuve d’un niveau de maturité satisfaisant vis-à-vis de l’état de l’art.</p>
<p>&nbsp;</p>
<h3>L’identification des contraintes réglementaires et légales s’appliquant aux traitements analysés</h3>
<p>Les réglementations concernant les données sensibles, telles que les <a href="https://www.riskinsight-wavestone.com/2016/03/8822/">données à caractère personnel</a> (Loi informatique et liberté, RGPD, etc.) imposent des restrictions particulières sur les traitements autorisés sur ces données. De plus, pour les entreprises évoluant dans un contexte international, des particularités réglementaires locales existent et créent une hétérogénéité quant aux règles à respecter concernant les traitements sur les données.</p>
<p>Pour les aspects de conformité légale, il est important de s’appuyer sur les <strong>compétences des départements Légal et Conformité</strong> de l’entreprise et des différentes entités internationales, qui pourront valider les analyses et règles de protection appliquées sur les données.</p>
<p>Les principaux points à adresser lors de cette <strong><em>Due diligence réglementaire</em></strong> sont le traitement des données à caractère personnel, la notification des utilisateurs sur les traitements effectués, le lieu de stockage des données analysées et les canaux de transfert utilisés.</p>
<p>&nbsp;</p>
<h3>La définition du processus de gestion des incidents de fuite de données</h3>
<p>La déclinaison opérationnelle des scénarios de DLP précédemment théorisés requiert ensuite de définir les moyens et processus à mettre en œuvre lors de la détection d’une fuite de donnée. Ceux-ci devront bien sûr <strong>s’adapter aux processus de gestion des incidents au sein de l’entreprise</strong> :</p>
<ul>
<li>Qui recevra les alertes liées aux potentielles fuites de données (le SOC dans le cas où il existe, une équipe dédiée liée à une Direction métier, etc.) ?</li>
<li>Quels moyens mettre en place lors de l’investigation sur le périmètre impacté (ex : dans le cas d’un périmètre sensible, l’enquête doit respecter une certaine confidentialité) ?</li>
<li>Selon le niveau de criticité, quels niveaux hiérarchique et opérationnel contacter ?</li>
</ul>
<p>À la différence d’incidents de sécurité techniques, il pourra être pertinent d’intégrer dans le processus des équipes métier ou le responsable sécurité de l’entité concernée afin de définir la criticité d‘une fuite de données et le périmètre impacté. En effet, dans le cas d’une donnée structurée, la criticité peut être évaluée simplement <em>via</em> des grilles de correspondance, mais cette réflexion est d’un tout autre ordre dans le cas de donnée non structurées (ex : email d’un responsable hiérarchique ou document lié à un projet confidentiel).</p>
<p>Un fort <em>sponsorship</em> sera également requis afin que les objectifs et moyens mis en œuvre dans le cadre du DLP soient approuvés par les différentes Directions Métier, le département Ressources Humaines ainsi que les représentants du personnel.</p>
<p>&nbsp;</p>
<h3>L’implémentation d’un outil adapté aux scénarios définis</h3>
<p>En parallèle de la définition de processus de gestion d’incidents, vient la concrétisation du modèle de supervision avec le choix d’un outillage. Outre <strong>l’adéquation avec les scénarios de détection définis, l’outil choisi devra respecter un certain nombre de prérequis liés à l’écosystème de l’entreprise et à la <em>Due diligence réglementaire</em> réalisée</strong>. Parmi les critères de choix, la solution technique devra notamment :</p>
<ul>
<li>S’intégrer avec les outils du SOC (SIEM, etc.) et idéalement avec les autres solutions de sécurité de l’entreprise (proxy, outils de chiffrement / DRM, etc.) ;</li>
<li>Être adapté à l’environnement métier (plateformes collaboratives, serveurs de fichiers, etc.) ;</li>
<li>Prendre en compte la diversité du parc informatique et du système d’information dans le cas de déploiement d’agents sur les terminaux.</li>
</ul>
<p>Par ailleurs, une implémentation efficace d’une stratégie de DLP devra impérativement couvrir l’ensemble des canaux d’échanges et des cas d’usages métiers, afin de <strong>ne pas laisser de vannes ouvertes </strong>(ex : installer un outil DLP au niveau des serveurs mail et de fichiers tout en laissant les ports USB sans surveillance aucune).</p>
<p><img loading="lazy" decoding="async" class="aligncenter wp-image-10667 size-medium" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image3-435x191.png" alt="" width="435" height="191" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image3-435x191.png 435w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image3-768x337.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image3-71x31.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2018/04/image3.png 1465w" sizes="auto, (max-width: 435px) 100vw, 435px" /></p>
<p style="text-align: center;"><em>Les 4 piliers du DLP</em></p>
<p>&nbsp;</p>
<p>L’implémentation de la solution ne marque pas la fin du sujet DLP : le processus de Data Leak Prevention devra entrer dans une <strong>démarche d’amélioration continue</strong>. L’étude des faux positifs et les remontées d’alertes devront aboutir à une <strong>revue régulière</strong> (à minima tous les 6 mois) afin d’améliorer les scénarios de détection implémentés. Pour cela, il sera intéressant de <strong>prévoir dès la genèse du projet cette charge dans les équipes de <em>Run</em> et de commencer avec des scénarios basiques</strong>.</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p><em>Il sera également intéressant d’inscrire les objectifs du projet de Data Leakage Prevention dans un programme plus large traitant de la protection de la donnée, incluant la revue des droits et des habilitations liés aux serveurs de fichiers, l’authentification avec accès conditionnel, l’intégration de la supervision avec le SOC et le chiffrement des fichiers et applicatifs. </em></p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2018/04/dlp-eviter-fuites-sans-colmater-breches/">DLP : éviter les fuites, sans colmater les brèches</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>La classification, cet incontournable de la protection des données</title>
		<link>https://www.riskinsight-wavestone.com/2018/02/classification-incontournable-protection-donnees/</link>
		
		<dc:creator><![CDATA[GEneviEveLardon]]></dc:creator>
		<pubDate>Wed, 28 Feb 2018 16:35:09 +0000</pubDate>
				<category><![CDATA[Cloud & Next-Gen IT Security]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[Classification]]></category>
		<category><![CDATA[data protection]]></category>
		<category><![CDATA[DLP]]></category>
		<category><![CDATA[données]]></category>
		<category><![CDATA[protection des données]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=10418/</guid>

					<description><![CDATA[<p>Le fait que la donnée soit l’or noir du XXIe siècle n’est un secret pour personne. Le fait qu’elle soit de plus en plus exposée (ouverture des API, migration vers des applications SaaS comme O365 ou Salesforce, shadow IT, etc.)...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2018/02/classification-incontournable-protection-donnees/">La classification, cet incontournable de la protection des données</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Le fait que la donnée soit l’or noir du XXIe siècle n’est un secret pour personne. Le fait qu’elle soit de plus en plus exposée (ouverture des API, migration vers des applications SaaS comme O365 ou Salesforce, shadow IT, etc.) et donc à risque, ne l&rsquo;est pas non plus.</p>
<p>La question n’est donc plus de savoir si la donnée peut fuiter (intentionnellement ou non) et être exfiltrée, mais plutôt de savoir comment la sécuriser afin de limiter les impacts en cas de fuite.</p>
<p>Dans ce contexte, les <strong>modèles de sécurité doivent s’adapter</strong>. Celui du <a href="https://www.riskinsight-wavestone.com/2016/05/levolution-modele-de-securite-chateau-fort-a-laeroport/">château-fort est largement dépassé</a>, celui de l’<a href="https://www.wavestone.com/app/uploads/2017/02/cybersecurite-directive-nis-union-europeenne.pdf">aéroport est en passe de l’être</a>. Il devient alors nécessaire d’<strong>avoir une protection centrée sur la donnée</strong> (ou <em>data-centric</em>). Cette protection doit de plus <strong>répondre aux exigences d’expérience utilisateurs des métiers qui rechignent à être impactés</strong> dans leurs utilisations quotidiennes.</p>
<p>&nbsp;</p>
<h2>2 typologies de données distinctes … qui nécessitent une approche différente</h2>
<p>Les grands projets de protection de la donnée lancés au sein des grands comptes se sont tous confrontés au même problème : comment connaître le niveau de sensibilité d’une information ? La réponse à cette question est fondamentale car elle est nécessaire pour appliquer un niveau de protection pertinent et éviter les fuites de données.</p>
<p>Il existe aujourd’hui deux typologies de données :</p>
<ul>
<li>Les <strong>données structurées </strong>désignent l’ensemble des informations répondant à un type de format et aisément identifiable en tant que tel : un champ CRM, numéro de sécurité sociale, formulaire Cerfa, adresse mail, ainsi que tout autre donnée pouvant être exprimées sous forme d’expressions régulières (1). Il s’agit communément des informations que l’on retrouve dans les bases de données des applications.</li>
<li><strong>Les données non structurées</strong>, à l’opposé des données non structurées, peuvent prendre n’importe quel type de format (document Office, PDF, image, vidéo, musique, fichier d’une application métier, etc.). Il est à noter qu’une donnée qui au premier abord serait considérée comme structurée (ex : champ téléphone d’un CRM), pourrait ne pas l’être si le respect de la syntaxe n’est implémenté.</li>
</ul>
<p>Alors qu’il est aisé d’identifier automatiquement une donnée structurée, et d’en décrire la sensibilité selon des grilles prédéfinies ; la problématique est d’un tout autre ordre dans le cas des données non structurées, ces dernières représentant pourtant la plus grande part des données produites quotidiennement par les collaborateurs. Cela se traduit concrètement par l’incapacité des outils de sécurité (ex : <em>Data Loss Prevention </em>ou DLP) à repérer toute fuite ou manipulation suspecte d’informations vitales.</p>
<p>La classification des données non structurées apparaît alors comme la pierre angulaire d’une stratégie de protection de la donnée, via une action manuelle de la part de l’utilisateur final.</p>
<p>&nbsp;</p>
<h1>Qu’est-ce que la classification ?</h1>
<p>Le sujet de la « classification de la donnée » regroupe l’<strong>ensemble des processus techniques et organisationnels permettant de catégoriser l’information produite</strong> par les collaborateurs d’une organisation. Suivant la catégorisation établie – par niveau de sensibilité (ex : interne, confidentiel, secret, etc.) ou par métiers concernés (ex : RH, R&amp;D, achat, etc.) – la classification permettra de faire rentrer la donnée dans un cadre réglementaire, législatif ou de sécurité.</p>
<p>Historiquement très basiques (case à cocher dans un en-tête ou sur la première page d’un document ou ajout manuel de métadonnées), les solutions de classification se consolident et responsabilisent l’utilisateur en le plaçant au cœur du processus ; lui proposant ainsi une expérience améliorée (interface simple et conseils).</p>
<p>En pratique, les outils de classification offrent des fonctionnalités diverses :</p>
<ul>
<li>Pour les nouveaux fichiers, <strong>classification à la main de l’utilisateur ou déterminée automatiquement</strong> selon des règles prédéfinies (ex : présence de X numéros de sécurité sociales) ;</li>
<li>Pour les fichiers existants, <strong>scan manuel des fichiers présents sur les répertoires locaux ou on-premise</strong> selon des règles prédéfinies ;</li>
<li><strong>Ajout sur le fichier de métadonnées </strong>(ou <em>tagging</em>) : ces métadonnées, interprétables par des outils tiers, permettent de donner de visibilité aux outils de supervision, type Data Loss Prevention ;</li>
<li><strong>Ajout d’éléments de marquage visuels</strong> (en tête, pied de page, filigrane) pour sensibiliser les utilisateurs finaux.</li>
</ul>
<h2>Des résultats peu probants à ce jour pour les projets de classification</h2>
<p>Bien que les <strong>filières RSSI soient sensibles au sujet</strong> de la classification et des données et que le sujet soit inscrit au cœur des politiques de la majorité des grandes entreprises – <strong>obligation renforcée</strong> par les récentes règlementations comme le <a href="https://www.riskinsight-wavestone.com/2017/07/rgpd-1an-travaux-bilan-12/">GDPR</a> ou la <a href="https://www.riskinsight-wavestone.com/2016/12/reussir-mise-conformite-loi-de-programmation-militaire/">LPM</a> qui requièrent de <a href="https://www.riskinsight-wavestone.com/2018/02/records-management-atout-entreprise/">cartographier les données</a> et les usages – <strong>peu d’organisations, en dehors des établissement bancaires, ont réussi à mettre en place une stratégie efficace de classification</strong>.</p>
<p>Plusieurs raisons peuvent expliquer cette lacune :</p>
<ul>
<li><strong>Les utilisateurs finaux n&rsquo;ont généralement pas la connaissance de la nature des données sensibles ou de leur impact</strong> : alors que le niveau de classification le plus élevé (« C4 », « Secret », « Confidentiel », etc.) correspond aux documents susceptibles de mettre en péril une entité voire le Groupe tout entier – ce qui correspond à habituellement 1% des informations –  cette proportion avoisine les 10% dans certaines entités. A l&rsquo;inverse, il n&rsquo;est pas rare qu&rsquo;un utilisateur partage des fichiers contenant des données à caractères personnel sensibles ou des fichiers de mot de passe sans aucun niveau de classification ni aucune protection.<br />
Ainsi, tout projet de classification des données nécessite un <strong>fort accompagnement au changement des utilisateurs finaux</strong> avec des messages clairs et des exemples concrets, lui permettant de classifier aisément ses informations. Des rappels récurrents seront également nécessaires pour rappeler les bonnes pratiques. En effet, un utilisateur manipulant au quotidien des données sensibles, pourrait ne plus se rendre compte de l’impact de la divulgation de celles-ci.</li>
<li><strong>Faute de mettre à disposition de ses utilisateurs des moyens suffisamment ergonomiques</strong>, une entreprise ne peut s&rsquo;attendre à des résultats probants. L&rsquo;expérience montre en effet que les cases à cocher avec les niveaux de classification dans les pages de garde, les en-têtes ou les pieds de pages ne sont que très peu sélectionnées.</li>
<li>La classification de l&rsquo;ensemble des données de l&rsquo;entreprises est un projet de transformation à part entière, et nécessite un <strong>fort engagement des équipes métiers et de la direction</strong> si on souhaite la généraliser. Cet engagement doit être d&rsquo;autant plus important si la stratégie de classification définie impacte les utilisateurs (obligation de classifier les documents, de chiffrer, etc.).</li>
</ul>
<p>&nbsp;</p>
<h2>Le retour de la classification sur le devant de la scène</h2>
<p>Toutefois, la thématique revient en force au sein des grands comptes, poussée par les programmes de transformation digitale – qui nécessitent de repenser la protection des données – et par les acteurs du marché – qui consolident leurs offres autour du sujet. Certains analystes comme le Gartner, anticipent même le regroupement des solutions de protection de la donnée en une unique solution centrée sur la classification.</p>
<p>Afin d’être un succès, il sera opportun d’allier sensibilisation et ergonomie, afin d’embarquer les utilisateurs finaux dans cette démarche. L’un ne pourra pas aller sans l’autre.</p>
<p>&nbsp;</p>
<p><em>Nous étudierons dans un prochain article comment le marché évolue autour d’acteurs de la sécurité historiques et comment la mise en place d’une stratégie efficace de classification apporte des bases solides pour (re)donner un nouveau souffle à la thématique de la protection des données.  </em></p>
<p>&nbsp;</p>
<p>(1) Une expression régulière, est une chaîne de caractères, répondant à une syntaxe précise. Par exemple, un numéro de téléphone française peut prendre l’un des trois formats suivants : 0123456789, +33123456789 ou 0033123456789.</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2018/02/classification-incontournable-protection-donnees/">La classification, cet incontournable de la protection des données</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Le paradoxe des projets de Data Leak Prevention (DLP) : une problématique clé, des solutions matures… mais une mise en œuvre qui fait encore peur</title>
		<link>https://www.riskinsight-wavestone.com/2013/03/le-paradoxe-des-projets-de-data-leak-prevention-dlp-une-problematique-cle-des-solutions-matures-mais-une-mise-en-oeuvre-qui-fait-encore-peur/</link>
		
		<dc:creator><![CDATA[Ali Fawaz]]></dc:creator>
		<pubDate>Thu, 28 Mar 2013 13:14:18 +0000</pubDate>
				<category><![CDATA[Cloud & Next-Gen IT Security]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[Métiers - Stratégie & projets IT]]></category>
		<category><![CDATA[data protection]]></category>
		<category><![CDATA[DLP]]></category>
		<category><![CDATA[données]]></category>
		<category><![CDATA[fuite de données]]></category>
		<category><![CDATA[gestion des identités]]></category>
		<category><![CDATA[SOC]]></category>
		<guid isPermaLink="false">http://www.solucominsight.fr/?p=3598</guid>

					<description><![CDATA[<p>L’évolution des menaces et de la réglementation pousse les entreprises à être de plus en plus attentives à leurs données et à orienter les protections sur ce périmètre. Les solutions de prévention contre la fuite d’information, ou DLP, apportent des...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2013/03/le-paradoxe-des-projets-de-data-leak-prevention-dlp-une-problematique-cle-des-solutions-matures-mais-une-mise-en-oeuvre-qui-fait-encore-peur/">Le paradoxe des projets de Data Leak Prevention (DLP) : une problématique clé, des solutions matures… mais une mise en œuvre qui fait encore peur</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><em>L’évolution des menaces et de la réglementation pousse les entreprises à être de plus en plus attentives à leurs données et à orienter les protections sur ce périmètre. Les solutions de prévention contre la fuite d’information, ou DLP, apportent des éléments de réponses à leur problématique. Pour autant, si le besoin semble réel et les solutions matures, les retours d’expérience restent limités par rapport à ce que l’on pourrait attendre.</em></p>
<h2>Un apport des DLP complémentaire à la lutte contre l’intrusion et au contrôle d’accès</h2>
<p>Une fuite d’information peut provenir de trois sources différentes. L’attaquant externe est souvent celui qui vient à l’esprit en premier. Cependant, l’expérience montre que ce sont les utilisateurs internes, autorisés ou non, qui font fuir le plus d’information.</p>
<p>Suivant la position de celui qui fait fuir l’information, trois grandes étapes peuvent être enchaînées : intrusion, accès à l’information, diffusion de l’information – dont la nécessité dépend des accès initiaux de l’acteur à l’origine de la fuite d’information. À chacune de ces étapes, des solutions de sécurité permettant de réduire le risque existent.</p>
<p><a href="http://www.solucominsight.fr/2013/03/le-paradoxe-des-projets-de-data-leak-prevention-dlp-une-problematique-cle-des-solutions-matures-mais-une-mise-en-oeuvre-qui-fait-encore-peur/role-dlp/" rel="attachment wp-att-3604"><img loading="lazy" decoding="async" class="alignnone  wp-image-3604" title="rôle DLP" src="http://www.solucominsight.fr/wp-content/uploads/2013/03/rôle-DLP-.jpg" alt="" width="631" height="308" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2013/03/rôle-DLP-.jpg 902w, https://www.riskinsight-wavestone.com/wp-content/uploads/2013/03/rôle-DLP--392x191.jpg 392w, https://www.riskinsight-wavestone.com/wp-content/uploads/2013/03/rôle-DLP--71x35.jpg 71w" sizes="auto, (max-width: 631px) 100vw, 631px" /></a></p>
<p>Il convient d’agir à toutes les étapes d’une fuite d’information en s’appuyant sur des mesures allant de la sécurité physique aux solutions de <em>Digital Right Management</em> (DRM), en passant par le chiffrement de flux, le cloisonnement, ou encore la gestion des accès et des habilitations…</p>
<p>Si de telles mesures sont déjà mises en œuvre,<strong> les outils de DLP permettent alors essentiellement de se prémunir contre des erreurs ou malveillances d’utilisateurs ayant un accès légitime à l’information</strong>. En ce sens, ils permettent d’apporter<strong> une protection au plus proche de la donnée</strong>.</p>
<h2>Des solutions fonctionnellement matures</h2>
<p>Les mécanismes de contrôle des DLP sont mis en œuvre à travers des <strong>règles ou politiques centralisées</strong> permettant d’analyser les traitements faits sur la donnée quelle que soit sa nature ou son support.</p>
<p><a href="http://www.solucominsight.fr/2013/03/le-paradoxe-des-projets-de-data-leak-prevention-dlp-une-problematique-cle-des-solutions-matures-mais-une-mise-en-oeuvre-qui-fait-encore-peur/fonctionnement-dlp/" rel="attachment wp-att-3605"><img loading="lazy" decoding="async" class="alignnone  wp-image-3605" title="Fonctionnement DLP" src="http://www.solucominsight.fr/wp-content/uploads/2013/03/Fonctionnement-DLP.jpg" alt="" width="572" height="368" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2013/03/Fonctionnement-DLP.jpg 954w, https://www.riskinsight-wavestone.com/wp-content/uploads/2013/03/Fonctionnement-DLP-297x191.jpg 297w, https://www.riskinsight-wavestone.com/wp-content/uploads/2013/03/Fonctionnement-DLP-61x39.jpg 61w" sizes="auto, (max-width: 572px) 100vw, 572px" /></a></p>
<p>Grâce à des <strong>agents déployés sur le réseau et/ou sur les postes de travail</strong>, le DLP va pouvoir empêcher la copie d’un fichier sur un périphérique externe, l’envoi d’un document sensible par email, l’impression d’un document ou encore la publication d’une information confidentielle sur les réseaux sociaux.</p>
<p>Après analyse et filtrage des données par la solution DLP, différentes mesures de prévention peuvent être prises, avec un impact plus ou moins élevé pour l’utilisateur : alertes, demande de justification, blocage…</p>
<p>Enfin, il convient de noter que les acteurs du marché mettent de plus en plus l’accent sur le contexte d’utilisation de la donnée. Certains éditeurs proposent ainsi des fonctionnalités de gouvernance au sein de leur solution de DLP permettant par exemple de <strong>savoir exactement où se trouvent les données sensibles et qui y a accès</strong>.</p>
<p><strong>Le marché des DLP est donc de plus en plus mature</strong> : la couverture fonctionnelle proposée est élevée et évolutive, la gestion de l’impact sur les collaborateurs de plus en plus souple. <strong>Néanmoins, les retours d’expérience restent limités par rapport à ce que l’on pourrait attendre</strong>.</p>
<p>La raison de ce paradoxe vient du fait que <strong>les métiers sont trop souvent insuffisamment impliqués dans les projets de DLP, alors même que ces projets n’ont que peu de chance d’aboutir sans eux, en particulier vu le volet RH nécessairement associé</strong>.</p>
<h2>Adopter une approche par les résultats pour mobiliser les métiers</h2>
<p><strong>Il est illusoire de vouloir protéger toutes ses données dans tous les cas d’usage imaginables</strong>. Une approche purement technique visant un périmètre exhaustif n’a que peu de chance de convaincre, particulièrement dans la conjoncture économique actuelle.</p>
<p><strong>Une approche par les résultats</strong> mêlant ciblage précis, démarche outillée, accompagnement et visibilité est donc à favoriser dès la sélection de la solution. Une fois les objectifs atteints sur un périmètre prioritaire, on peut envisager de l’élargir.</p>
<p>La première étape, primordiale, est donc <strong>la définition du périmètre prioritaire de données à protéger et des cas d’usage fonctionnels à traiter</strong>. Identifier les<strong> dix données les plus critiques, s’appuyer sur des situations fonctionnelles avérées</strong>, commencer par un nombre limités de supports pour réduire les aléas techniques sont autant de facteurs clés de succès.</p>
<p>La <strong>définition des processus de surveillance</strong> (politiques d’interaction avec les utilisateurs, processus en cas d’alerte…) ne doit également pas être négligée. Sur ce volet, et dès le début du projet, il est important de mobiliser les fonctions RH de l’entreprise pour valider le mode de mise en œuvre de la démarche DLP (alerte, blocage, journalisation…), construire les processus de gouvernance associés et au final envisager un passage devant les instances représentatives du personnel.</p>
<p>Lorsque le <strong>cadrage global du périmètre fonctionnel</strong> est effectivement achevé, la phase de sélection de la solution peut être entamée. Une démarche outillée impliquant la <strong>réalisation d’une maquette est indispensable</strong> pour s’assurer de l’adéquation de la solution aux cas d’usages fonctionnels identifiés et <strong>évaluer les résultats envisageables</strong>.</p>
<p>En cas de résultats satisfaisants, un déploiement progressif est à envisager avec un leitmotiv : la sensibilisation des utilisateurs.</p>
<p>Enfin, en mode récurrent, <strong>l’intégration à un SOC</strong> (Security Operation Center) peut permettre de bénéficier de la maturité de la gestion opérationnelle de la sécurité pour optimiser la surveillance d’une part et l’accompagnement et la visibilité fournis aux métiers d’autre part.</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2013/03/le-paradoxe-des-projets-de-data-leak-prevention-dlp-une-problematique-cle-des-solutions-matures-mais-une-mise-en-oeuvre-qui-fait-encore-peur/">Le paradoxe des projets de Data Leak Prevention (DLP) : une problématique clé, des solutions matures… mais une mise en œuvre qui fait encore peur</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
