<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>analyse de données - RiskInsight</title>
	<atom:link href="https://www.riskinsight-wavestone.com/tag/analyse-de-donnees/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.riskinsight-wavestone.com/tag/analyse-de-donnees/</link>
	<description>Le blog cybersécurité des consultants Wavestone</description>
	<lastBuildDate>Mon, 12 Jul 2021 08:54:28 +0000</lastBuildDate>
	<language>fr-FR</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	

<image>
	<url>https://www.riskinsight-wavestone.com/wp-content/uploads/2024/02/Blogs-2024_RI-39x39.png</url>
	<title>analyse de données - RiskInsight</title>
	<link>https://www.riskinsight-wavestone.com/tag/analyse-de-donnees/</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>MACHINE LEARNING POUR SA CYBERSECURITE : COMMENT SE RETROUVER DANS LA JUNGLE DES PRODUITS</title>
		<link>https://www.riskinsight-wavestone.com/2020/09/machine-learning-pour-sa-cybersecurite-comment-se-retrouver-dans-la-jungle-des-produits/</link>
		
		<dc:creator><![CDATA[Carole Meyziat]]></dc:creator>
		<pubDate>Mon, 21 Sep 2020 08:00:53 +0000</pubDate>
				<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[analyse de données]]></category>
		<category><![CDATA[Machine learning]]></category>
		<category><![CDATA[POC]]></category>
		<category><![CDATA[SOC]]></category>
		<category><![CDATA[solution]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=14178</guid>

					<description><![CDATA[<p>Le Machine Learning est un sujet émergeant de ces dernières années et notamment dans le cadre de la surveillance cybersécurité. Cependant, comme évoqué dans l’article « Booster sa cybersécurité grâce à du Machine Learning » (Partie 1 &#38; Partie 2), le développement...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/09/machine-learning-pour-sa-cybersecurite-comment-se-retrouver-dans-la-jungle-des-produits/">MACHINE LEARNING POUR SA CYBERSECURITE : COMMENT SE RETROUVER DANS LA JUNGLE DES PRODUITS</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Le <em>Machine Learning</em> est un sujet émergeant de ces dernières années et notamment dans le cadre de la surveillance cybersécurité. Cependant, comme évoqué dans l’article <strong>« Booster sa cybersécurité grâce à du <em>Machine Learning »</em></strong> (<a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/">Partie 1</a> &amp; <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-2-2/">Partie 2</a>), le développement de telles solutions nécessite de forts investissements humains et financiers.</p>
<p>En effet, toutes les entreprises n’ont pas les moyens nécessaires (ou la volonté) de développer en interne ce type de technologie et se tournent alors vers des solutions du marché en se confrontant à une problématique majeure : comment réussir à choisir et intégrer rapidement une solution efficace dans mon contexte ?</p>
<p>&nbsp;</p>
<h2>Pourquoi utiliser du <em>Machine Learning</em> en cybersécurité ?</h2>
<p>Le caractère statique des solutions de détection actuelles (antivirus utilisant des bases de signatures, alertes seuils d’alerte dans un SIEM…) ne permet plus de faire face à des attaques de plus en plus nombreuses et variées. En outre, les équipes de sécurité sont surchargées par le volume de données à analyser.</p>
<p>Comme expliqué dans l’article <strong>« La saga de l’été sur les nouveaux outils du SOC »</strong> (<a href="https://www.riskinsight-wavestone.com/2018/07/nouveaux-outils-du-soc-23/">Partie 2</a> &amp; <a href="https://www.riskinsight-wavestone.com/2018/08/nouveaux-outils-du-soc-33/">Partie 3</a>), le <em>Machine Learning</em> permet de répondre à ces problématiques que rencontre le SOC en utilisant des méthodes d’analyse comportementale pour détecter des attaques avancées et prioriser les alertes à analyser.</p>
<figure id="post-14182 media-14182" class="align-center"><img fetchpriority="high" decoding="async" class="aligncenter wp-image-14182 size-full" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/09/Image.png" alt="" width="778" height="459" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/09/Image.png 778w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/09/Image-324x191.png 324w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/09/Image-66x39.png 66w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/09/Image-120x70.png 120w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/09/Image-768x453.png 768w" sizes="(max-width: 778px) 100vw, 778px" /></figure>
<p style="text-align: center;"><em>Principe de détection d&rsquo;anomalies dans un SOC</em></p>
<p>&nbsp;</p>
<p>Si ces types de solutions apportent une réelle plus-value, elles ne permettent pas de totalement s’affranchir des moyens de détection actuels et sont plutôt utilisées pour compléter les outils en place.</p>
<p>Par ailleurs, leur niveau de complexité (déploiement, traitement des alertes) requiert en prérequis d’avoir déjà atteint un niveau de maturité suffisant en termes de détection et réaction (organisation, outillage, ressources, centralisation de la donnée) avant qu’il soit pertinent de se lancer dans un projet basé sur du <em>Machine Learning</em>. La phase de cadrage n’en sera que facilitée et le déploiement accéléré.</p>
<p>&nbsp;</p>
<h2>En avance de phase : définir le cahier des charges</h2>
<h3>Quel est le cas d’usage que je souhaite adresser ?</h3>
<p>Lors de nos différentes interventions chez nos clients, nous avons accompagné l’intégration de nombreuses solutions et nous pouvons faire ressortir quatre grands types de cas d’usages sur lesquels les entreprises investissent :</p>
<ul>
<li><strong>La lutte contre la fraude</strong>: outils de détection de déviation(s) dans le(s) comportement(s) d’un utilisateur</li>
<li><strong>La surveillance des emails</strong>: outils de prévention contre le phishing ou la fuite d’informations (DLP)</li>
<li><strong>La détection de menaces sur le réseau</strong>: sondes «<em> Next-Gen </em>»</li>
<li><strong>L’identification des menaces sur les </strong><strong><em>endpoints</em></strong>: anti-virus « <em>Next-Gen »</em></li>
</ul>
<p>Le choix d’une solution (et donc d’un cas d’usage) ne devra pas être défini de manière unilatérale par la filière SSI mais devra être réfléchi avec les différents acteurs concernés (SSI, DSI, métiers…). Cet échange permettra de préciser la cible ainsi que de valider les prérequis techniques et organisationnels (accessibilité des logs, ressources à mobiliser, taille des équipes…) pour préparer au mieux son intégration et son exploitation.</p>
<h3>Quel type de solution choisir ?</h3>
<p>Selon les outils déjà en place et en fonction du besoin, plusieurs solutions sont envisageables :</p>
<ul>
<li><strong>Choisir d’implémenter une </strong><strong>solution clé en main</strong> permettant de traiter des cas d’usages très précis et non spécifiques à des problématiques métiers (EDR, biométrie comportementale…). Ce choix convient généralement à un besoin immédiat plutôt qu’à une stratégie à long terme.</li>
<li><strong>Activer un module de <em>Machine Learning</em> sur un outil déjà en place</strong> (SIEM, puits de logs…) dans le but de pouvoir étendre son périmètre de détection. Ce choix permet notamment de pouvoir tester rapidement des cas d’usages et de s’affranchir des phases d’intégration d’un nouvel équipement au sein du son SI.</li>
</ul>
<p>Enfin, il est essentiel de se rappeler qu’il n’existe pas de solution miracle et que chaque type de solution répond à des besoins précis.</p>
<p>&nbsp;</p>
<h2>Devant l’éditeur : challenger les points essentiels</h2>
<h3>Tester la solution et réfléchir à son évolutivité</h3>
<p>Une fois que tous ces prérequis sont définis, il est d’usage de réaliser avec l’éditeur un <em>Proof of Concept</em> (PoC). Cependant, dans le cas spécifique d’une solution de <em>Machine Learning</em>, le PoC permettra de répondre à plusieurs interrogations spécifiques :</p>
<ul>
<li><strong>Mes données actuellement collectées permettent-elles d’avoir des résultats rapidement satisfaisants ? </strong>Les solutions de <em>Machine Learning</em> requièrent l’analyse d’un très grand nombre de données potentiellement enrichies par des référentiels permettant de croiser plusieurs sources. Il est donc nécessaire de s’assurer en avance de phase avec l’éditeur que les données actuellement collectées permettent déjà d’obtenir des premiers résultats.</li>
<li><strong>Combien de temps la phase d’apprentissage durera-t-elle dans mon contexte ?</strong> Certaines solutions de <em>Machine Learning</em> produisent des résultats qu’à partir de plusieurs mois voire années car les phases d’apprentissages peuvent-être extrêmement longues du fait du contexte particulier à chaque entreprise. La possibilité d’utiliser un historique de logs pour les tests permettrait de s’affranchir d’une période d’apprentissage conséquente.</li>
</ul>
<p>Des questions spécifiques seront également à traiter afin d’anticiper le plus long terme :</p>
<ul>
<li><strong>Sera-t-il possible d’enrichir les analyses avec d’autres types de données ?</strong> Les solutions de <em>Machine Learning</em> permettent de pouvoir effectuer des analyses sur de nombreux types de données pouvant avoir des formats hétérogènes, il est donc nécessaire de pouvoir s’assurer que les analyses pourront être enrichies avec de nouveaux types de données collectées.</li>
<li><strong>Sera-t-il possible de mettre en place de nouveaux algorithmes de détection ?</strong> La possibilité de pouvoir personnaliser ces solutions en y ajoutant de nouveaux types d’algorithmes (et potentiellement de manière indépendante) est non négligeable.</li>
<li><strong>Comment suis-je assuré que mon éditeur soit toujours à la pointe de la technologie ?</strong> Au vu de l’évolution exponentielle des techniques sur ce sujet, il est important de s’assurer que l’éditeur poursuive sa course à l’avancée technologique afin de proposer de nouveaux moyens de défense contre des attaques qui ne cessent de se complexifier.</li>
</ul>
<h3>Se préparer à protéger le cycle de vie de la donnée</h3>
<p>Les méthodes de détection basées sur de l’analyse comportementale nécessitent la collecte et le traitement de données sensibles/personnelles. Ainsi, particulièrement dans le cas où la solution est hébergée chez l’éditeur, les problématiques liées à l’usage des données devront être adressées au plus tôt. D’une part les exigences contractuelles de sécurité devront bien sûr être renforcées, et d’autre part il pourra être utile de faire appel en amont à des solutions permettant un traitement plus sécurisé du cycle de vie de la donnée.</p>
<p>Par exemple, des startups comme <a href="https://sarus.tech/">SARUS</a> travaillent sur <strong>le masquage des données personnelles</strong>, permettant aux <em>data scientists </em>d’effectuer du <em>Machine Learning</em> sans accéder aux données sources. Des startups comme <a href="https://hazy.com/">HAZY</a> travaillent elles sur la <strong>génération de données synthétiques</strong> gardant la valeur statistique des données utiles, mais perdant leur caractère sensible. Ce type de solution permet également d’agrandir artificiellement l’échantillon fourni, et d’obtenir une quantité quasiment illimitée de données, ce qui peut être très utile dans le cadre d’un PoC où les données actuellement disponibles sont en quantité limitées.</p>
<p>&nbsp;</p>
<h2>Une fois que la pertinence de la solution est validée, la partie ne fait que commencer !</h2>
<p>Au travers de nos différentes expériences, nous avons pu nous forger une conviction : <strong>le marché est assez mature pour fournir des résultats intéressants</strong>, notamment sur les quatre cas d’usages mentionnés ci-dessus. La mise en place de tels outils saura être efficace si les solutions sont connectées à un écosystème riche et qu’elles répondent à un besoin spécifique. En effet, <strong>la mise en place d’une même solution peut être une franche réussite ou un échec dans deux contextes différents</strong>. Le résultat dépendra notamment de la clarté du besoin, du périmètre visé, de l’expertise présente (Cybersécurité et <em>Data Science</em>), et encore de la disponibilité de la donnée (qualité et quantité).</p>
<p>Si le choix d’une solution de <em>Machine Learning</em> n’est pas simple, le meilleur moyen de se faire rapidement une idée est de réaliser un PoC pouvant être rapide et peu engageant : nous avons pu constater chez certains de nos clients que des solutions remontaient déjà des <strong>résultats intéressants après uniquement deux semaines de PoC</strong>.</p>
<p>Tout en gardant en tête que le PoC n’est que le début de l’aventure. Il résultera sur le lancement d’un <strong>projet de plusieurs mois </strong>passionnant (analyse de nouveaux types d’alertes, découvertes de nouvelles techniques…), apportant une <strong>réelle plus-value sécurité </strong>(détection de nouveaux évènements…), impulsant un <strong>nouveau souffle</strong> au sein des équipes opérationnelles de sécurité (priorisation des efforts, possibilité d’optimisation des tâches rébarbatives…).</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/09/machine-learning-pour-sa-cybersecurite-comment-se-retrouver-dans-la-jungle-des-produits/">MACHINE LEARNING POUR SA CYBERSECURITE : COMMENT SE RETROUVER DANS LA JUNGLE DES PRODUITS</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Hazy &#124; Shake&#8217;Up &#8211; Comment des données synthétiques auraient pu nous permettre de nous préparer à cette pandémie ?</title>
		<link>https://www.riskinsight-wavestone.com/2020/07/hazy-shakeup-comment-des-donnees-synthetiques-auraient-pu-nous-permettre-de-nous-preparer-a-cette-pandemie/</link>
		
		<dc:creator><![CDATA[Jennifer Riggins]]></dc:creator>
		<pubDate>Fri, 31 Jul 2020 13:00:26 +0000</pubDate>
				<category><![CDATA[Cloud & Next-Gen IT Security]]></category>
		<category><![CDATA[Cyber for Financial Services]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[Rubriques]]></category>
		<category><![CDATA[analyse de données]]></category>
		<category><![CDATA[Big Data]]></category>
		<category><![CDATA[Machine learning]]></category>
		<category><![CDATA[prédictions]]></category>
		<category><![CDATA[shake'up]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=14012</guid>

					<description><![CDATA[<p>Nous ouvrons désormais les contributions à ce blog aux start-ups accélérées par notre dispositif Shake’Up. Hazy est un générateur de données synthétiques, combinant confidentialité différentielle, et intégrité référentielle, proposant un support de base de données multi-tableaux et avec un déploiement...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/hazy-shakeup-comment-des-donnees-synthetiques-auraient-pu-nous-permettre-de-nous-preparer-a-cette-pandemie/">Hazy | Shake&rsquo;Up &#8211; Comment des données synthétiques auraient pu nous permettre de nous préparer à cette pandémie ?</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<figure></figure>
<p><em>Nous ouvrons désormais les contributions à ce blog aux start-ups accélérées par notre dispositif Shake’Up. Hazy est un générateur de données synthétiques, combinant confidentialité différentielle, et intégrité référentielle, proposant un support de base de données multi-tableaux et avec un déploiement possible sur des systèmes critiques.</em></p>
<p>&nbsp;</p>
<p><img decoding="async" class="size-full wp-image-14007 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Capture-1.png" alt="" width="898" height="254" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Capture-1.png 898w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Capture-1-437x124.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Capture-1-71x20.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Capture-1-768x217.png 768w" sizes="(max-width: 898px) 100vw, 898px" /></p>
<p>&nbsp;</p>
<p>Qu&rsquo;ont en commun les organisations tenant le choc de la crise sanitaire ? <strong>Des plans d&rsquo;urgence particulièrement efficaces.</strong></p>
<p>Pour ces quelques cas de réussite, cette planification a commencé par la prise en compte de l’aspect RH. PDG et directeur technique, en totale collaboration, se sont demandé : et si un de nos employés tombait malade, qui serait le suivant ? Que se passerait-il si plusieurs acteurs clés de l’entreprise étaient hospitalisés en même temps ? Ces entreprises ont créé une base comprenant l’ensemble des fournisseurs d&rsquo;accès à Internet et les régions associées, ils l’ont communiquée à tous les ingénieurs d&rsquo;astreinte et ont créé une chaîne de remplacement en cas de panne. Ces organisations ont veillé à ce que non seulement leurs systèmes internes et ceux destinés aux clients soient sauvegardés, mais aussi ceux de leur chaîne logistique.</p>
<p>Mais certains diraient que tout cela est une réaction, et non une planification, ou simplement de la chance. Après tout, chaque organisation et chaque industrie a ses propres obstacles à surmonter. Comment une entreprise pourrait-elle vraiment se préparer à l&rsquo;inconnu ?</p>
<p><strong>Comment une organisation pourrait-elle se préparer à une pandémie mondiale s&rsquo;il n&rsquo;y en a pas eu de cette ampleur depuis une centaine d&rsquo;années ?</strong></p>
<p>C&rsquo;est là que <strong>les données synthétiques</strong> offrent une opportunité intéressante d&rsquo;espérer le meilleur, mais de se préparer au pire. Les données synthétiques &#8211; qui sont des données très précises mais anonymes, et totalement artificielles &#8211; peuvent <strong>permettre à toute organisation de simuler des événements imprévus</strong> comme des pandémies et des catastrophes naturelles.</p>
<p>Les données synthétiques peuvent permettre de définir des plans d&rsquo;urgence, même pour les plus grands imprévus.</p>
<p>&nbsp;</p>
<h2>Qu&rsquo;est-ce que les données synthétiques et comment sont-elles utilisées ?</h2>
<figure id="post-13994 media-13994" class="align-none"><img decoding="async" class="size-full wp-image-13994 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Hazy-002.png" alt="" width="928" height="1120" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Hazy-002.png 928w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Hazy-002-158x191.png 158w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Hazy-002-32x39.png 32w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Hazy-002-768x927.png 768w" sizes="(max-width: 928px) 100vw, 928px" /></figure>
<p>Comme leur nom l&rsquo;indique, les données synthétiques sont totalement artificielles. Dans le cas de <a href="https://hazy.com/">Hazy</a>, les données synthétiques sont <strong>générées par des algorithmes de Machine Learning de pointe</strong>, qui offrent <strong>certaines garanties mathématiques</strong> d&rsquo;utilité et de confidentialité. Cela est essentiel car aucune donnée sur les clients n&rsquo;est réellement utilisée, alors que les courbes ou les modèles de leurs profils et comportements collectifs sont préservés.</p>
<p>C&rsquo;est incroyablement utile pour faire tomber les barrières à l&rsquo;innovation et aux essais. Cela permet d’obtenir toutes les informations nécessaires sur ses clients, leurs caractéristiques démographiques et leurs habitudes tout en réduisant considérablement le risque de réidentification. Il est ensuite possible de transférer facilement et en toute sécurité ces données synthétiques et ces informations entre différentes divisions, agences gouvernementales, entreprises et zones géographiques, avec la possibilité d’évaluer rapidement des partenaires tiers.</p>
<p>Comme les données synthétiques conservent à la fois leur valeur et leur conformité, <strong>leur potentiel est presque illimité</strong>. Elles peuvent être appliquées à la résolution de certains des plus grands problèmes du monde, de l&rsquo;intensification de la recherche et du traçage des pandémies internationales à un accès plus équitable aux services bancaires, en passant par la détection de la fraude et du blanchiment d&rsquo;argent à une échelle transfrontalière et inter-organisationnelle. Elle peut être utilisée pour faire tomber les frontières et optimiser la collaboration intergouvernementale, jusqu&rsquo;à présent entravée par des bases de données divergentes coincées derrière des murs réglementaires.</p>
<p>Les données synthétiques permettent aux organisations et aux gouvernements de <strong>surmonter les barrières géographiques et les obstacles liés aux ressources</strong>.</p>
<p>Ces données synthétiques peuvent même être appliquées à des événements qui n&rsquo;ont pas encore eu lieu.</p>
<p>Les principales organisations mondiales commencent à exploiter les données synthétiques pour élaborer <strong>des scénarios prédictifs</strong> <strong>afin de mieux répondre aux futures crises</strong> économiques, sanitaires, politiques et environnementales.</p>
<p>Il convient de noter que les données synthétiques ne sont pas aussi avancées et courantes que les autres outils d&rsquo;entreprise. Comme chaque organisation possède des ensembles de données très complexes et variés, il faut les transformer, les pré-traiter et les configurer pour les rendre accessibles aux modèles de <em>Machine Learning</em>. Cela signifie que si n&rsquo;importe qui dans une organisation peut bénéficier de données synthétiques, <strong>les <em>data scientists</em> doivent néanmoins être impliqués dans la préparation de ces données</strong>.</p>
<p>&nbsp;</p>
<h2>Des données synthétiques pour simuler des événements imprévus</h2>
<p>Les données synthétiques sont créées par des modèles de <em>Machine Learning</em> qui, d&rsquo;une certaine manière, peuvent être considérées comme des simulateurs du monde.</p>
<p>Les données synthétiques de Hazy sont déjà utilisées dans les grandes institutions financières pour permettre aux développeurs d&rsquo;applications de simuler des modèles de comportement réalistes de clients avant même que l’application n’ait d’utilisateurs. Ce sont les ingénieurs en <em>Machine Learning</em> qui peuvent le mieux modéliser ce genre de scénarios de la demande future.</p>
<p>Nos clients les plus innovants commencent à étendre les cas d&rsquo;utilisation de cette technologie d&rsquo;avant-garde à des événements pour la plupart imprévisibles.</p>
<p>Cette possibilité n&rsquo;a été rendue possible qu&rsquo;assez récemment grâce à la génération de <strong>données synthétiques conditionnelles</strong>, qui permet d&rsquo;explorer comment certaines relations dans un ensemble de données peuvent jouer avec d&rsquo;autres relations lorsque leurs effets sont amplifiés ou diminués.</p>
<p>En ce moment, cela est d’une importance majeure, notamment lorsqu’on évoque le sujet des <em>deepfakes</em>. Quelqu&rsquo;un pourrait demander à <strong>un générateur conditionnel</strong> de trouver des visages qui ont des cheveux roses, des lunettes et un piercing au nez. Maintenant, le générateur n&rsquo;a peut-être jamais vu quelqu&rsquo;un avec toutes ces caractéristiques combinées, mais il sait approximativement comment chacune de ces entités se combine logiquement à un niveau supérieur. Le modèle de Machine Learning a appris comment les entités de niveau inférieur se combinent pour construire des méta-entités &#8211; par exemple, il sait qu&rsquo;un nez a une relation assez prévisible avec les yeux et la bouche. Cela permet au générateur de prendre ce qu&rsquo;il sait et <strong>de combler avec précision les lacunes et de prédire</strong> à quoi ressembleraient ces <em>punks rockers</em>.</p>
<p>Cela fonctionne un peu différemment avec les données clients comme les données financières séquentielles, car ces tableaux comprennent souvent des milliers de colonnes et ont beaucoup de valeurs catégorielles &#8211; chaque colonne peut être considérée comme une dimension. Il est souvent plus difficile de déterminer comment les valeurs catégorielles d&rsquo;un tableau s&rsquo;imbriquent dans un ensemble de données que de travailler avec un ensemble de données composé des dimensions en pixels d&rsquo;un ensemble de données de visages humains.</p>
<p>Le point positif est que <strong>les banques ont incontestablement beaucoup de données avec lesquelles travailler</strong>. Elles ont également souvent accès à des ensembles de données supplémentaires, comme les mesures des actions, les taux d&rsquo;intérêt et les taux de change. Les interrelations entre les différents ensembles de données peuvent potentiellement être combinées pour mieux <strong>modéliser les relations et explorer des scénarios et des compromis</strong>. Grâce à ces modèles de <em>Machine Learning</em>, il est possible d’étudier le comportement d&rsquo;un produit financier lorsque vous avez une combinaison de taux d&rsquo;intérêt élevés et de faible chômage.</p>
<p>Bien que certains événements n’ont peut-être jamais eu lieu dans la vie réelle, les générateurs peuvent être utilisés pour e<strong>xtrapoler et remplir les blancs,</strong> puisqu’ils savent généralement comment certains événements évoluent ensemble.</p>
<p>Les compagnies d&rsquo;assurance vivent dans le monde du « si cela, alors ceci », mais une grande partie de leurs prévisions actuarielles sont basées sur des données passées. Que pouvez-vous faire si vous n&rsquo;avez pas de données parce que ces événements ne se sont pas encore produits ? <strong>Les données synthétiques sont un bon moyen de construire des scénarios prédictifs qui peuvent aider les organisations à évaluer correctement le risque d&rsquo;événements imprévus.</strong></p>
<p>Et cette boule de cristal ne doit pas seulement être appliquée aux événements qui changent le monde. Vous pouvez utiliser des générateurs de données synthétiques pour comprendre comment un nouveau marché réagirait à votre lancement d&rsquo;un nouveau produit.</p>
<p>Supposons que vous ayez un million de clients au Royaume-Uni et seulement 50 000 en France. Et vous connaissez la variabilité des revenus, les zones géographiques dans lesquelles ils vivent, ainsi que l&rsquo;âge, le revenu et le niveau d&rsquo;éducation de chaque client. Vous créez d&rsquo;abord des données synthétiques qui protègent toutes les informations personnelles identifiables dans deux régions géographiques distinctes. Le modèle apprend ensuite à la fois la manière prévisible dont le produit s&rsquo;est vendu au Royaume-Uni et il connaît les différences de comportement entre les deux pays. Ce modèle peut même apprendre à <strong>extrapoler</strong> intelligemment le comportement des consommateurs britanniques au comportement des consommateurs français afin de prédire la meilleure façon dont une expansion sur le marché français pourrait se dérouler. Ces aperçus disparates se transforment en un solide prédicteur pour atteindre des objectifs d’expansion internationale.</p>
<p>Ces résultats peuvent à nouveau être combinés avec d&rsquo;autres probabilités, comme la façon dont les clients ou les marchés locaux réagiront en fonction du nombre de points de chute de la bourse ou de l&rsquo;impact des températures estivales sur les ventes. Toutefois, si l’on souhaite prédire des événements très rares ou une combinaison d&rsquo;événements rares avec des données limitées, <strong>faire des prédictions reste très difficile sans disposer de suffisamment de données</strong> pour extrapoler de manière significative les tendances et les relations dans les données.</p>
<p>&nbsp;</p>
<h2>Le potentiel illimité des données synthétiques sécurisées</h2>
<p>Les données synthétiques sont <strong>le meilleur moyen de débloquer en toute sécurité le potentiel de l&rsquo;économie des données</strong>. Parce que les données synthétiques &#8211; en étant complètement artificielles &#8211; peuvent résoudre le problème essentiel de la vie privée, elles peuvent <strong>réduire considérablement les fuites de données et protéger les informations personnelles de vos clients</strong>, tout en conservant leur utilité.</p>
<p>Les données synthétiques deviennent le meilleur moyen pour les organisations multinationales de rester aussi compétitives, réactives et innovantes que les start-ups, car elles permettent de planifier l’avenir et ses capacités, en se basant sur l&rsquo;inconnu.</p>
<p>Parce que les grandes institutions financières disposent d&rsquo;une telle richesse de données, elles sont parfaitement positionnées pour tirer parti du potentiel unique des données et donc des données synthétiques. Les organisations peuvent désormais limiter la prise de risques en prévoyant des réponses pour un avenir imprévisible.</p>
<p>Le monde change rapidement. <strong>Votre entreprise doit être prête à y faire face.</strong></p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/hazy-shakeup-comment-des-donnees-synthetiques-auraient-pu-nous-permettre-de-nous-preparer-a-cette-pandemie/">Hazy | Shake&rsquo;Up &#8211; Comment des données synthétiques auraient pu nous permettre de nous préparer à cette pandémie ?</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Booster sa cybersécurité grâce à du Machine Learning ?  Partie 2 – « Oui, mais pas n’importe comment ! »</title>
		<link>https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-2-2/</link>
		
		<dc:creator><![CDATA[Carole Meyziat]]></dc:creator>
		<pubDate>Wed, 08 Jul 2020 12:00:56 +0000</pubDate>
				<category><![CDATA[Cloud & Next-Gen IT Security]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[analyse de données]]></category>
		<category><![CDATA[big data security]]></category>
		<category><![CDATA[data science]]></category>
		<category><![CDATA[Machine learning]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=13853</guid>

					<description><![CDATA[<p>Dans une première partie, nous avons présenté une démarche pas à pas de Machine Learning appliqué à la cybersécurité afin d’illustrer sa valeur et d’en comprendre le fonctionnement. Dans cette seconde partie, nous allons répondre à un certain nombre de...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-2-2/">Booster sa cybersécurité grâce à du Machine Learning ?  Partie 2 – « Oui, mais pas n’importe comment ! »</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Dans une <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/">première partie</a>, nous avons présenté une démarche pas à pas de <em>Machine Learning</em> appliqué à la cybersécurité afin d’illustrer sa valeur et d’en comprendre le fonctionnement. Dans cette seconde partie, nous allons répondre à un certain nombre de <strong>questions courantes</strong> que l’on peut se poser avant de se lancer dans de telles initiatives.</p>
<p>&nbsp;</p>
<h2>Je suis en mesure d’envoyer toutes mes données à un algorithme de <em>Machine Learning</em>, va-t-il m’en sortir de la valeur ?</h2>
<p>Non, absolument pas. #GarbageInGarbageOut</p>
<p>C’est même la meilleure manière d’être déçu par le <em>Machine Learning</em> ! Ce n’est pas un outil magique : si n’importe quoi lui est donné en entrée, il n’en sortira pas magiquement des résultats pertinents.</p>
<p>Il est non seulement nécessaire de définir précisément son cas d’usage avant de se lancer, mais également de choisir intelligemment les données qui vont nourrir le modèle.</p>
<p>&nbsp;</p>
<h2>Justement, quel cas d’usage choisir ?</h2>
<p>Le problème est pris à l’envers !</p>
<p>La question est plutôt de savoir si :</p>
<ul>
<li>Aujourd’hui, <strong>des cas d’usages vous posent problème </strong><em>(e.g. chronophages parce que les alertes levées nécessitent beaucoup de retraitement et finalement remontent beaucoup de faux positifs).</em></li>
<li><strong>Le <em>Machine Learning</em> pourrait permettre d’apporter des solutions</strong> à certains d’entre eux <em>(e.g. levée d’alerte sur un comportement « normal » plutôt que sur des seuils de détection fixes complexes à configurer et maintenir à jour).</em></li>
<li><strong>Et les solutions classiques </strong>pour y répondre<strong> semblent arrivées à la limite de leurs capacités</strong>. <em>#JeNeRéinventePasLaRoue</em></li>
</ul>
<p>En cybersécurité, devant un problème <strong>complexe à décrire explicitement</strong> (e.g. qu’est-ce qu’une communication suspecte ?) qui en plus a de fortes chances <strong>d’évoluer dans le temps</strong> (e.g. les seuils de détections sont constamment à ajuster), il est très difficile de trouver le bon compromis entre détection des cas suspects et faux positifs avec des règles statiques. Dans ce genre de situation il est intéressant d’explorer la piste du <em>Machine Learning</em>.</p>
<p>&nbsp;</p>
<h2>Qui mène le projet : l’équipe cyber ou l’équipe data ?</h2>
<p>Les deux et avec de nombreux échanges ! #OneTeam</p>
<p>Ces deux équipes ont des <strong>expertises différentes</strong>, technique pour les <em>data scientists</em>, métier pour l’équipe cybersécurité. L’une sans l’autre ne permet pas de conduire un projet de <em>Machine Learning</em> pour la cybersécurité correctement.</p>
<p>Sans <em>data scientists,</em> l’équipe cybersécurité risque par exemple de :</p>
<ul>
<li>Se lancer en ayant trop peu de données <em>(e.g. le volume de données ne permet pas à l’algorithme de définir une norme de comportement, il interprète donc des situations normales comme anormales).</em></li>
<li>Ne pas penser à combiner certaines données <em>(e.g. chaque première connexion d’un utilisateur à une nouvelle application remonte en anomalie parce qu’on ne lui a pas ajouté de variable lui permettant de comparer ce comportement à celui de la masse des utilisateurs (qui utilisent déjà l’application)).</em></li>
<li>Ne pas savoir interpréter les alertes remontées par l’algorithme, et <em>a fortiori</em> ne pouvoir l’optimiser <em>(e.g. l’algorithme remonte des anomalies qui n’en sont pas, l’équipe cybersécurité ne comprend pas sur quoi il base son analyse et ne sait donc pas les réorienter).</em></li>
</ul>
<p>Et sans l’équipe cybersécurité, les <em>data scientists</em> risquent de :</p>
<ul>
<li>Ne pas pouvoir évaluer si l’algorithme remonte des anomalies pertinentes (<em>e.g. l’algorithme remonte un log en anomalie mais les data scientists ne peuvent pas évaluer s’il s’agit d’un vrai problème de cybersécurité ou non).</em></li>
<li>Ne pas pouvoir sélectionner finement les données à communiquer à l’algorithme <em>(e.g. la cybersécurité a donné les logs de ses proxys aux data scientists mais n’a pas trié les champs les plus pertinents pour le cas d’usage : les résultats de l’algorithme sont confus).</em></li>
<li>Passer à côté d’éléments cruciaux à intégrer dans le calcul de l’algorithme pour répondre au besoin métier <em>(e.g. voulant optimiser un algorithme, un champ nécessaire à la catégorisation d’une anomalie de cybersécurité est supprimé du jeu de données, les résultats de l’algorithme perdent toute leur valeur cybersécurité).</em></li>
</ul>
<p><strong>Combiner</strong> <strong>les expertises de ces deux équipes est clé</strong> <strong>pour garantir que les ressources du <em>Machine Learning</em> seront utilisées efficacement pour apporter une réponse à haute valeur ajoutée pour la cybersécurité</strong>.</p>
<p>&nbsp;</p>
<h2>Quels sont les prérequis ?</h2>
<p>Les données !</p>
<p>Sans données, fin de l’histoire avant même qu’elle n’ait commencée.</p>
<p>Pour rappel, le <em>Machine Learning</em> est l’ensemble des techniques permettant aux machines d’apprendre, sans avoir été explicitement programmées pour. Et pour cela, nos algorithmes apprennent en se nourrissant de <strong>données</strong> que nous allons pouvoir leur fournir.</p>
<ul>
<li>Il les leur faudra <strong>en quantité</strong> pour qu’ils puissent tirer une « norme » la plus affutée possible, car définie et confrontée à des volumes importants de cas réels. A noter que « quantité » ne veut pas forcément dire « diversité » : il est important de sélectionner uniquement les données pertinentes pour le cas d’usage.</li>
<li>Il les leur faudra également en <strong>qualité</strong> pour ne pas tromper l’apprentissage de l’algorithme, n’introduisant pas de biais par exemple.</li>
</ul>
<p>Il sera donc nécessaire d’identifier les types de données intéressantes à analyser (e.g. logs de sécurité), les sources où elles seront collectées (e.g. proxy web) et les ressources qui permettront de les enrichir (e.g. CMDB pour faire le lien entre IP et nom de machine), si nécessaire.</p>
<p>&nbsp;</p>
<h2>J’ai peu de données disponibles pour mon cas d’usage, le <em>Machine Learning</em> n’est donc pas pour moi ?</h2>
<p>Pas forcément !</p>
<p>Si les données disponibles sont particulièrement pertinentes pour le cas d’usage à adresser et bien réparties (e.g. représentatives d’une situation habituelle sur une période de temps pour qu’un algorithme non supervisé puisse apprendre la situation « normale ») il est possible d’avoir des résultats intéressants.</p>
<p>A titre indicatif, avec un cas d’usage est bien défini (e.g. cible d’une population d’utilisateurs spécifique) et des logs adéquats collectés, des comportements suspects peuvent être détectés dans des logs proxy avec seulement deux semaines de trafic (suivant la verbosité des logs, cela ne représente que quelques centaines de Go).</p>
<p>&nbsp;</p>
<h2>Quel algorithme j’utilise ?</h2>
<p>En fait, « peu importe » !</p>
<p>L’élément déterminant qui permettra de répondre de manière plus ou moins adaptée à un cas d’usage est plutôt le type d’apprentissage : supervisé ou non.</p>
<p>Le choix d’un algorithme non supervisé plutôt qu’un autre a ensuite peu d’importance : il existe plusieurs algorithmes adaptés à un même cas d’usage, dont la performance dépendra plutôt du contexte (e.g. besoin d’interpréter les résultats, volume de données d’entrainement…).</p>
<p>Les <em>data scientists</em> orientent le choix sur la base de leur veille, pour proposer des algorithmes plus reconnus pour être performants sur un cas d’usage et dans un contexte défini.</p>
<p>&nbsp;</p>
<h2>Je fais moi-même ou je sous-traite ?</h2>
<p>Ça dépend, et ça peut évoluer dans le temps !</p>
<p>Notre premier article détaille un exemple d’implémentation : le développement avec ses propres outils, en partant de zéro. Mais dans les faits, trois possibilités d’implémentations sont possibles. Le choix dépend des cas d’usages envisagés, des ressources disponibles et de ses ambitions.</p>
<p>&nbsp;</p>
<figure id="post-13856 media-13856" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13856 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-3.png" alt="" width="1379" height="664" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-3.png 1379w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-3-397x191.png 397w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-3-71x34.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-3-768x370.png 768w" sizes="auto, (max-width: 1379px) 100vw, 1379px" /></figure>
<p>&nbsp;</p>
<p>Chacun de ses scénarios présente ses avantages et ses contraintes, et il est possible de les utiliser de concert. Par ailleurs, il est essentiel de resonder régulièrement le marché afin d’étudier si de nouvelles solutions innovantes et plus performantes ne sont pas apparues depuis le déploiement de la solution initiale.</p>
<p>#TakeAStepBack</p>
<p>&nbsp;</p>
<h2>Est-ce facile à tester ?</h2>
<p>Si le cadrage est bien fait, oui ! #Test&amp;Learn</p>
<p>Une fois le cas d’usage sélectionné, la disponibilité des données vérifiée et le choix d’une implémentation en fonction de son contexte faite, il est plutôt simple de réaliser un test de l’apport du <em>Machine Learning</em> avant d’investir davantage.</p>
<p>Ce type de projet <strong>se prête très bien à des démarches itératives ou par <em>sprints</em></strong>. Cela permet d’éprouver rapidement les solutions retenues et d’en démontrer la pertinence par la valeur apportée, ou au contraire mettre en évidence que pour ce cas d’usage les résultats ne sont pas suffisamment satisfaisants pour poursuivre.</p>
<p>Dans tous les cas, une démarche par <em>PoC</em> à la suite d’une étude d’opportunité permet de se faire rapidement une idée. Cette étape, avant de se lancer à grande échelle permet également de prendre de la hauteur pour évaluer les gains potentiels (e.g. gains de temps car moins de faux positifs à traiter, meilleure réactivité globale car les alertes levées sont plus pertinentes) par rapport aux investissements à réaliser (e.g. infrastructures de calcul spécifiques, compétences à recruter) avant de se lancer.</p>
<p>&nbsp;</p>
<h2>Une fois que j’ai fait mon PoC comment je passe à l’échelle ?</h2>
<p>Encore une fois, pas à pas !</p>
<p>Une fois les premiers résultats concluants obtenus sur un cas d’usage, il est possible d’envisager son passage en production. Attention toutefois à ne pas aller trop vite : le passage en production amène de nouvelles questions auxquelles il est nécessaire de répondre avant de poursuivre, par exemple :</p>
<ul>
<li>Quels volumes de données seront à analyser ? Quelles opérations de <em>pre-processing </em>(préparation des données) seront à réaliser ? A quelle fréquence ? (Temps réel, différé…)</li>
<li>A quelle fréquence l’algorithme devra-t-il refaire son apprentissage ? Sur quels volumes de données ?</li>
<li>Quelles infrastructures seront donc nécessaires ?</li>
<li>Quelles compétences et ressources permettront de maintenir la solution dans le temps ?</li>
</ul>
<p>Il sera alors le moment de prendre un pas de recul et de <strong>faire des choix opérationnels</strong>, en ayant en tête une vision long terme.</p>
<p>&nbsp;</p>
<h2>Combien ça coûte ?</h2>
<p>Tout dépend du stade de réflexion et de ses ambitions.</p>
<p>Pour un PoC, un cadrage permet de limiter l’investissement tant que l’apport du <em>Machine Learning</em> n’est pas démontré (e.g. activation d’une option sur un outil de sécurité le temps de tester, pas d’investissement en infrastructures).</p>
<p>Une fois la valeur ajoutée démontrée, se pose la question des coûts à engager pour la mise en production et le maintien dans le temps. Plusieurs éléments sont à considérer pour évaluer l’investissement total qui sera nécessaire :</p>
<ul>
<li><strong>Investissements matériels</strong> (e.g. boîtiers pour les solutions du marché, infrastructures et ressources pour gagner en puissance de calcul pour les développements internes) <strong>et logiciels </strong>(licences, activation des fonctionnalités Machine Learning sur les SIEM, outils de Big Data pour la data science…). Il est clé de ne pas négliger la puissance de calcul nécessaire au fonctionnement de certains modèles. C’est une raison en plus de la qualité des résultats pour cibler au maximum les données les plus pertinentes pour répondre à un cas d’usage.</li>
<li><strong>Acquisition des compétences </strong>: tant les nouveaux profils à intégrer (e.g. data scientists, data engineers) que les profils métiers et experts pertinents, qui seront sollicités non seulement en phase projet mais également dans la durée (traitement des alertes, réapprentissage, tests de non-déviation de la solution, etc.)</li>
</ul>
<p>&nbsp;</p>
<h2>En synthèse, quels sont les principaux pièges à éviter ?</h2>
<p>#Reminder</p>
<p>&nbsp;</p>
<figure id="post-13854 media-13854" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13854 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-4.png" alt="" width="1505" height="758" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-4.png 1505w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-4-379x191.png 379w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-4-71x36.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-4-768x387.png 768w" sizes="auto, (max-width: 1505px) 100vw, 1505px" /></figure>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-2-2/">Booster sa cybersécurité grâce à du Machine Learning ?  Partie 2 – « Oui, mais pas n’importe comment ! »</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Booster sa cybersécurité grâce à du Machine Learning ?  Partie 1 &#8211; « Absolument, voici comment! »</title>
		<link>https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/</link>
		
		<dc:creator><![CDATA[Carole Meyziat]]></dc:creator>
		<pubDate>Fri, 03 Jul 2020 12:00:17 +0000</pubDate>
				<category><![CDATA[Cloud & Next-Gen IT Security]]></category>
		<category><![CDATA[Cybersecurity & Digital Trust]]></category>
		<category><![CDATA[analyse de données]]></category>
		<category><![CDATA[DLP]]></category>
		<category><![CDATA[Machine learning]]></category>
		<guid isPermaLink="false">https://www.riskinsight-wavestone.com/?p=13770</guid>

					<description><![CDATA[<p>Aujourd’hui, nous entendons parler de l’intelligence artificielle (IA) partout, elle touche tous les secteurs… et la cybersécurité n’est pas en reste ! Selon un benchmark mondial publié par CapGemini à l’été 2019, 69% des organisations considèrent qu’elles ne seront bientôt plus capables de répondre à une cyberattaque sans...</p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/">Booster sa cybersécurité grâce à du Machine Learning ?  Partie 1 &#8211; « Absolument, voici comment! »</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><span data-contrast="none">Aujourd’hui</span><span data-contrast="none">,</span><span data-contrast="none"> </span><span data-contrast="none">nous entendons </span><span data-contrast="none">parler de l’intelligence artificielle</span><span data-contrast="none"> </span><span data-contrast="none">(IA) </span><span data-contrast="none">partout</span><span data-contrast="none">, elle touche tous les secteurs</span><span data-contrast="none">… e</span><span data-contrast="none">t la cybersécurité n’est pas en reste</span><span data-contrast="none"> !</span><span data-contrast="none"> Selon un benchmark mondial publié par </span><span data-contrast="none">CapGemini</span><span data-contrast="none"> </span><span data-contrast="none">à l’</span><span data-contrast="none">été 2019, 69% des organisations considèrent qu’elles ne seront bientôt plus capables de répondre à une cyberattaque sans IA. Le Gartner place </span><b><span data-contrast="none">l’IA appliquée à la cybersécurité</span></b><span data-contrast="none"> dans les </span><span data-contrast="none">10</span><span data-contrast="none"> </span><span data-contrast="none">tendances technologiques stratégiques majeures de 2020.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">N</span><span data-contrast="none">ous </span><span data-contrast="none">allons au travers de deux articles </span><span data-contrast="none">explorer les capacités </span><span data-contrast="none">de l’IA</span><span data-contrast="none">, en particulier celles du </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none">,</span><span data-contrast="none"> pour la cybersécurité</span><span data-contrast="none">. </span><span data-contrast="none">Dans ce premier article,</span><span data-contrast="none"> </span><span data-contrast="none">nous</span><span data-contrast="none"> </span><span data-contrast="none">allons parcourir </span><span data-contrast="none">pas à pas </span><span data-contrast="none">les étapes d’un projet de </span><span data-contrast="none">Machine Learning</span><span data-contrast="none"> focalisé sur un cas d’usage </span><span data-contrast="none">cybersécurité </span><span data-contrast="none">: </span><b><span data-contrast="none">l’exfiltration de données depuis le SI</span></b><span data-contrast="none">, sur un cas très simplifié</span><span data-contrast="none">. Nous </span><span data-contrast="none">en </span><span data-contrast="none">avons choisi un, mais les concepts de cet article sont applicables à tous les projets de </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> et peuvent être </span><span data-contrast="none">transposés à </span><span data-contrast="none">tout autre</span><span data-contrast="none"> </span><span data-contrast="none">cas d’usage, notamment cyber</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<h2 aria-level="2"><span data-contrast="none">Avant toute chose, de quoi parle-t-on ?</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Le terme </span><span data-contrast="none">d’</span><span data-contrast="none">I</span><span data-contrast="none">ntelligence </span><span data-contrast="none">Artificielle</span><span data-contrast="none"> </span><span data-contrast="none">(IA) </span><span data-contrast="none">regroupe toutes les techniques permettant aux machines de simuler l’intelligence.</span><span data-contrast="none"> </span><span data-contrast="none">Aujourd’hui t</span><span data-contrast="none">outefois</span><span data-contrast="none">, </span><span data-contrast="none">lorsqu’on </span><span data-contrast="none">parle d’IA on parle très souvent de </span><b><i><span data-contrast="none">Machine Learning</span></i></b><span data-contrast="none">, </span><span data-contrast="none">l’un de ses </span><span data-contrast="none">sous-domaine</span><span data-contrast="none">s</span><span data-contrast="none">. Il s’agit </span><span data-contrast="none">des </span><b><span data-contrast="none">techniques permettant aux machines d’apprendre</span></b><b><span data-contrast="none"> une tâche</span></b><b><span data-contrast="none">, sans </span></b><b><span data-contrast="none">avoir été</span></b><b><span data-contrast="none"> explicitement </span></b><b><span data-contrast="none">programmée</span></b><b><span data-contrast="none">s</span></b><b><span data-contrast="none"> pour</span></b><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Pour nous professionnels de la cybersécurité, c</span><span data-contrast="none">ela tombe bien : nous avons bien souvent du mal à décrire explicitement </span><span data-contrast="none">ce que nous voulons détecter</span><span data-contrast="none"> ! Le </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> </span><span data-contrast="none">nous offre</span><span data-contrast="none"> </span><span data-contrast="none">alors </span><span data-contrast="none">de </span><span data-contrast="none">nouvelles perspectives, avec déjà de nombreux cas d’application</span><span data-contrast="none">, dont les principaux sont ill</span><span data-contrast="none">ustrés ci-dessous:</span></p>
<p>&nbsp;</p>
<figure id="post-13849 media-13849" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13849 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2.png" alt="" width="1593" height="715" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2.png 1593w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2-426x191.png 426w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2-71x32.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2-768x345.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-0-2-1536x689.png 1536w" sizes="auto, (max-width: 1593px) 100vw, 1593px" /></figure>
<p>&nbsp;</p>
<h2><span data-contrast="none">L’</span><span data-contrast="none">exemple</span><span data-contrast="none"> d</span><span data-contrast="none">’un </span><span data-contrast="none">cas d’usage </span><span data-contrast="none">pour la </span><span data-contrast="none">cybersécurité ML-augmenté : l</span><span data-contrast="none">e</span><span data-contrast="none"> DLP</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Pour illustrer l’apport du </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> à la cybersécurité,</span><span data-contrast="none"> </span><span data-contrast="none">nous </span><span data-contrast="none">avons choisi de nous intéresser à l’extraction frauduleuse de données</span><span data-contrast="none"> de</span><span data-contrast="none">puis</span><span data-contrast="none"> </span><span data-contrast="none">le</span><span data-contrast="none"> </span><span data-contrast="none">système d’information</span><span data-contrast="none"> d’une entreprise</span><span data-contrast="none">. Autrement </span><span data-contrast="none">dit</span><span data-contrast="none">,</span><span data-contrast="none"> le cas du DLP (</span><i><span data-contrast="none">Data </span></i><i><span data-contrast="none">Leakage</span></i><i><span data-contrast="none"> Prevention</span></i><span data-contrast="none">)</span><span data-contrast="none">, </span><span data-contrast="none">problématique rencontrée par </span><span data-contrast="none">un grand nombre</span><span data-contrast="none"> d’entreprises.</span><span data-contrast="none"> </span><span data-contrast="none">Nous souhaitons détecter les communications suspectes vers l’extérieur afin de pouvoir les empêcher.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<figure id="post-13771 media-13771" class="align-none"></figure>
<figure id="post-13790 media-13790" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13790 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1.png" alt="" width="1701" height="412" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1.png 1701w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1-437x106.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1-71x17.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1-768x186.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-1-1-1536x372.png 1536w" sizes="auto, (max-width: 1701px) 100vw, 1701px" /></figure>
<p>&nbsp;</p>
<p><i><span data-contrast="none">« </span></i><i><span data-contrast="none">Très bien mais</span></i><i><span data-contrast="none">…</span></i><i><span data-contrast="none"> comment caractériser une communication suspecte</span></i><i><span data-contrast="none"> ?</span></i><i><span data-contrast="none"> »</span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Par des volumes échangés importants ? Par une destination étrange ? Par une heure de connexion inhabituelle ? </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">En réalité, n</span><span data-contrast="none">otre problème est </span><b><span data-contrast="none">complexe à </span></b><b><span data-contrast="none">expliciter</span></b><span data-contrast="none"> </span><span data-contrast="none">et</span><span data-contrast="none"> </span><span data-contrast="none">ce que nous devons évaluer </span><span data-contrast="none">a de </span><b><span data-contrast="none">fortes chances d’évoluer </span></b><b><span data-contrast="none">dans</span></b><b><span data-contrast="none"> le temps</span></b><span data-contrast="none">. </span><span data-contrast="none">C’est pourquoi, en utilisant uniquement des règles</span><span data-contrast="none"> de détection</span><span data-contrast="none"> statiques, </span><span data-contrast="none">no</span><span data-contrast="none">s équipes sécurité </span><span data-contrast="none">ont </span><span data-contrast="none">du mal à être exhaustives</span><span data-contrast="none">.</span><span data-contrast="none"> </span><span data-contrast="none">E</span><span data-contrast="none">lles peuvent jouer sur les seuils de ces règles</span><span data-contrast="none"> pour affiner</span><span data-contrast="none"> les éléments détectés</span><span data-contrast="none">, </span><span data-contrast="none">mais</span><span data-contrast="none"> </span><span data-contrast="none">se retrouvent </span><span data-contrast="none">malheureusement </span><span data-contrast="none">encore </span><span data-contrast="none">avec </span><span data-contrast="none">un nombre important de </span><span data-contrast="none">faux positifs</span><span data-contrast="none"> à traiter</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">On comprend que le </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> </span><span data-contrast="none">tel que nous l’avons défini </span><span data-contrast="none">précédemment</span><span data-contrast="none"> </span><span data-contrast="none">peut nous être utile ici.</span><span data-contrast="none"> Et si on essayait ?</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:2,&quot;335551620&quot;:2,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13773 media-13773" class="align-none"></figure>
<figure id="post-13792 media-13792" class="align-none"></figure>
<figure id="post-13818 media-13818" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13818 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2.png" alt="" width="1634" height="680" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2.png 1634w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2-437x182.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2-71x30.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2-768x320.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-2-2-1536x639.png 1536w" sizes="auto, (max-width: 1634px) 100vw, 1634px" /></figure>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<h2 aria-level="2"><span data-contrast="none">Etape 1 : Clarifier le besoin</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">C’est ce que nous ve</span><span data-contrast="none">n</span><span data-contrast="none">ons de </span><span data-contrast="none">faire !</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:2,&quot;335551620&quot;:2,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<h2 aria-level="2"><span data-contrast="none">Etape 2 : </span><span data-contrast="none">Choisir les données</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Quand </span><span data-contrast="none">on </span><span data-contrast="none">entend les mots</span><span data-contrast="none"> </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none">, il faut </span><span data-contrast="none">généralement comprendre</span><span data-contrast="none"> « données »</span><span data-contrast="none"> pour</span><span data-contrast="none"> </span><span data-contrast="none">alimenter</span><span data-contrast="none"> </span><span data-contrast="none">les</span><span data-contrast="none"> algorithme</span><span data-contrast="none">s. </span><b><span data-contrast="none">B</span></b><b><span data-contrast="none">eaucoup de données</span></b><b><span data-contrast="none">,</span></b><b><span data-contrast="none"> et </span></b><b><span data-contrast="none">de</span></b><b><span data-contrast="none"> qualité</span></b><span data-contrast="none"> !</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">En demandant où aller chercher des données utiles </span><span data-contrast="none">pour</span><span data-contrast="none"> notre cas d’exfiltration des données</span><span data-contrast="none"> </span><b><span data-contrast="none">à notre </span></b><b><span data-contrast="none">métier demandeur</span></b><span data-contrast="none"> (</span><span data-contrast="none">qui pour une fois est la </span><span data-contrast="none">cybersécurité !)</span><span data-contrast="none">, </span><span data-contrast="none">le </span><span data-contrast="none">proxy web </span><span data-contrast="none">ressort comme grand gagnant : </span><span data-contrast="none">il </span><span data-contrast="none">voit </span><span data-contrast="none">passer quasiment tout le trafic </span><span data-contrast="none">sortant </span><span data-contrast="none">du SI.</span><span data-contrast="none"> </span><span data-contrast="none">Nous récupérons donc </span><span data-contrast="none">ses </span><span data-contrast="none">logs,</span><span data-contrast="none"> ils </span><span data-contrast="none">ressemblent à ça</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:1,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13775 media-13775" class="align-none"></figure>
<figure id="post-13794 media-13794" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13794 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1.png" alt="" width="1669" height="443" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1.png 1669w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1-437x116.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1-71x19.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1-768x204.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-3-1-1536x408.png 1536w" sizes="auto, (max-width: 1669px) 100vw, 1669px" /></figure>
<p>&nbsp;</p>
<p><i><span data-contrast="none">« </span></i><i><span data-contrast="none">C</span></i><i><span data-contrast="none">a</span></i><i><span data-contrast="none"> m’a l’air bien compliqué tout ça… »</span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Les </span><i><span data-contrast="none">data scientists</span></i><span data-contrast="none"> ont </span><span data-contrast="none">en effet </span><span data-contrast="none">de quoi être perdus</span><span data-contrast="none"> :</span><span data-contrast="none"> </span><span data-contrast="none">d</span><span data-contrast="none">’une part l’ensemble est peu digeste, </span><span data-contrast="none">de l’autre</span><span data-contrast="none">, </span><span data-contrast="none">après consultation du métier-c</span><span data-contrast="none">ybersécurité, </span><b><span data-contrast="none">tou</span></b><b><span data-contrast="none">s les champs ne sont</span></b><b><span data-contrast="none"> pas vraiment utile</span></b><b><span data-contrast="none">s</span></b><span data-contrast="none"> </span><b><span data-contrast="none">pour notre cas d’usage</span></b><span data-contrast="none">.</span><span data-contrast="none"> </span><b><span data-contrast="none">Nous en sélectionnons donc</span></b><span data-contrast="none"> quelques-uns</span><span data-contrast="none"> avec </span><span data-contrast="none">lui </span><span data-contrast="none">avant de poursuivre.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<figure id="post-13777 media-13777" class="align-none"></figure>
<figure id="post-13796 media-13796" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13796 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1.png" alt="" width="1623" height="270" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1.png 1623w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1-437x73.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1-71x12.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1-768x128.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-4-1-1536x256.png 1536w" sizes="auto, (max-width: 1623px) 100vw, 1623px" /></figure>
<p>&nbsp;</p>
<p><span data-contrast="none">Le résultat </span><span data-contrast="none">est</span><span data-contrast="none"> plus exploitable par les </span><i><span data-contrast="none">data</span></i><i><span data-contrast="none"> </span></i><i><span data-contrast="none">scientists</span></i><span data-contrast="none"> !</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<h2 aria-level="2"><span data-contrast="none">Etape 3 : préparer les données</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Les</span><span data-contrast="none"> </span><i><span data-contrast="none">data</span></i><i><span data-contrast="none"> </span></i><i><span data-contrast="none">scientists</span></i><span data-contrast="none"> peuvent maintenant </span><span data-contrast="none">« </span><span data-contrast="none">explore</span><span data-contrast="none">r </span><span data-contrast="none">les données » </span><span data-contrast="none">afin de garantir </span><span data-contrast="none">un apprentissage optimal de l’algorithme. Ici, ils nous remontent un élément surprenant dans </span><span data-contrast="none">la répartition de nos requêtes suivant leur volume d’</span><i><span data-contrast="none">upload</span></i><span data-contrast="none">. Puisqu’on souhaite</span><span data-contrast="none"> </span><span data-contrast="none">détecter</span><span data-contrast="none"> </span><span data-contrast="none">d</span><span data-contrast="none">es exfiltrations de données, </span><span data-contrast="none">cette variable</span><span data-contrast="none"> nous intéresse </span><span data-contrast="none">en effet </span><span data-contrast="none">particulièrement</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13784 media-13784" class="align-none"></figure>
<figure id="post-13779 media-13779" class="align-none"></figure>
<figure id="post-13798 media-13798" class="align-none"></figure>
<figure id="post-13814 media-13814" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13814 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3.png" alt="" width="1770" height="657" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3.png 1770w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3-437x162.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3-71x26.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3-768x285.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-5-3-1536x570.png 1536w" sizes="auto, (max-width: 1770px) 100vw, 1770px" /></figure>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:2,&quot;335551620&quot;:2,&quot;335559685&quot;:-283,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">La valeur de notre variable n’est pas distribuée, nous avons même un très fort volume à 0.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><i><span data-contrast="none">« Mais, </span></i><i><span data-contrast="none">elles sont quand même nombreuses ces </span></i><i><span data-contrast="none">requêtes avec un </span></i><i><span data-contrast="none">volume d’</span></i><i><span data-contrast="none">upload</span></i><i><span data-contrast="none"> </span></i><i><span data-contrast="none">nul, </span></i><i><span data-contrast="none">est-ce que </span></i><i><span data-contrast="none">c’est vraiment pertinent de les garder</span></i><i><span data-contrast="none"> dans notre cas</span></i><i><span data-contrast="none"> ? ». </span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Effectivement</span><span data-contrast="none">, </span><span data-contrast="none">après discussion avec </span><span data-contrast="none">le métier-</span><span data-contrast="none">cybersécurité, il ressort que ces données n</span><span data-contrast="none">’apporte</span><span data-contrast="none">nt</span><span data-contrast="none"> pas </span><span data-contrast="none">grand-chose </span><span data-contrast="none">pour </span><span data-contrast="none">notre cas d’usage</span><span data-contrast="none">. </span><span data-contrast="none">Nous décidons donc de les retirer, notre jeu est alors distribué comme suit :</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<figure class="align-none"></figure>
<figure id="post-13781 media-13781" class="align-none"></figure>
<figure id="post-13816 media-13816" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13816 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3.png" alt="" width="1586" height="715" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3.png 1586w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-424x191.png 424w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-71x32.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-768x346.png 768w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-1536x692.png 1536w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-6-3-730x330.png 730w" sizes="auto, (max-width: 1586px) 100vw, 1586px" /></figure>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:2,&quot;335551620&quot;:2,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Après plusieurs aller</span><span data-contrast="none">s-</span><span data-contrast="none">retours</span><span data-contrast="none"> entre les </span><i><span data-contrast="none">data scientists</span></i><span data-contrast="none"> challengeant les données avec un point de vue statistique et </span><span data-contrast="none">les équipes </span><span data-contrast="none">cybersécurité</span><span data-contrast="none"> répondant avec leur œil métier, </span><span data-contrast="none">les données sont simplifiées au maximum</span><span data-contrast="none">. Elles sont</span><span data-contrast="none"> ensuite :</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<ul>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="none">Enrichies</span></b><b><span data-contrast="none"> </span></b><span data-contrast="none">en créant </span><span data-contrast="none">de nouvelles variables </span><span data-contrast="none">plus denses en information utile</span><span data-contrast="none">. </span><span data-contrast="none">Nous avons </span><span data-contrast="none">introduit un </span><b><span data-contrast="none">volume d’</span></b><b><i><span data-contrast="none">upload</span></i></b><b><span data-contrast="none"> relatif</span></b><span data-contrast="none"> vers chaque site, </span><span data-contrast="none">mesurant </span><span data-contrast="none">l’écart entre le volume d’</span><i><span data-contrast="none">upload</span></i><span data-contrast="none"> d’une requête et sa valeur moyenne observée sur les 90 derniers jours</span><span data-contrast="none">. Nous pourrions également ajouter </span><span data-contrast="none">la </span><b><span data-contrast="none">durée de connexion</span></b><span data-contrast="none"> </span><span data-contrast="none">par exemple</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:709,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="2" data-aria-level="1"><b><span data-contrast="none">Normalis</span></b><b><span data-contrast="none">ée</span></b><b><span data-contrast="none">s</span></b><span data-contrast="none"> en </span><span data-contrast="none">r</span><span data-contrast="none">édui</span><span data-contrast="none">sant</span><span data-contrast="none"> l’amplitude </span><span data-contrast="none">de chaque</span><span data-contrast="none"> </span><span data-contrast="none">variable</span><span data-contrast="none"> </span><span data-contrast="none">pour </span><span data-contrast="none">diminuer </span><span data-contrast="none">une sur ou sous-pondération de certaines variables</span><span data-contrast="none">.</span></li>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="2" data-aria-level="1"><b><span data-contrast="none">Numérisées</span></b><span data-contrast="none">, </span><span data-contrast="none">l</span><span data-contrast="none">a plupart des </span><span data-contrast="none">algorithme</span><span data-contrast="none">s</span><span data-contrast="none"> </span><span data-contrast="none">ne pouvant interpréter que des variables numériques</span><span data-contrast="none">. </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
</ul>
<p><span data-contrast="none">Nous pouvons maintenant </span><span data-contrast="none">séparer </span><span data-contrast="none">notre jeu de données </span><span data-contrast="none">en deux : </span><span data-contrast="none">un </span><b><span data-contrast="none">jeu</span></b><b><span data-contrast="none"> allant servir à l</span></b><b><span data-contrast="none">’entraînement</span></b><span data-contrast="none"> </span><span data-contrast="none">de notre modèle, </span><span data-contrast="none">un </span><b><span data-contrast="none">jeu qui nous permettra de tester</span></b><span data-contrast="none"> sa performance.</span><span data-contrast="none"> </span><span data-contrast="none">Plusieurs méthodes de séparation existe</span><span data-contrast="none">nt, permettant de conserver </span><span data-contrast="none">certaines caractéristiques des données (e.g. la saisonnalité), mais l’objectif reste le même : garantir une </span><span data-contrast="none">mesure d’</span><span data-contrast="none">évaluation </span><span data-contrast="none">au plus proche des performances réelles du modèle, en présentant au modèle des données qu’il n’a</span><span data-contrast="none"> pas</span><span data-contrast="none"> eu </span><span data-contrast="none">a</span><span data-contrast="none"> disposition durant l’entraînement.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<h2 aria-level="2"><span data-contrast="none">Etape 4 : </span><span data-contrast="none">Choisir l</span><span data-contrast="none">a méthode d’apprentissage</span><span data-contrast="none"> et entrainer le modèle</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Certains algorithmes sont plus performants </span><span data-contrast="none">que d’autres pour </span><span data-contrast="none">une</span><span data-contrast="none"> problématique</span><span data-contrast="none"> donnée</span><span data-contrast="none">, il convient donc </span><span data-contrast="none">de </span><span data-contrast="none">faire un choix raisonné.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Il existe deux </span><span data-contrast="none">principales </span><span data-contrast="none">catégories d’algorithmes de </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> : </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<ul>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><b><span data-contrast="none">Supervisés</span></b><span data-contrast="none">, lorsqu</span><span data-contrast="none">e </span><span data-contrast="none">l’on a des données labelisées comme référence</span><span data-contrast="none"> à donner en exemple à notre algorithme.</span><span data-contrast="none"> </span><span data-contrast="none">Ces a</span><span data-contrast="none">lgorithmes </span><span data-contrast="none">sont </span><span data-contrast="none">par exemple utilisés en cybersécurité par les solutions </span><i><span data-contrast="none">anti-spam</span></i><span data-contrast="none"> : ils peuvent apprendre </span><span data-contrast="none">via la classification </span><span data-contrast="none">des </span><i><span data-contrast="none">e</span></i><i><span data-contrast="none">mails</span></i><span data-contrast="none"> comme </span><i><span data-contrast="none">spam</span></i><span data-contrast="none"> </span><span data-contrast="none">par les utilisateurs</span><span data-contrast="none"> par exemple</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="2" data-aria-level="1"><b><span data-contrast="none">Non supervisé</span></b><b><span data-contrast="none">s</span></b><span data-contrast="none">, </span><span data-contrast="none">lorsque </span><span data-contrast="none">l’</span><span data-contrast="none">on </span><span data-contrast="none">ne </span><span data-contrast="none">sait </span><span data-contrast="none">pas </span><span data-contrast="none">précisément ce qu’on souhaite détecter</span><span data-contrast="none"> ou </span><span data-contrast="none">que l’on </span><span data-contrast="none">manque d’exemples à fournir à l’algorithme pour son apprentissage</span><span data-contrast="none"> (i.e. nous manquons données labélisées)</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
</ul>
<p><span data-contrast="none">Comme expliqué plus haut, </span><span data-contrast="none">le contexte de </span><span data-contrast="none">notre cas d’usage </span><span data-contrast="none">nous oriente </span><span data-contrast="none">plutôt </span><span data-contrast="none">vers la deuxième option.</span><span data-contrast="none"> </span><span data-contrast="none">C</span><span data-contrast="none">’est d’ailleurs pour </span><span data-contrast="none">les mêmes raisons</span><span data-contrast="none"> que nous avions initialement pensé au </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none">.</span><span data-contrast="none"> Nous choisissons ensuite notre algorithme </span><span data-contrast="none">d’apprentissage non supervisé</span><span data-contrast="none"> (</span><i><span data-contrast="none">Isolation Forest</span></i><span data-contrast="none"> </span><span data-contrast="none">ici, mais</span><span data-contrast="none"> nous aurions pu en choisir un autre</span><span data-contrast="none">)</span><span data-contrast="none"> et entrainons notre modèle</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>&nbsp;</p>
<h2 aria-level="2"><span data-contrast="none">Etape 5 : A</span><span data-contrast="none">nalyser les résultats</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559738&quot;:240,&quot;335559739&quot;:360,&quot;335559740&quot;:276}"> </span></h2>
<p><span data-contrast="none">Nous utilisons notre jeu de données de test</span><span data-contrast="none"> pour </span><span data-contrast="none">évaluer</span><span data-contrast="none"> l’efficacité de notre modèle pour détecter les cas d’exfiltration. </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Le modèle conçu permet de </span><span data-contrast="none">détecter des </span><i><span data-contrast="none">patterns</span></i><span data-contrast="none"> dans les données </span><span data-contrast="none">(requêtes)</span><span data-contrast="none">, pour ensuite </span><span data-contrast="none">comparer les </span><span data-contrast="none">nouvelles </span><span data-contrast="none">données</span><span data-contrast="none"> (requêtes) </span><span data-contrast="none">avec ce</span><span data-contrast="none">s </span><i><span data-contrast="none">patterns</span></i><span data-contrast="none"> </span><span data-contrast="none">et </span><b><span data-contrast="none">mettre en lumière celles qui s’éloigne</span></b><b><span data-contrast="none">nt</span></b><b><span data-contrast="none"> de ce qu’il considère comme la </span></b><b><span data-contrast="none">norme</span></b><b><span data-contrast="none"> </span></b><b><span data-contrast="none">de par</span></b><b><span data-contrast="none"> son apprentissage </span></b><b><span data-contrast="none">(score d’anomalie)</span></b><span data-contrast="none">. </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Voici nos résultats</span><span data-contrast="none"> </span><span data-contrast="none">: </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13802 media-13802" class="align-none"></figure>
<figure id="post-13824 media-13824" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13824 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1.png" alt="" width="971" height="421" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1.png 971w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1-437x189.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1-71x31.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-7-1-768x333.png 768w" sizes="auto, (max-width: 971px) 100vw, 971px" /></figure>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><i><span data-contrast="none">« Ok, mais comment j’interprète tout ça ? »</span></i><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Le graphique</span><span data-contrast="none"> à gauche</span><span data-contrast="none"> représente le</span><span data-contrast="none">s</span><span data-contrast="none"> score</span><span data-contrast="none">s</span><span data-contrast="none"> d’anomalie associé</span><span data-contrast="none">s</span><span data-contrast="none"> à chaque </span><span data-contrast="none">requête</span><span data-contrast="none"> du jeu de test, triés par ordre chronologique. A droite se trouve</span><span data-contrast="none">nt</span><span data-contrast="none"> les logs présentant le</span><span data-contrast="none">s</span><span data-contrast="none"> score</span><span data-contrast="none">s</span><span data-contrast="none"> d’anomalie le</span><span data-contrast="none">s</span><span data-contrast="none"> plus </span><span data-contrast="none">importan</span><span data-contrast="none">ts</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">Après investigation avec le métier</span><span data-contrast="none">-cybersécurité</span><span data-contrast="none"> </span><span data-contrast="none">:</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<ul>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="none">Le pic en jaune, correspond à un </span><b><i><span data-contrast="none">upload</span></i></b><b><span data-contrast="none"> de volume beaucoup plus important que les autres</span></b><span data-contrast="none">, d’un utilisateur qui extrait un large volume de données.</span><span data-contrast="none"> Cette anomalie est légitime</span><span data-contrast="none">. Toutefois, </span><span data-contrast="none">une alerte</span><span data-contrast="none"> </span><span data-contrast="none">sur la base d’une règle </span><span data-contrast="none">statique</span><span data-contrast="none"> sur le vol</span><span data-contrast="none">ume par requête aurait </span><span data-contrast="none">également </span><span data-contrast="none">permis de détecter cette communication suspecte</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
</ul>
<ul>
<li data-leveltext="/" data-font="Tempus Sans ITC" data-listid="4" aria-setsize="-1" data-aria-posinset="1" data-aria-level="1"><span data-contrast="none">Plus intéressant maintenant, l</span><span data-contrast="none">es pics en rouge, correspondent à des </span><b><span data-contrast="none">requêtes de faibles volumes d’</span></b><b><i><span data-contrast="none">upload</span></i></b><span data-contrast="none"> </span><b><span data-contrast="none">régulière</span></b><b><span data-contrast="none">s </span></b><b><span data-contrast="none">vers des sites inconnus depuis le même utilisateur</span></b><span data-contrast="none">. Ces anomalies sont plus difficile</span><span data-contrast="none">s</span><span data-contrast="none"> à détecter </span><span data-contrast="none">avec des moyens classiques</span><span data-contrast="none">, pourtant </span><b><span data-contrast="none">notre algorithme leur a attribué le même score d’anomalie que pour un large volume</span></b><span data-contrast="none">. Elle</span><span data-contrast="none">s</span><span data-contrast="none"> </span><span data-contrast="none">deviennent </span><span data-contrast="none">donc tout</span><span data-contrast="none"> </span><span data-contrast="none">aussi prioritaire</span><span data-contrast="none">s</span><span data-contrast="none"> à qualifier</span><span data-contrast="none"> pour nos équipes de gestion des alertes</span><span data-contrast="none"> </span><span data-contrast="none">de cybersécurité</span><span data-contrast="none">.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></li>
</ul>
<p><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<figure id="post-13826 media-13826" class="align-none"><img loading="lazy" decoding="async" class="size-full wp-image-13826 aligncenter" src="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1.png" alt="" width="947" height="412" srcset="https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1.png 947w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1-437x191.png 437w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1-71x31.png 71w, https://www.riskinsight-wavestone.com/wp-content/uploads/2020/07/Image-8-1-768x334.png 768w" sizes="auto, (max-width: 947px) 100vw, 947px" /></figure>
<figure id="post-13804 media-13804" class="align-none"></figure>
<p>&nbsp;</p>
<p><span data-contrast="none">Maintenant</span><span data-contrast="none">,</span><span data-contrast="none"> focalisons-nous sur le large paquet au centre du graphique</span><span data-contrast="none"> (en orange)</span><span data-contrast="none">.</span><span data-contrast="none"> </span><span data-contrast="none">Le premier jour, on observe un score d’anomalie</span><span data-contrast="none"> important</span><span data-contrast="none">, il s’agit d’un </span><b><span data-contrast="none">envoi soudain de données par de nombreux utilisateurs</span></b><b><span data-contrast="none"> </span></b><b><span data-contrast="none">vers le site </span></b><b><span data-contrast="none">web de transport en commun de la ville</span></b><span data-contrast="none">. Après investigation on se rend compte qu’il ne s’agit </span><b><span data-contrast="none">pas d’un vrai incident</span></b><b><span data-contrast="none"> de sécurité</span></b><span data-contrast="none">, mais de l’envoi annuel de justificatifs pour poursuite des abonnements </span><span data-contrast="none">de transport</span><span data-contrast="none"> </span><span data-contrast="none">(nous sommes début septembre…). </span><span data-contrast="none">On obs</span><span data-contrast="none">erve </span><span data-contrast="none">par la suite</span><span data-contrast="none"> que</span><span data-contrast="none"> </span><b><span data-contrast="none">l’algorithme « comprend » que ces flux reviennent </span></b><b><span data-contrast="none">chez plusieurs utilisateurs</span></b><b><span data-contrast="none"> </span></b><b><span data-contrast="none">et les intègr</span></b><b><span data-contrast="none">e </span></b><b><span data-contrast="none">progressivement </span></b><b><span data-contrast="none">comme une habitude. Le score de risques décroit donc jour après jour.</span></b><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276,&quot;335559991&quot;:284}"> </span></p>
<p><span data-contrast="none">L</span><span data-contrast="none">e modèle détecte </span><span data-contrast="none">donc </span><span data-contrast="none">ce qui sort de la norme, quelle que soit la norme et s’autocorrige avec l’expérience. </span><b><span data-contrast="none">C’est en cela que le </span></b><b><i><span data-contrast="none">Machine Learning</span></i></b><b><span data-contrast="none"> tient une vraie valeur ajoutée par rapport aux méthodes classiques de détection.</span></b><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:710,&quot;335559738&quot;:120,&quot;335559739&quot;:120,&quot;335559740&quot;:276,&quot;335559991&quot;:284}"> </span></p>
<p><span data-contrast="none">S</span><span data-contrast="none">i</span><span data-contrast="none"> la performance du modèle </span><span data-contrast="none">sur ce premier cas d’usage simplifié </span><span data-contrast="none">perm</span><span data-contrast="none">et d’a</span><span data-contrast="none">ttester de la valeur potentielle du Machine Learning</span><span data-contrast="none">, il peut être temps de passer à l’étape 6 – le déploiement</span><span data-contrast="none"> à l’échelle</span><span data-contrast="none"> ! </span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p><span data-contrast="none">D</span><span data-contrast="none">ans </span><span data-contrast="none">un second </span><span data-contrast="none">articl</span><span data-contrast="none">e nous reviendrons </span><span data-contrast="none">sur ces étapes </span><span data-contrast="none">pour mettre en </span><span data-contrast="none">lumière les facteurs de réussite et </span><span data-contrast="none">pièges à éviter lorsqu’on souhaite </span><span data-contrast="none">étudier </span><span data-contrast="none">les possibilités du </span><i><span data-contrast="none">Machine Learning</span></i><span data-contrast="none"> en cybersécurité.</span><span data-ccp-props="{&quot;201341983&quot;:0,&quot;335551550&quot;:6,&quot;335551620&quot;:6,&quot;335559685&quot;:284,&quot;335559739&quot;:120,&quot;335559740&quot;:276}"> </span></p>
<p>Cet article <a href="https://www.riskinsight-wavestone.com/2020/07/booster-sa-cybersecurite-grace-a-du-machine-learning%e2%80%af-1-2/">Booster sa cybersécurité grâce à du Machine Learning ?  Partie 1 &#8211; « Absolument, voici comment! »</a> est apparu en premier sur <a href="https://www.riskinsight-wavestone.com">RiskInsight</a>.</p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
