PRISM, une success story pour le Big data!

Cybersécurité et confiance numérique

Publié le

Depuis les révélations d’Edward Snowden, le programme PRISM de surveillance électronique de la NSA est au centre de questions déontologiques et idéologiques. Si nous mettons de côté ces aspects, ce programme et l’ensemble de ceux portés par la NSA se révèlent être une application plus que réussie du Big data… Au-delà des questions idéologiques, PRISM illustre ainsi pleinement les opportunités offertes par cette nouvelle technologie pour la surveillance sécurité.

 Les 3V1 du projet PRISM

Variété : appels téléphoniques, VoIP, conversations vidéo, e-mails, transferts de données, données de navigation sont quelques exemples parmi tant d’autres de données de particulier collectées par ces programmes. Souvent, seules les métadonnées sont recueillies : dans le cas d’un appel téléphonique, PRISM se contentera ainsi de savoir qui a contacté qui, de quel lieu, à quel moment et pendant combien de temps… avant approfondissement si besoin.

Volume : tous ces types de données sont rassemblés. De plus la NSA réalise des captures de trafic sur les câbles transatlantiques ou lors d’attaques ciblées. Au total IDC estime que ce sont 5 zettabytes (1012 GB) de données que le datacenter de la NSA sera capable de stocker en 2015, soit le double de la quantité totale de données mondiales existantes en 2012.

Vélocité : la NSA dispose des outils capables d’analyser en temps-réel ces données collectées, de réaliser des requêtes très fines pour interroger ses serveurs et croiser ces informations. Il est ainsi possible d’identifier en temps réel « qui a fait une requête avec tels mots clés dans une langue étrangère au lieu où il réside».

Quelles leçons pour les projets Big data ?

Si les moyens et le budget consacrés aux différents programmes par la NSA (5,6 milliards d’euros) ne sont aucunement comparables à ceux mobilisables par les entreprises, celles-ci peuvent certainement en retenir les proportions :

  • 45% du budget est consacré à la collecte des données
  • 30% aux traitements des données (partie logicielle)
  • 25% à l’analyse des données (partie humaine)

 

Par ailleurs, au-delà des aspects budgétaires, se pose la question des compétences : il est nécessaire de pouvoir mobiliser des data scientists à même d’identifier les données pertinentes à utiliser et de les faire parler. Et la NSA regorge depuis des années des spécialistes sur ces questions.

Enfin, ces programmes sont concentrés sur un seul et unique champ de données déterminé, celles relatives aux individus et à leurs communications quelle qu’en soit la forme. Chercher à étendre l’utilisation du Big data à l’ensemble des attributions d’une entreprise semble être un objectif très ambitieux et se concentrer sur un seul champ de données semble plus raisonnable, au moins dans un premier temps.

Le SIEM du futur ?

Face aux limites constatées des SIEM actuels qui peinent à corréler l’ensemble des données qui leur sont disponibles, les systèmes Big data pourraient s’avérer être une solution efficace permettant alors :

  • De corréler l’ensemble des traces du système d’information : logs applicatifs, DLP, historiques, …
  • D’intégrer les informations venues de l’extérieur : threat intelligence, …
  • De détecter en temps réel les signaux faibles encore trop souvent invisibles aujourd’hui.

 

Le Big data pourrait s’imposer comme un outil efficace face à la complexification des systèmes d’information, à l’intensification de la cybercriminalité et aux enjeux croissants de sécurité. Mais attention tout ceci ne doit pas faire oublier que la NSA a oublié d’appliquer tous ces principes en interne, en effet la fuite de données majeures réalisée par Edward Snowden n’a pas été détecté…

Reste maintenant à se confronter à l’ensemble des contraintes légales, éthiques et techniques inhérentes au Big data qui, pour certaines d’entre elles, n’ont, semble-t-il pas constitué un point de préoccupation pour la NSA …


1 Une technologie est généralement catégorisée Big data si elle respecte la définition de Gartner des 3V : Volume car les quantités de données à traiter se comptent parfois en petabytes (106 GB) ou exabytes (109 GB), Variété car les données proviennent de sources très différentes et peuvent être structurées ou non, et Vélocité car la création de données se fait à très haute fréquence et que leur traitement doit suivre cette cadence.