Matthieu Millet, Auteur

Comment faire face à l’émergence du phénomène Big Data ?

Matthieu Millet — Fri, 10 Feb 2012 07:00:07 +0000

[Article rédigé en collaboration avec Mathieu Millet]

LGA (Lise Gasnier) : Le Big Data a une dimension “métier” évidente : pour les entreprises, le défi est d’identifier les opportunités de business offertes par leurs gisements de données. Déjà, des “business cases” montrent la faisabilité et l’intérêt d’exploiter des données jusqu’alors “non valorisées”. Il devient possible d’en extraire une information utile pour mieux connaître sa clientèle, optimiser son marketing, détecter et prévenir des fraudes, analyser son image sur les réseaux sociaux et la valoriser, optimiser ses processus…

En s’inspirant des initiatives innovantes de leurs secteurs, les entreprises pourraient initier la réflexion “Big Data” autour de 2 questions basiques :

De quelles informations avons-nous besoin pour accroître notre efficacité et innover ?
Quelles sont les données sous ou inexploitées à notre disposition?

Le Big data invite les métiers à plus de liberté, plus d’audace dans leurs réponses.

Dans ce domaine comme dans les autres, répondre à la première question et exprimer des besoins précis prend du temps. C’est, de plus, une question à poser en continu. D’évidence, les objectifs métiers exigeront de produire sans cesse de nouvelles analyses, sur des données déjà traitées (donc les “ré-analyser”) ou non, avec des sources et formats inédits.

Pour répondre à la seconde question, les métiers doivent connaître les sources de données à leur disposition et savoir interpréter les données brutes, pour en saisir la pertinence et en extraire l’information utile. Sur ce terrain technique, il est évidemment souhaitable que la DSI les accompagne. Elle doit par conséquent démontrer sa maîtrise des données du SI, au-delà de la “zone de confiance” des données gérées dans les systèmes de base de données traditionnels de l’entreprise.

MMI (Mathieu Millet) : Pour la DSI, tout l’enjeu va donc être de pouvoir traiter la volumétrie et l’hétérogénéité des données pour ouvrir le champ des possibles aux métiers. Pour anticiper des besoins que les métiers ne savent pas exprimer aujourd’hui, elle doit se doter d’une architecture permettant d’emblée de collecter, stocker et analyser “plus” et “plus varié”. C’est bien d’une architecture agile que les métiers ont besoin.

Une approche initiale serait d’imaginer ce que serait son système Big Data en proposant quelques cas d’usage sur un « échantillon » représentatif de données, à la fois structurées (comme celle que l’on trouve dans les entrepôts de données) et semi-/non-structurées (logs d’applications, messages sur les réseaux sociaux, documents bureautiques, utilisation des données issues de l’Open Data…). Cette “promotion” du service permettrait ainsi à la DSI de présenter aux métiers la valeur ajoutée de ces données et d’anticiper un changement profond de son infrastructure. Nous l’avons vu : les technologies sous-jacentes sont innovantes et pointues. La DSI a tout intérêt à emprunter la pente douce de sa montée en compétence sur le “Big Data” ; surtout que les compétences sur le marché sont peu nombreuses et qu’aujourd’hui, une prise en main technologique est nécessaire.

L’autre axe de travail serait d’initier un dialogue avec les métiers pour mettre en commun leurs données, historiquement réparties et cloisonnées, dont la duplication entre différentes applications sera de facto très difficilement réalisable.

LGA : Quelle que soit l’hypothèse de travail, il sera évidemment nécessaire d’établir un dialogue constructif entre les métiers et la DSI afin d’assurer la réussite d’un tel projet d’envergure.

Quel est le paysage technologique du Big Data ?

Matthieu Millet — Fri, 03 Feb 2012 09:26:04 +0000

[Article rédigé en collaboration avec Lise Gasnier]

MMI (Mathieu Millet) : Le premier élément structurant dans le contexte Big Data est le socle de “stockage” des données.

L’approche historique est celle des offres de DatawareHouse, qui ont évolué, sous forme d’appliance notamment, pour supporter de plus grandes quantités de données et faire porter par le « stockage » une capacité de traitement étendue (principe de PushDown). On retrouve les offres de fournisseurs tels que TeraData (leader historique sur le marché), Oracle avec ExaData, IBM/Netezza/Informix ou encore, EMC/Greenplum ou HP/Vertica.

Ces solutions ont toutes en commun un modèle de données fortement structuré (type, table, schéma, …) et le langage de requête SQL.

L’approche en rupture est celle proposée par Google, avec la publication de son Livre Blanc Big Table. Cette approche consiste en 2 grands principes. Tout d’abord, il s’agit de reprendre les principes de scalabilité (horizontale) des clusters de calcul scientifique (HPC).Puis, on peut se permettre de s’affranchir de certaines contraintes inhérentes à un usage transactionnel des bases de données relationnelles traditionnelles, et qui ne sont plus strictement nécessaires pour les usages analytiques, telles que les principes d’ACIDité (Atomicité, Cohérence, Isolation et Durabilité), le langage SQL (Not-Only SQL, NoSQL) et la contrainte de Cohérence (immédiate) du théorème CAP[1] de Brewer .

Cependant, pour simplifier la mise en œuvre d’une telle solution et rendre l’infrastructure simple, scalable (à plusieurs centaines de nœuds), avec du matériel à bas coût (donc sans inclure de réseau faible latence, type InfiniBand ou même sans réseau de stockage spécifique), le framework de “gestion” d’un tel cluster est obligé de contraindre fortement l’organisation et la manière de développer. Les principes de Map Reduce[2] (toujours décrits dans le Libre Blanc de Google) répondent à ces contraintes.

La solution la plus emblématique de cette approche est Hadoop et son écosystème. Développé initialement par Yahoo, maintenant supporté par la fondation Apache, Hadoop implémente un système de Fichiers massivement Distribués (HDFS) et un moteur Map Reduce. Hadoop est épaulé par tout un écosystème afin d’étendre son champ fonctionnel, avec par exemple HBase (base de données de type NoSQL) ou encore Hive (entrepôt de données disposant d’un langage de requêtage à la SQL).

Hadoop a tellement le vent en poupe que presque tous les acteurs du DatawareHouse (Oracle, Microsoft, IBM, Teradata,…) ou de l’analytique (SAS, R, Micro Strategy, …) ont maintenant annoncé des solutions autour de ce nouvel écosystème.

LGA (Lise Gasnier) : La finalité du stockage est d’extraire l’information utile des données. L’analyse est naturellement l’autre volet majeur du paysage technologique du Big data.

Dans ce domaine, l’innovation porte sur l’intégration des solutions d’analyse à celles de stockage pour éviter les mouvements des données. Mathieu a cité Hive pour sa compatibilité avec Hadoop. Citons également Greenplum un dérivé de Postgres qui repose sur une architecture distribuée sur un cluster de machines. Cette tendance à l’interaction se traduit aussi par le rapprochement d’acteurs issus des deux mondes: Revolution Analytics (BI) et IBM Netezza,par exemple, sont partenaires depuis début 2011.

Une approche banalisée de ce rapprochement entre traitements et données est celle des grilles de données tels que Oracle Coherence, Terracotta ou Gigaspaces XAP. Elles offrent la capacité de distribuer les données sur des nœuds de calcul. Elles se trouvent donc à la jonction entre clusters de traitements distribués et bases de données mémoire.

Ces dernières, en économisant les accès aux disques, permettent d’utiliser des approches analytiques classiques tout en garantissant les performances à mesure que la complexité des requêtes et leur volume évolue. Même si les produits (comme les appliances analytiques SAP HANA et Kognitio WX2) ne sont pas en mesure, aujourd’hui, de gérer les pétaoctets du Big Data, il faudra être attentif à l’innovation sur ce marché en croissance car on observe une convergence de différentes technologies au sein des solutions proposées par les éditeurs.

Toujours sur le plan de l’analyse, on assiste à la diffusion et à l’outillage des techniques analytiques, notamment par le recours à des méthodes issues de l’intelligence artificielle de type Machine Learning et Natural Language Processing.

Le Big data met aussi l’accent sur l’importance de restituer efficacement les résultats d’analyse et d’accroître l’interactivité entre utilisateurs et données. Ainsi, des produits comme Tableau (de Tableau Software) proposent des visualisations graphiques innovantes.

MMI : Enfin, pour pouvoir analyser ces données que l’on aura stockées, il ne faut pas oublier le processus d’acquisition et de chargement de ces mêmes données.

[1] Le théorème CAP explique que pour un système réparti (tel qu’une base de données répartie sur plusieurs ordinateurs), il n’est pas possible d’assurer simultanément : Cohérence, Disponibilité (Availability), résistance au Partitionnement (Partition Tolerence).

[2] L’approche MapReduce consiste à réaliser les différents traitements selon 2 tâches (qui peuvent se répéter) :

Une fonction Map, massivement distribuable sur différents noeuds de calcul, qui associe un “couple (clef, valeur)” en entrée et un (ou plusieurs) “couple(s) (clef,valeur)” en sortie. La fonction Map ne traitant qu’un unique couple “à la fois”, il n’y a pas de problème de distribution des traitements.
Une fonction Reduce, qui regroupe toutes les réponses et les rassemble en une liste unique de valeur, pour finaliser le traitement..

Qu’est-ce que le Big Data ?

Matthieu Millet — Mon, 30 Jan 2012 08:39:46 +0000

[Article rédigé en collaboration avec Mathieu Millet]

LGA (Lise Gasnier) : C’est le big buzz de 2011 qui ne manquera pas de faire du bruit cette année encore! Il désigne les ensembles de données aux volumétrie et complexité telles qu’il faut repenser les moyens de leur gestion. Le volume de ces données se mesure désormais en pétaoctets (10¹⁵ octets). Et, par complexité, nous entendons une ou plusieurs caractéristiques parmi lesquelles :

croissance rapide et soutenue,
formats hétérogènes,
peu ou pas de structuration (comme par exemple pour les images, vidéos, pages web et emails),
des sources variées.

Les Big data sont par exemple des :

données transactionnelles (commandes, paiements etc.).
logs,
clickstreams,
événements géolocalisés,
contenus de réseaux sociaux,
données comportementales,
relevés de compteurs intelligents,
appels au service client.

Par extension, le terme désigne, au-delà des données, les moyens humains ou technologiques extraordinaires mis en œuvre pour les traiter.

MMI (Mathieu Millet) : L’ensemble de la chaîne de traitement technique de ces données se voit remaniée : capture, stockage, analyse et transformation en informations pertinentes et enfin, restitution.

Processus métiers et finalité des traitements n’ont rien de nouveau (pilotage opérationnel, aide à la décision, analyse clientèle et comportementale, optimisation de processus…). Par contre, le volume, la nature et le rythme d’acquisition en données, décrit par Lise, tout comme la volonté d’accélérer ces traitements provoquent un vrai changement de paradigmes technologiques et organisationnels.

Ainsi, certaines pratiques ne sont plus envisageables comme la recopie intégrale de données entre différentes applications susceptibles d’utiliser ces données. Également, de nouvelles pratiques sont à employer afin de tirer parti de l’écosystème Big Data ; par exemple : mettre en œuvre une plus grande coopération/interaction entre les solutions d’analyse et l’entrepôt de stockage afin de bénéficier des performances (I/O mais également CPU) de ce dernier.

LGA : La problématique de gestion des gros volumes de données ne date pas d’hier. Depuis bientôt dix ans, elle est même centrale aux métiers de la recherche scientifique, de la finance et de l’indexation web. Mais, la conjoncture actuelle en a fait un sujet de tout premier plan :

La production de données augmente drastiquement, par l’action des individus tout autant que celles des organisations. Ainsi, les analystes d’IDC relèvent que le volume du contenu numérique mondial a atteint 2.7 zettaoctets (soit 2.7*10²¹ octets), avec une augmentation de 48% en 2011. Ils estiment par ailleurs, qu’en 2012, 90% de l’information sera sans structure (voir le rapport complet gratuitement à cet endroit : http://www.idc.com/getdoc.jsp?containerId=231720).
Des solutions techniques ont émergé, dont certaines libres, comme la plus emblématique : Hadoop et son écosystème (que nous évoquerons plus en détail dans un prochain article). Elles rendent possible et accessible la refonte technologique nécessaire, évoquée par Mathieu.

Les entreprises réfléchissent donc aujourd’hui, tous secteurs confondus, à tirer un avantage concurrentiel de leurs gisements de données ou de ceux publics (web, open data). Des premiers “business cases” (optimisation du marketing numérique, détection et prévention des fraudes, analyse des réseaux sociaux et des relations…) démontrent déjà que de nouveaux indicateurs, de nouveaux leviers de valeurs sont à portée de main. Mais, les questions demeurent nombreuses : il faut définir précisément les besoins et cadrer les transformations stratégiques, organisationnelles, techniques et légales de ce “passage à l’échelle”. D’où le buzz, qu’alimentent par ailleurs les acteurs du paysage technologique!