Big data : comprendre la jungle technologique

Le Big data est né d’une rupture technologique : la distribution des traitements et du stockage. Là où, en 2012, ce concept était novateur, il devient une offre à part entière de la plupart des éditeurs du marché, créant ainsi une jungle technologique dans laquelle il faut savoir se repérer. On compte aujourd’hui plus d’une centaine de solutions packagées sous différentes formes.

 

 

NAVIGUER DANS LA DIVERSITÉ DE SOLUTIONS

Quelles solutions répondront aux besoins présents et futurs ?

Trouver la solution ou la combinaison de solutions techniques est une phase critique d’un projet Big data. Or quel que soit le secteur, il n’y a pas de solution Big data universelle.
Le porte-étendard technologique du Big data est Hadoop – un écosystème open source de distribution du stockage et des traitements sous l’égide de la fondation Apache. L’ensemble des grands éditeurs et constructeurs ont investi dans cette technologie. Toutefois, d’autres types de solutions sont toutes aussi légitimes suivant les usages. Ainsi, dans le cas où la rapidité d’exécution est recherchée, les technologies InMemory sont à privilégier en raison de leur capacité à stocker les données en mémoire et non sur disque. Le NoSQL (Not Only SQL) a quant à lui un avantage dans le monde « pseudo-transactionnel » où il sera un accélérateur dans le stockage et la manipulation de données hors d’une structure relationnelle. La variété des solutions implique une connaissance de l’écosystème technologique et ce dès la phase « test and try ».

En 2015, Hadoop possède plus d’une vingtaine de modules formant un socle riche. Ces modules sont créés au fur et à mesure par une importante, et dynamique, communauté d’acteurs et développeurs open source. Ils apportent constamment de nouvelles fonctionnalités tout en renforçant l’environnement existant.

Une illustration simple : historiquement Hadoop ne savait traiter que les données massives par des traitements de type batch. Face à ce constat, la communauté a enrichi l’écosystème par la création de modules de type Storm ou Spark permettant de traiter des données unitaires en temps réel et démocratisant encore plus l’usage de plateformes Hadoop.

Cette diversité de fonctions peut conduire à de mauvais choix et par conséquent certaines initiatives à l’échec. Pour tirer le maximum de valeur des données, il faut choisir les modules les plus adaptés aux traitements désirés et aux données manipulées. L’expertise et la connaissance fine sont le prérequis à la création de valeur en vue d’une industrialisation.

LE BIG DATA SOUS DIFFÉRENTES FORMES

Une fois la ou les solutions techniques choisies, il convient de définir le mode de distribution (même si certaines solutions  peuvent imposer le leur). Quatre formes sont alors possibles :

1 – La distribution construite et gérée par la DSI

L’entreprise construit une infrastructure Big data en agrégeant ses infrastructures conventionnelles via l’intégration d’une distribution. Ce type de solution est principalement destiné aux entreprises ayant un besoin d’évolutivité et d’appropriation fort.

2 – L’« appliance » ou solution clé en main

Les grands éditeurs comme Oracle, Microsoft, IBM et les constructeurs proposent une infrastructure sur étagère où matériel et logiciels sont intégrés, préconfigurés et optimisés. Ce modèle a l’avantage d’une efficacité opérationnelle immédiate en contrepartie d’un coût d’investissement qui peut s’avérer élevé.

3 – La « plateforme as a Service » ou BDaaS

Cette formule connue basée sur le Cloud provisionne un environnement opérationnel et élastique comprenant l’ensemble des composants Big data pré configurés. L’intérêt de ces offres Cloud est le coût (à l’usage) et la rapidité de mise en place, qui en font une cible parfaite pour des usages de type POC afin de tester la valeur du Big data pour l’entreprise. En production, le gain sera plus limité du fait des contraintes liées à l’expatriation des données à l’extérieur de l’entreprise.

4 – Le « Software as a Service » ou SaaS

Le SaaS, une formule connue depuis l’arrivée du Cloud, permet la mise à disposition de services métiers sur le web. Le Big data donne un accélérateur à ce modèle en permettant la création de nouveaux services comme l’analyse des réseaux sociaux, l’e-réputation, le marketing ciblé… Ces services reposent sur des moteurs Big data néanmoins invisibles par les utilisateurs finaux.

Dans le secteur de l’Assurance, les 4 formules sont légitimes et dépendent réellement du souhait d’investissement et d’appropriation de la technologie. La complexité de ces solutions laisse à penser que le marché va tendre vers une externalisation des problématiques techniques favorisant les offres de type appliance ou Cloud.

 

 

Back to top