Clément Morizot, Auteur

Big data : comprendre la jungle technologique

Clément Morizot — Mon, 02 Nov 2015 12:49:03 +0000

Le Big data est né d’une rupture technologique : la distribution des traitements et du stockage. Là où, en 2012, ce concept était novateur, il devient une offre à part entière de la plupart des éditeurs du marché, créant ainsi une jungle technologique dans laquelle il faut savoir se repérer. On compte aujourd’hui plus d’une centaine de solutions packagées sous différentes formes.

NAVIGUER DANS LA DIVERSITÉ DE SOLUTIONS

Quelles solutions répondront aux besoins présents et futurs ?

Trouver la solution ou la combinaison de solutions techniques est une phase critique d’un projet Big data. Or quel que soit le secteur, il n’y a pas de solution Big data universelle.
Le porte-étendard technologique du Big data est Hadoop – un écosystème open source de distribution du stockage et des traitements sous l’égide de la fondation Apache. L’ensemble des grands éditeurs et constructeurs ont investi dans cette technologie. Toutefois, d’autres types de solutions sont toutes aussi légitimes suivant les usages. Ainsi, dans le cas où la rapidité d’exécution est recherchée, les technologies InMemory sont à privilégier en raison de leur capacité à stocker les données en mémoire et non sur disque. Le NoSQL (Not Only SQL) a quant à lui un avantage dans le monde « pseudo-transactionnel » où il sera un accélérateur dans le stockage et la manipulation de données hors d’une structure relationnelle. La variété des solutions implique une connaissance de l’écosystème technologique et ce dès la phase « test and try ».

En 2015, Hadoop possède plus d’une vingtaine de modules formant un socle riche. Ces modules sont créés au fur et à mesure par une importante, et dynamique, communauté d’acteurs et développeurs open source. Ils apportent constamment de nouvelles fonctionnalités tout en renforçant l’environnement existant.

Une illustration simple : historiquement Hadoop ne savait traiter que les données massives par des traitements de type batch. Face à ce constat, la communauté a enrichi l’écosystème par la création de modules de type Storm ou Spark permettant de traiter des données unitaires en temps réel et démocratisant encore plus l’usage de plateformes Hadoop.

Cette diversité de fonctions peut conduire à de mauvais choix et par conséquent certaines initiatives à l’échec. Pour tirer le maximum de valeur des données, il faut choisir les modules les plus adaptés aux traitements désirés et aux données manipulées. L’expertise et la connaissance fine sont le prérequis à la création de valeur en vue d’une industrialisation.

LE BIG DATA SOUS DIFFÉRENTES FORMES

Une fois la ou les solutions techniques choisies, il convient de définir le mode de distribution (même si certaines solutions peuvent imposer le leur). Quatre formes sont alors possibles :

1 – La distribution construite et gérée par la DSI

L’entreprise construit une infrastructure Big data en agrégeant ses infrastructures conventionnelles via l’intégration d’une distribution. Ce type de solution est principalement destiné aux entreprises ayant un besoin d’évolutivité et d’appropriation fort.

2 – L’« appliance » ou solution clé en main

Les grands éditeurs comme Oracle, Microsoft, IBM et les constructeurs proposent une infrastructure sur étagère où matériel et logiciels sont intégrés, préconfigurés et optimisés. Ce modèle a l’avantage d’une efficacité opérationnelle immédiate en contrepartie d’un coût d’investissement qui peut s’avérer élevé.

3 – La « plateforme as a Service » ou BDaaS

Cette formule connue basée sur le Cloud provisionne un environnement opérationnel et élastique comprenant l’ensemble des composants Big data pré configurés. L’intérêt de ces offres Cloud est le coût (à l’usage) et la rapidité de mise en place, qui en font une cible parfaite pour des usages de type POC afin de tester la valeur du Big data pour l’entreprise. En production, le gain sera plus limité du fait des contraintes liées à l’expatriation des données à l’extérieur de l’entreprise.

4 – Le « Software as a Service » ou SaaS

Le SaaS, une formule connue depuis l’arrivée du Cloud, permet la mise à disposition de services métiers sur le web. Le Big data donne un accélérateur à ce modèle en permettant la création de nouveaux services comme l’analyse des réseaux sociaux, l’e-réputation, le marketing ciblé… Ces services reposent sur des moteurs Big data néanmoins invisibles par les utilisateurs finaux.

Dans le secteur de l’Assurance, les 4 formules sont légitimes et dépendent réellement du souhait d’investissement et d’appropriation de la technologie. La complexité de ces solutions laisse à penser que le marché va tendre vers une externalisation des problématiques techniques favorisant les offres de type appliance ou Cloud.

Cet article Big data : comprendre la jungle technologique est apparu en premier sur RiskInsight.

Au menu du Big data, 3 formules : à intégrer, packagé ou dans le nuage

Clément Morizot — Wed, 26 Mar 2014 10:41:12 +0000

Dans un monde où les limites techniques du SI freinaient l’extension du business, le Big data promet de s’en affranchir et d’apporter plus de valeur au métier. De fait, il suscite un intérêt grandissant auprès de ces derniers mais aussi auprès des DSI ; qui commencent à étudier, expérimenter voire, pour les plus avancés, construire des offres Big data au sein de leurs systèmes d’information.

Néanmoins, choisir l’approche adéquate et investir sur une ou des solutions reste une étape complexe. Regardons de plus près le menu, et observons les différents types d’offres aujourd’hui disponibles et leur intérêt en fonction des usages.

Le Big data casse les limites traditionnelles : tout est dans la puissance du nombre

Traditionnellement, les architectures techniques sont construites à partir de serveurs « standalone». À gros besoins, gros serveurs. En d’autres termes, plus le besoin de puissance ou de stockage est important, plus les serveurs utilisés sont robustes. Mais, cette approche a une limite finie et ne permet pas de gérer les très grands ensembles de données.

Avec le Big data on change de paradigme : le concept clé des architectures Big data est la distribution ! On distribue les données et les traitements sur un nombre virtuellement infini de ressources. On exploite la puissance du nombre. C’est la clé pour casser les limites traditionnelles et accéder à une capacité de stockage et de traitement sans limites. L’ensemble des offres Big data repose sur ce principe.

Quelles sont les formules au menu du jour ?

La 1^ère formule s’appuie sur le Best Of breed. Il s’agit ici de faire du Big data en intégrant et capitalisant sur ses ressources IT. Comment ? L’entreprise se construit un environnement distribué en agrégeant ses infrastructures conventionnelles via l’intégration d’une distribution logicielle Big data (de type Hadoop par exemple). N’ayant pas d’investissement matériel, le coût d’investissement pour ce type d’offre reste raisonnable mais engage les entreprises à monter en compétence pour concevoir et mettre en place la nouvelle plateforme. Ce type de solution est principalement destiné aux entreprises avec un besoin d’évolutivité et d’appropriation fort. Les banques d’investissement en sont un excellent exemple par leur nécessité d’expérimentation permanente, qui les force à innover pour répondre aux enjeux métiers.

La seconde formule s’appuie sur les offres d’« Appliance Big data» : le vendeur va proposer à ses clients une infrastructure sur étagère où matériel et logiciels sont intégrés, pré-configurés et optimisés. C’est une boîte noire, mais l’architecture interne s’appuie sur la logique de distribution : elle encapsule des dizaines de petits serveurs. Ce modèle a le désavantage d’avoir un coût d’investissement élevé mais délivre une efficacité opérationnelle immédiate : il s’adresse principalement aux entreprises qui recherchent cette efficacité et qui sont en capacité de cadrer leurs besoins avec le vendeur.

La dernière offre est légitimement le Cloud. Pourquoi le Cloud ? Et bien parce qu’il est le plus à même de mettre à disposition des entreprises un nombre de ressources presque illimité. On distingue deux offres : celles de type « IaaS » où l’entreprise intégrera elle-même « sa distribution Big data » aux infrastructures louées dans le nuage. Mais, la tendance est plutôt au « BDaaS » (Big data as a Service) : le nuage provisionne un environnement Big data intégré, opérationnel et élastique. L’intérêt de ces offres Cloud est le coût (à l’usage) et la rapidité de mise en place, qui en fait une cible parfaite pour des usages de type POC afin de tester la valeur du Big data pour l’entreprise. Pour les prototypes opérationnels, des questions autour de la sécurité et des données peuvent se poser et les rendre moins attrayantes.

Au final, les socles d’exécution Big data sont bien là ! Le choix de l’un d’entre eux nécessite dans tous les cas une phase d’analyse des besoins et des enjeux afin de trouver l’optimum économique au regard des usages.

Cet article Au menu du Big data, 3 formules : à intégrer, packagé ou dans le nuage est apparu en premier sur RiskInsight.

Big data : comment intégrer les technologies de stockage ?

Clément Morizot — Tue, 26 Mar 2013 09:35:19 +0000

Les solutions Big data orientées stockage sont de plus en plus nombreuses et commencent à être déployées dans les entreprises. Tout le monde doit-il s’y intéresser ? Comment doit-on les intégrer ?

Quelles sont caractéristiques du Big data ?

Comme son nom l’indique, le Big data définit une catégorie de données. Elle est souvent résumée par les 3 « V » :

Volume : une quantité de données importante liée à la multiplication des données du client. Les données à manipuler sont de l’ordre de la dizaine de tera octets ;
Variété : différents types de données provenant de diverses sources (internes SI, externes comme les réseaux sociaux… Ces données vont du plus structuré (relationnel) au non structuré (fichiers, vidéo…) ;
Vélocité : une fréquence rapide à laquelle les données doivent être traitées et partagées, liée à la volonté de tendre vers un SI « temps réel ».

Comment savoir si l’on manipule des données Big data ?

C’est simple, c’est souvent lorsque l’une des couches du SI devient un facteur limitant lors du traitement de gros volume de données, que l’on comprend qu’il s’agit de Big data.

La couche stockage est l’un des premiers facteurs limitant et les problématiques associées sont les suivantes :

Performance : l’augmentation du volume à traiter entraîne une diminution des performances ;
Linéarité : l’outillage n’étant pas adapté aux gros volumes de données, le modèle de scalabilité n’est pas linéaire, l’ajout de stockage ne permettant pas d’améliorer les performances ;
Dynamisme : l’allocation d’espace est fixe avec une faible réactivité pour en ajouter ou en retirer.

Les solutions du marché reposent sur des implémentations propriétaires.

Les solutions Big data reposent sur un stockage basé sur le modèle de fichier distribué : des nœuds de stockage sont répartis physiquement sur le réseau mais vus par les applications comme un seul volume de stockage logique.

Ce modèle répond justement aux enjeux suivants, auparavant problématiques :

Performance : les données sont réparties sur plusieurs nœuds de stockage (stripping HADOOP HDFS) et ceux-ci se distribuent intelligemment la donnée afin de diminuer le trafic réseau (les données semblables sur un même nœud) et faciliter des traitements distribués (HADOOP map reduce)
Linéarité : le modèle distribué permet d’ajouter des nœuds de stockage sans limite et permet de retrouver une scalabilité linéaire ;
Dynamisme : l’ajout et la suppression de nœud de calcul peuvent se faire simplement et apportent une résilience (via la réplication automatique des données). Si un nœud de stockage tombe, le service est assuré sans arrêt et sans perte de données. On s’approche d’une perte de données « RPO » et d’un temps de reprise « RTO » nulle.

Les solutions du marché (IBM, EMC, etc.) répondent aux 3 « v » du Big data mais chacune suit son propre modèle d’implémentation du stockage distribué : Cluster File System, Parallel File System…. Chaque solution n’a donc pas les mêmes performances ou, capacité d’évolutivité suivant le besoin.

La qualification des données est la clé du stockage

C’est pour cela que lors de la mise en œuvre de ces types de solutions, une étude sur le stockage est nécessaire. Quelles sont mes données ? Quelle est la volumétrie (max, écart-type, moyenne) ? Quelle est leur croissance ? Quels types de traitements sont effectués ? Doivent-elles être centralisées ? Quel est le ratio de lecture / écriture ? …

Toutes ces réponses permettront de catégoriser les données, un entrant primordial à la qualification de la solution cible et à son optimisation. Ainsi l’optimisation des services de stockage Big data permettent à l’entreprise de maîtriser la variabilité et les performances. L’indexation devient plus facile, la taille des caches est optimisée et le stripping (fait de couper le fichier en plusieurs morceaux) est facilité afin de garantir un accès plus rapide à la donnée.

La mise en place d’une technologie stockage distribué est idéale dans les configurations de type grille de calcul : les nœuds de calcul échangent un grand nombre de données entre eux. À la place d’une configuration en étoile où tous les nœuds s’échangent directement des fichiers, chaque nœud utilise un même volume logique hébergé sur une infrastructure Big data. Les gains sont doubles : directement sur les temps de lecture / écriture des données partagées et la charge réseau (bien que plus concentrée sur un segment) et indirectement sur les temps de calculs de la grille. Les nœuds de la grille de calcul étant déchargés de leur fonction de distribution de fichiers vers les autres nœuds, les ressources sont exploitées au maximum par le calcul applicatif. L’applicatif est donc plus performant pour le business.

Les solutions de stockage Big data commencent à être adoptées par les entreprises, qui les utilisent sur leurs périmètres stratégiques pour en tirer des gains de performance là où les solutions standards étaient limitantes. L’intégration de ces solutions reste l’étape clé : l’étude des données est nécessaire pour choisir la bonne implémentation Big data, faciliter sa configuration et ainsi profiter pleinement des bénéfices annoncés.

Cet article Big data : comment intégrer les technologies de stockage ? est apparu en premier sur RiskInsight.