Aux origines du Big data…

Métiers - Stratégie & projets IT

Publié le

Comme nous l’avions vu dans un précédent article, derrière le Big data se cache un bon nombre d’idées : l’explosion des données (volume, variété et vélocité), la potentialité de valeur que l’on peut en tirer, sans oublier bien sûr les technologies pour les traiter.  Pour comprendre ces concepts et imaginer leurs développements futurs, il est indispensable d’en connaître l’origine et l’évolution. Revenons brièvement sur la petite histoire – à forts rebondissements – du Big data.

De l’explosion des données au Big data

L’expression de « petite histoire du Big data », nous l’empruntons (presque) à Gil Press. Il livre en effet dans un long article documenté sur Forbes.com, daté du 5 mai 2013, « une très courte histoire du big data ». En une trentaine de dates de 1944 à 2012, il retrace la prise de conscience précoce de l’explosion des données (dans les rayons des bibliothèques universitaires dans un premier temps, puis via les NTIC), avec comme préoccupation centrale d’en quantifier la croissance tout en apportant  quelques considérations critiques autour du déluge informationnel.

L’explosion des données est en effet  d’abord perçue comme une menace sur la vie privée (« Assault on privacy – 1971-  Arthur Miller).  Côté technique aussi : l’espace de stockage grandit, mais les données s’étendent systématiquement jusqu’à le combler (Loi de parkinson, 1980). Dans les années 70, la qualité des données est enfin mise en cause : tout est stocké, il n’est plus utile de faire le tri.

L’expression « Big data » fait finalement son apparition en octobre 1997 dans la bibliothèque numérique de l’ACM1, au sein d’articles scientifiques qui pointent du doigt les défis technologiques à visualiser les « grands ensembles de données ». Le Big data est né, et avec lui ses nombreux défis.

Et si ces données avaient de la valeur ?

Dans les années 2000, alors que l’exabytes2 entrent en jeu dans la quantification des données produites annuellement, la valeur du Big data est mise en avant, d’abord pour les bénéfices que peuvent en tirer la recherche dans les secteurs de la physique, de la biologie ou des sciences sociales.

Ce que n’illustre pas l’article du Forbes.com, c’est la montée en puissance des Google, Facebook, Linkedin, Amazon et Twitter dans les années 2000 et plus particulièrement à partir de 2005. Celle-ci révèle tout le potentiel des données publiques disponibles sur internet. Les succès économiques des grands du web commencent alors à nourrir deux idées principales :

1- Les données brutes accumulées ont une valeur intrinsèque de par les fameuses 3 composantes en V ( pour volume essentiellement mais aussi variété et vitesse de leur production donc leur fraîcheur). Cette valeur est monétisable et Facebook en est l’illustration par excellence !

2- Ces données brutes ont une autre valeur liée aux analyses et corrélations auxquelles elles s’offrent et l’information qui en découle participe à la chaîne de valeur de l’entreprise (ex. : l’algorithme de recommandation d’Amazon).

Quelques principes technologiques qui expliquent la montée en puissance du Big data

Derrière ces succès, il y a évidemment des technologies qui font la différence et que les précurseurs du Big data ont contribué à développer et à faire connaître.  Les architectures Big data se fondent d’ailleurs sur 3 principes technologiques clés :

  • L’accélération matérielle. Depuis toujours, les composants des systèmes (mémoire, processeur, bus) sont optimisés pour assurer toujours plus efficacement leur fonction.
  • Le parallélisme.  C’est dans les années 2000 que ce paradigme devient dominant. Qu’il s’agisse de l’architecture interne d’un ordinateur (multi-cores, multi-processeurs, MPP*, SMP**) ou de l’architecture d’un réseau de machines (grid computing, cluster de machines, cluster hadoop), l’idée est de décomposer les problèmes complexes en plusieurs calculs traités de manière simultanée. Ces architectures sont d’autant plus efficaces qu’aucun composant n’est partagé entre les unités de traitement parallèles (« shared nothing ») et qu’il n’y a donc pas de point de contention.
  • Le NoSQL, le mouvement décolle fin des années 2000 et promeut des alternatives aux bases de données relationnelles en en abandonnant certaines contraintes (notamment la consistance du théorème CAP3.)

Vous l’aurez compris, le Big data a émergé en 2010, mais il est né il y a quinze ans et il porte en lui un demi-siècle de réflexions, de concepts et de défis. Participerez-vous à son histoire ?

 

…………………………………………………………………………………………………..
*MPP : Massively Parallel Processing, à la différence du SMP, le MPP appliqué à l’architecture d’un ordinateur consiste en la mise en œuvre parallèle d’un grand nombre de processeurs disposant chacun de leur mémoire.

**SMP : Symetric MultiProcessing,  architecture parallèle constituée de plusieurs processeurs identiques partageant une même mémoire au sein d’un même ordinateur.



1 Association For Computing Machinery, association américaine à but non lucratif fondée en 1947 et vouée à l’informatique. Sa bibliothèque numérique est particulièrement riche quand il s’agit de retracer l’histoire de la discipline.

2   1000 petabytes.

3 Le théorème CAP explique que pour un système réparti (tel qu’une base de données répartie sur plusieurs ordinateurs), il n’est pas possible d’assurer simultanément : cohérence, disponibilité (Availability), résistance au partitionnement (Partition Tolerance).