Démythifier la magie du Big data : le processus d’exploitation de la donnée

Métiers - Assurance Métiers - Marketing et relation client

Publié le

Les réflexions autour des cas d’usage sont en pleine ébullition pour nourrir la nécessaire transformation du secteur de l’Assurance. Les sources de données sont pour certaines aisément accessibles.Par exemple, les objets connectés domotiques permettent de connaître l’activité d’une maisonnée : état allumé / éteint des lampes, niveau de consommation électrique, de CO2 … Mais ces données brutes, sans transformation, ne sont pas très utiles. Elles sont un peu comme le bois pour celui qui souhaite construire un chalet. Un processus de transformation est indispensable pour que le bois devienne chalet. De même, un processus Big data est indispensable pour que ces données deviennent signifiantes pour un cas d’usage.

DONNER UN SENS AUX DONNÉES

Attention ! Il ne suffit pas d’appliquer un processus prétendument magique sur un ensemble de données hétéroclites pour qu’un enseignement pertinent émerge. Un processus Big data doit passer par différentes phases pour faire ressortir le pouvoir prédictif inclus dans les données manipulées.

Nettoyer les données

Les données brutes doivent d’abord être rendues valides : une ampoule indiquant qu’elle est passée deux fois de suite en mode « allumé » sans être passée par le mode « éteint » constitue une anomalie qui doit être corrigée. Une étape préliminaire de nettoyage des données doit être pratiquée avant toute exploitation pour corriger / valider les données.

Interpréter et contextualiser

Il faut ensuite donner un sens à ces données épurées de toutes anomalies. En effet, savoir qu’une lampe est allumée ou éteinte n’apporte pas d’information en elle-même si ce n’est par son interprétation qu’entre ces deux états, le logement est présumé occupé. Par ailleurs, si l’on recoupe cela avec les données provenant du détecteur de CO2 , du détecteur d’ouverture / fermeture de porte, voire de la caméra avec reconnaissance faciale, il est alors possible de pouvoir conclure plus certainement que le logement est occupé (et par qui). Cette tâche de recoupement permet d’éliminer le cas où l’occupant serait simplement parti en laissant la lumière allumée (ce qu’on appelle un faux positif). Il est alors possible, à partir d’un recoupement d’informations et d’une contextualisation à bon escient, de déduire d’une donnée brute plusieurs dizaines de données interprétées ayant acquis un sens. Cela permet d’obtenir des données caractérisant l’intensité, la fréquence, la régularité et plus généralement le mode d’utilisation du bien assuré. Cette étape est cruciale car c’est celle qui permet de dégager les données d’intérêt ayant une signification par rapport à l’objectif « métier » qui aura été assigné au processus Big data. En effet, une mauvaise interprétation à cette étape peut invalider une donnée pertinente et potentiellement aboutir par la suite à des conclusions erronées ou moins précises (laissant passer de faux positifs). Il faut donc allouer un temps suffisant aux indispensables phases de préparation afin de qualifier les données avant de se lancer dans leur analyse.

Analyser

L’analyse consiste à identifier les populations qui ont les caractéristiques recherchées et celles qui en sont divergentes. C’est à ce stade qu’intervient la puissance des traitements massivement parallèles autorisant l’exploitation d’algorithmes machine. Ces algorithmes permettent de distinguer, dans la myriade d’informations, les signaux faibles traduisant un comportement ou une situation qui ne peut être découvert autrement. Cette approche sera par exemple particulièrement utile pour révéler, parmi les populations actuellement difficilement cernées par les modèles traditionnels, les jeunes automobilistes masculins qui ont des comportements moins à risques. Le concept du machine learning est totalement nouveau dans le secteur de l’Assurance, dirigé par des processus linéaires et industriels. Associé aux bases de données Big data, le machine learning va permettre d’enrichir tout au long du cycle de vie des produits d’assurance, des analyses de données et des nouvelles corrélations. Cette technologie n’est pas en opposition avec la Business Intelligence mais bien en complément pour des usages nouveaux. Elle permet d’avoir une vision prescriptive, alors que la Business Intelligence fournit une vision descriptive.

Calibrer

Une fois ces populations différenciées, il reste à distinguer l’intensité de l’effet de cette différenciation sur la variable d’intérêt objet de l’étude. Cette phase de calibrage est importante car il se peut que des caractéristiques très divergentes n’aient que très peu d’impact et viceversa. C’est ce qui fait que ce processus exploratoire est un processus itératif. En effet, quand la pertinence du modèle n’est pas au rendez-vous, c’est-à-dire que la réponse n’est pas suffisamment prédictive, il faut recommencer. Il est alors nécessaire d’identifier si une meilleure interprétation / contextualisation des données pourrait apporter plus d’enseignements et / ou si d’autres sources d’information pourraient apporter des éclairages nouveaux.

PROCESSUS ITÉRATIF

L’itération du processus Big data est l’aspect le plus déconcertant pour un assureur habitué au processus linéaire R&D traditionnel. Néanmoins, il s’agit bel et bien de l’ADN de tout processus Big data où le cycle d’accroissement de la connaissance par amélioration des modèles est un processus non seulement itératif, mais continu. À tel point que dans un rythme de croisière, on ne saura plus distinguer l’élément premier dans la démarche :

  • Est-ce la recherche d’événements permettant de caractériser un objectif métier, puis la recherche de données permettant d’identifier cet événement ?
  • Est-ce le processus de qualification permettant de valider l’intérêt de ces données par rapport à l’objectif métier ?

L’ILLUSION DE LA MAGIE : PRÉDICTION DES EFFETS

Le processus d’exploitation des données ne relève pas de la magie. Il s’agit d’un processus qui tend à reproduire les décisions humaines dont une part est liée à la combinaison d’éléments très diffus (signaux faibles) que la prolifération de nouvelles données rend lisibles et interprétables. Le constat par les algorithmes que les mêmes circonstances produisent les mêmes effets permet d’en prédire la survenance (voire prescrire des mesures de prévention). Et ce, sans qu’il ne soit nécessaire d’établir une relation de cause à effet entre ces circonstances et ces effets. C’est probablement ce qui donne l’illusion de la magie à un processus tout à fait rationnel.