Guillaume Lecué est chercheur au CNRS et enseignant à l’ENSAE. L’aspect théorique des statistiques occupe une part importante de son quotidien de chercheur mais, en tant qu’enseignant et consultant sur les entreprises, il s’intéresse également à leur dimension pratique. Pour lui, les deux aspects sont très liés et nombre des procédures pour construire des projets pour les étudiants ou pour les entreprises sont issues de ses recherches théoriques.

 
Où en est-on aujourd’hui sur le sujet du big data ? Quel est le déclencheur de ce phénomène « data centric » ?
La première fois que j’ai été « exposé » à l’expression « big data », c’était en 2013. Big Data était alors associé aux images des data-centers de Google : images des tuyaux de refroidissement (aux couleurs de Google !) de tailles démesurées. Le tout avait un certain effet esthétique. C’était un outil de communication puissant qui avait pour but de suggérer des quantités astronomiques de données : comment représenter quelque chose d’immatériel comme les données ?
(…) Il devenait alors clair que le traitement de bases de données massives serait au coeur de nombreuses avancées dans de nombreux domaines.
(…) Google a permis de faire prendre conscience à de nombreuses entreprises ou institutions publiques que les données qu’elles stockent depuis plusieurs années — pour des raisons comptables ou autres — pourraient leur permettre de répondre à des questions centrales concernant leur coeur de métier et leur relation client.
 
Quelles sont les principales motivations des entreprises pour se tourner vers le data science ?
La personnalisation des offres et services est au centre de nombreuses « stratégies numériques » des entreprises. La publicité sur internet a été un des premiers secteurs marchands à personnaliser son approche car son offre est dématérialisée.
La personnalisation d’offres de produits comme les voitures, les vêtements, les livres et les médicaments sera une grande étape pour chacune des industries.
Connaître les goûts des clients sera le pré-requis de cette « microscopisation » ou « atomisation » de l’appareil de production. Et cette connaissance individuelle passera par la data science.
 
Où se trouve la valeur dans le data marketing et la relation client ? Quel rôle y joue le temps réel ?
La connaissance individualisée des clients est un énorme avantage pour une industrie qui peut se permettre de répondre à un type de demande individuelle. Elle augmente la qualité de la relation client et impacte la fidélité.
Elle permet d’augmenter ses marges en proposant les produits au plus près des goûts de la personnequi les achète.
Elle permet aussi de générer des opportunités de vente, en suggérant l’achat de produits à ceux qui n’aurait peut-être même pas pensé les acheter.
Bien sûr les goûts changent au fil du temps, des modes, des buzz, etc. et ils changent peut-être plus vite qu’avant puisque n’importe qui peut influencer tout le monde sur la toile. Il est très difficile de prédire les goûts des gens à partir d’un simple « surf » sur internet.
Par contre, l’analyse en temps réel des mots-clés auprès des grands fournisseurs de services sociaux en ligne permettront de détecter les tendances. Ensuite, une segmentation des utilisateurs en fonction des mots-clés à la mode permet de mieux cibler les « goûts du moment » de certains clients d’une marque, etc.
L’étude des données personnelles permet aussi de connaître l’humeur d’une personne, etc. (tout ceci dans le respect de la vie privée !). Ce traitement doit donc être fait en temps réel sur des grandes bases de données.
 
Qu’est-ce que cela change pour l’expérience client ?
Le client se sent compris par la marque ! Ce changement inscrit la relation dans le long terme et joue sur la fidélité. Si une marque satisfait et devance ses attentes, le client peut se désintéresser des autres marques.
 
Et votre vision sur l’évolution du Big Data dans les dix prochaines années ?
Au cours des 4 ou 5 dernières années, nous avons assisté à une forte demande des sociétés pour le traitement de bases de données de tailles importantes. Concrètement, ces sociétés stockaient leurs données depuis plusieurs années sans les utiliser comme outil de décision. Elles ont donc accumulé ces données en se disant que ça pourrait « peut-être servir un jour ». Et puisque « tout le monde parle du big-data », il valait donc mieux les stocker, quitte à ne les utiliser que plus tard.
D’un autre côté, les grandes institutions publiques ont aussi conservé de grandes quantités de données, soit comme caisse d’enregistrement soit dans des bases comptables.
On est donc amené depuis quelques années à gérer ces bases de données qui, la plupart du temps, ne sont pas adaptées à un traitement de type « machine learning ».
Elles doivent donc être nettoyées et réorganisées. Cette activité est si courante qu’on lui a donné un nom : le « data jujitsu », « data mungling » ou « data wrangling ». Une fois les bases orientées pour répondre aux questions posées, on peut « lancer » des algorithmes sur ces bases de données.On a donc vu apparaître ces dernières années beaucoup d’outils de machine learning pour le traitement des bases de données massives. Le plus célèbre est le paradigme du « map-reduce » de Google en 2008.
Je pense que ce process n’est que transitoire. Dans les années à venir, une fois que la « data » aura bien pénétrée les esprits et la culture des entreprises, les données collectées seront aussitôt analysées. Les algorithmes d’apprentissage « online » (c’est-à-dire en temps réel) devraient donc prendre une place importante dans le traitement des données. Bien sûr, les entreprises continueront à stocker leurs données brutes pour pouvoir répondre aux questions futures. Mais le traitement temps réel sera la règle…
(…)

A partir d’un article de Guillaume Lecué (chercheur en Data Science au CNRS) trouvé sur le blog de iadvize …. http://www.iadvize.com/blog/fr/big-data-machine-learning/