Cloudera Session : Une journée pour prendre le pouls du BigData

Vous n’étiez pas aux Cloudera Session ?

Voici une retranscription partielle de cette journée aux contenus divers et dans son ensemble très instructive. Un bon point de vue sur l’état du monde hadoop en entreprise (en France et un peu plus).

Les principales nouvelles :

  • On ne parle quasi plus de BigData (contre-coup d’une utilisation tarte à la crème): l’heure est aux premiers retours d’expérience, on parle beaucoup plus de stratégies Data driven, de Data science au service des usages métiers, et un peu d’intelligence artificielle.
  • Sur ce dernier point, l’intervention du CXP a mis à l’aise ceux qui auraient le complexe de ne pas faire du deep learning… Plutôt que de faire de l’IA-washing’, il faut plutôt être fier de supporter l’innovation métier par juste-ce-qu’il-faut-de-technologie.
  • Nous avons des premiers retours d’initiative Datalake initiée il y a à peine plus d’un an : exemple avec le GIE Super-U.Il y a désormais plus de maturité des technologies, des éditeurs, des sociétés de conseil, des équipes techniques. En conséquence, on va plus vite vers la mise en place opérationnelle de plateformes data.

Industrialisation des travaux de DataScience.

Dans l’univers cloudera cela se manifeste par l’émergence de leur Datascience Workbench, dont l’existence se justifie par les points structurants :

  • Versionner les environnements pour favoriser les travaux exploratoires,
  • Fonctionner en mode étanche : Sécurisé, sur des données ‘bac à sable’ ==> pas de mauvaise surprise jusqu’à maturation finale des développements
  • Etre multi langages (Python, Scala, R) et multi paradigmes (Spark ou non)

Le CLOUD !

Il y aura encore des déploiements On-Premise, mais la tendance générale du ‘vers ‘toujours plus de cloud’ est naturellement représentée dans l’univers hadoop.

Les distributions devront savoir fonctionner selon les modes Cloud Privé / Hybride et Public.

Même pour des entreprises qui ont le culte de leur data center interne la décision du cloud s’impose de plus en plus. Sans surprise, AWS et Azure archidominent le marché pour l’instant. (Il existe même des solutions multi cloud comme Cloudera Altus)

La Maturité IT – Data Team – Metier

C’est notamment Covéa qui a mis en avant leur mode opératoire, avec une attribution des rôles nécessaires à la bonne conduite de projets data. On y a parlé de Data Stewart, Data Strategist, Data Partner et même Data Art (Il faut bien donner une forme seyante à la valeur extraite). On y a parlé de cadence de livraison d’une première version, de processus d’incubation.

Quelques point divers :

1. 2018 va être une accélération de déploiement de nouveaux usages après les premiers pas,

2. Apache Kudu est évoqué mais reste encore en mode très exploratoire… bien qu’on cherche toujours le graal en terme de structure distribuée + rapide + analytique + transactionnelle…

3. pour juguler l’hétérogénéité des sources et des données, on parle de solutions MDM qui suivent difficilement le rythme d’évolution des métiers ou encore d’approches moins évidentes : La Data Virtualisation (avec Denodo).
C’est une sorte de cache de définition des données qui délègue l’exécution aux différentes socles techniques. il agit comme un hub intelligent qui peut intégrer de la sécurité, de la performance et unifier des environnements très composites… à suivre

 

Pour finir, les quelques chiffres qui inscrivent ce mouvement dans une dynamique qui n’est pas près de s’éteindre:

50% des données structurées de l’entreprise ne sont pas exploitées
et pour les données non structurées c’est 10%.
80% du temps est passé à préparer les données avant de vraiment les utiliser.

Les outils de productivités pour extraire l’information et la valoriser ont de beaux jours devant eux, et les compétences qui vont avec également.

Enfin une mention spéciale à AG2R pour la rétrospective pleine d’humour sur la construction de leur Datalake, désormais opérationnel. Il aura fallu surmonter des défis technologiques, lutter contre certaines chapelles et ne pas plonger dans la course à la dernière technologie à la mode… Un très bon condensé de ce genre d’aventures.

Novagen vous accompagne dans votre stratégie et dans vos développements. Contactez-nous !