Apache DRUID / Imply, l’analytique Temps réel nouvelle génération

Plus de DATA qui arrivent EN FLUX et plus D’USAGES à développer.

Voici un constat que nous partageons avec nos clients, quel que soit leur secteur d’activité. Nous avons pour ambition de répondre de manière innovante et pertinente à ces défis toujours plus stratégiques.

 

Nous vous proposons dans cet article un aperçu des cas d’usages pour lesquels nous pensons qu’ Apache Druid (ou sa version entreprise ‘Imply’) apporte une valeur ajoutée très appréciable pour l’Analytics Temps Réel. Ces propositions reposent sur des déploiements que nous avons réalisés pour des projets clients ainsi que sur des POCs et benchmarks que nous avons menés dans notre DATA LAB.

Plus encore, le triptyque Performance / coût / facilité d’implémentation constitutif de Apache Druid nous permet de penser que cette solution open-source peut-être source de ROI très conséquents. Elle offre notamment la possibilité de décommissionner des applications historiques coûteuses, traitant d’Analytics Temps réel, mais avec des solutions plus « lourdes ».

Analytique à chaud sur des flux de données (Streaming)

Observation : Tout est toujours plus connecté. La chaîne logistique, les rayons des magasins, les badges, les titres de transport, les montres et leurs applications, les moyens de transport (automobiles, vélos), les démarches administratives, les données de santé, la fraude… les données arrivent en flux toujours plus importants, flux temps réels qu’il faut savoir analyser de plus en plus vite afin de prendre des décisions en quelques millisecondes.

 

Le défi est de faire des analyses sur les données à chaud, donc dans des temps de latences très courts et sur des volumes très importants.

 

Apache Druid : parce que son architecture est orienté flux, il ingère à merveille des très grandes quantités avec une infrastructure frugale et extensible. Ceci signifie qu’on peut encaisser facilement les pics de charge (période de solde, heure d’affluence) et que l’on modère les coûts machine associés.

 

Druid / Imply : Des milliards de données ingérées et requêtables en temps réel selon de nombreux axes d’analyse avec une faible latence

Druid / Imply se révèle être:

  • Plus frugal et naturellement plus orienté ‘Analytique’ qu’ElasticSearch,
  • Plus facile de déploiement et d’utilisation que ClickHouse.

Cas d’usage : Être le support d’algorithmes de Machine Learning dédiés à la détection de Fraude

Observation : La détection de fraude a deux contraintes principales qui la rendent complexe à traiter :

  • La vitesse de décision : il faut pouvoir détecter très rapidement, en quelques dizaines de millisecondes, un comportement frauduleux,
  • La complexité et variété des comportements de fraude, qui obéissent à des patterns nombreux et changeants.

De plus en plus, des algorithmes de machine learning sont mobilisés pour effectuer ces détections. Il faut cependant qu’ils se reposent sur des données unitaires et également sur des données agrégées, accessibles en quelques millisecondes. On veut par exemple savoir si le client a réalisé des transactions à la fois dans les dernières secondes, minutes, heures, jours… mais aussi quels types de mouvements, quels montants…

 

Apache Druid, par sa capacité à ingérer et agréger les données selon différentes stratégies, est, par exemple, un excellent support pour alimenter les modèles de machine learning et réaliser une prédiction de Fraude.

Temps de réponse observé après modélisation : < 100ms.
A considérer dans tous les contextes où l’extrême rapidité d’analyse et de prise de décision est critique.

Cas d’usage : Accompagner l’expérience client

Observation : Le visiteur de votre plateforme Web à fort trafic navigue selon ses centres d’intérêts au travers de différentes pages. Vous voulez lui proposer les suggestions les plus pertinentes et dynamiser le contenu de sa navigation : ventes croisées ou augmentées, propositions de moyens de paiements adaptés. Vous voulez administrer le contenu sur la base d’observation agrégées (sur-vente ou sous-vente).

 

Le défi : Il faut disposer d’un mix :

  • Algorithmes de recommandation utilisant des données comportementales
  • Décisions humaines d’animation du contenu sur la base d’analyses à chaud irréprochables.
 

Apache Druid supporte parfaitement ces exigences.

Novagen Conseil a validé la capacité de Druid à :

  • Traiter plus de 100 000 événements par secondes , événements agrégés sur des dimensions complexes
  • Jouer des requêtes variées en parallèle. Et ceci sur une infrastructure cloud raisonnable.

DEPLOYER SES USE CASE ANALYTICS ULTIMES AVEC NOVAGEN

Nous avons développé et éprouvé des scripts de déploiement associant Terraform, Ansible et optionnellement Kubernetes pour accélérer la mise en oeuvre et fluidifier la gestion des environnements.

Nos déploiements à ce jour privilégient AWS et OVHCloud mais, avec Kubernetes, ils peuvent aisément être transposés dans de multiples environnements compatibles : GCP, Azure, Scaleway …

 

Nous lèverons le voile dans un prochain article sur le volet technique de notre expertise et les différentes phases d’un projet Druid, de la conception initiale du projet à sa mise en production.

 

Un projet d’analyse de flux ? un projet Analytics temps réel ? des questions ? N’hésitez pas, écrivez-nous.

Profitez de notre compétence de modélisation
et automatisation des déploiements.

contact@novagen.tech / hstefani@novagen.tech