En 2018, les plateformes Data serviront mieux la business intelligence

Il y a quelques années, Gartner prédisait qu’en 2018 les architectures BI proposeraient de nouvelles solutions et élargiraient le champs des possibles… 2018, nous y sommes et … les promesses espérées pointent effectivement le bout de leur nez, et plus encore.

Injecter des millions de données en quasi temps-réel, y accéder au travers d’outils BI et Tableaux de Bords adaptés aux Directions Financières, Commerciales, Comptabilité, Marketing … pour l’usage simultané de 3 000, 5 000 ou 10 000 utilisateurs … des solutions émergent aujourd’hui pour offrir ces services nouveaux répondant au paradigme d’une Business Intelligence moderne, innovante et branchée « Big Data ».
Hadoop et Tableaux de bord

Pourquoi ce n’est pas encore le cas ? (alors que cela devrait être l’évidence même)

Prenons l’exemple d’une entreprise qui, pour d’excellentes raisons, s’est équipée d’une plateforme Data.
Imaginons qu’elle opte pour une stratégie numérique tous azimuts, qu’elle capte de nouvelles sources de données (Web & Mobile tracking, IoT, Logistique 4.0) ou qu’elle réconcilie (enfin!) ses différents CRM (issus d’acquisitions successives).

On peut aisément justifier l’investissement initial, celui de la mise en place de la solution technique de convergence des données, et son alimentation par les différentes sources.

Mais pour quelle valeur ? Certes, notre client aura bien eu deux projets significatifs, la détection de fraude et l’amélioration de la chaîne logistique, par exemple, qui auront apporté un retour sur investissement.

Mais peut-on ne satisfaire ainsi que quelques directions métier ? … chacun et tous devraient pouvoir y trouver leur intérêt.

Maintenant que les données sont là, on aimerait les mettre à disposition sous toutes leurs formes aux décideurs de l’entreprise.

Et … on ne peut pas.

Parce que ces solutions par ailleurs très performantes pour des traitements de masse ne savent pas chercher rapidement et économiquement une information, un calcul.

Il faut pour cela effectuer une extraction des données dans un Datawarehouse contraignant et très cher, ces mêmes données déjà répliquées, transformées, recopiées … et qu’il faudrait à nouveau exporter !

HADOOP … solution presque à tout faire … excepté de la Business Intelligence performante ?

Le décisionnel sur Hadoop est pénalisé par son orientation ‘batch’ et la latence au démarrage des traitements. Il est orienté FileSystem et non pas accès granulaire à l’information, bien qu’il soit complété de dispositifs techniques aux performances honorables: Kudu, Parquet, ORC, Hbase…

On dispose sur ces technologies d’axes d’optimisation pour atteindre des temps de réponse vraiment satisfaisants:

  • Répartir la donnée sur plein de serveurs mais c’est coûteux, et il faut bien concevoir et maintenir les données ainsi modélisées… qui ne sont interrogeables selon tous les cas.
  • Gaver de mémoire, (64 Go, 128 Go, … 1To)
  • Utiliser des index,
  • Partitionner, Dénormaliser,
  • Jouer avec les paramètres de configuration (taux de compressions, formats.)
  • Pousser sur les ressources mises à disposition … mais le coût en infrastructure Ingénierie est très élevé et l’objectif de pouvoir atteindre 500 / 1000 / 5000 / 10000 utilisateurs connectés en simultané n’est PAS ATTEINT.

Hadoop ne suffit pas pour notre cas d’usage décisionnel ambitieux.

Les solutions qui répondent à une vraie exigence Big Data ont émergé.

Pensé au départ comme un HUB de l’information, l’écosystème Big Data a récemment vu émerger des solutions qui entendent répondre à cette problématique Business Intelligence presque « Temps réel », branchée sur des volumes de données « Big Data » et « scalable » à souhait …

Elles entrent dans une des catégories suivantes:

Ces solutions portent pour doux noms Apache Kylin (ou Kyligence), Indexima, AtScale, Jethro … Chacune d’elle répond favorablement aux promesses initiales (Volume, Temps réel, Déploiement…) mais avec leurs spécificités qui doivent être mises en correspondance des projets.

Pourquoi maintenant ?

Parce que la maturité d’architecture des plateformes data est là

On connaît désormais les possibilités, les limites et les coûts d’une technologie moins chère (Hadoop) que les appliances décisionnelles. Mais on ne peut pas l’étendre indéfiniment pour répondre aux attentes de réactivité.

On sait désormais faire vivre la donnée à l’intérieur du cluster et pousser les informations dans la technologie qui va réconcilier tout le monde avec l’exploration de données.

puzzle BigData Business Intelligence

Comment s’y prendre ?

Il faut choisir les critères qui vont convenir à votre entreprise :

  • Nombre d’utilisateurs en BI Self-Service,
  • Volumétrie de données à brasser (quelques Go, centaines de To ou bien Po),
  • Diversité et complexité des requêtes,
  • Intégration à votre écosystème technique (cloud, on-premise…),
  • Connexion à une grande diversité d’outils (BI, Excel, Tableau, Microstrategy…)
  • Pérennité de l’entreprise support de la solution,
  • Temps de mise à disposition de la donnée opérationnelle dans le receptacle analytique,
  • etc…

Un des critères encore sensible est celui de la maturité de la solution envisagée. Nous parlons ici d’approches qui ont peu d’ancienneté et sont en développement actif.

Il faut tester

Ces solutions ont des cas d’applications et des environnements techniques privilégiés.
Selon les priorités (Sécurité, performance, connectivité) et les types de sollicitation (temps-réel, batch), les conclusions ne seront pas les mêmes.

Il faut donc s’équiper de :

  • Jeux de données conséquents et semblables à la vrai vie (issus de la production ou simulés),
  • Cas d’usage représentatifs (type de requête, nombre de sollicitations)
  • Moyens techniques de test : cluster, instances, injecteurs, tableaux de bords

puis se donner quelques semaines de tests en quasi grandeur nature.

Exemple d’Apache Kylin :

La mise en oeuvre de cette solution nécessite :

  • De savoir l’intégrer dans l’écosystème Hadoop, y compris AWS EMR,
  • De savoir Ingérer des données vraiment massives (des To sans aucun problème),
  • De Pré-calculer toutes les combinaisons demandées (un peu de conception n’est pas superflue),
  • De Les mettre à disposition des utilisateurs sous une forme ultra performante (dans HBase) pour qu’elles soient consommées massivement au travers de tableaux de bords (du type Tableau, QlikView, Excel)

Kylin Cube

On vous accompagne

Réconcilier « Big Data » et Business Intelligence pour l’ensemble de vos utilisateurs et les différentes directions de l’entreprise est un objectif envisagé à court terme / moyen terme, n’hésitez pas à nous solliciter, nous pourrons vous accompagner dans cette voie.

Ces solutions, nous les testons pour nos clients et pour nous-mêmes.

Pour nos clients qui veulent mesurer pour leurs usages et leur contexte la viabilité des solutions au delà des promesses affichée.
Pour nous-même, parce que nous identifions de nouvelles technologies candidates, et que nous voulons avoir des certitudes sur nos propres usages.

Ces tests nous ont permis de mûrir une approche qui associe :

  • une grille de critères d’évaluation,
  • un injecteur personnalisé pour effectuer des tests de charge,
  • une mise en perspective fonctionnelle des enseignements techniques