Le Blog de Novagen
Des consultants au service de la DATA[Data Science] Tirer le meilleur parti de patrimoines de documents PDF complexes
Automatiser l’extraction d’informations d’un PDF Rapports internes, documents administratifs, bilans, plaquettes informationnelles, etc. Une société a souvent à sa disposition de nombreux documents PDFs riches en données. Pourtant ces documents sont souvent...
Apache DRUID / Imply, l’analytique nouvelle génération
Apache DRUID / Imply, l’analytique Temps réel nouvelle génération Plus de DATA qui arrivent EN FLUX et plus D’USAGES à développer. Voici un constat que nous partageons avec nos clients, quel que soit leur secteur d'activité. Nous avons pour ambition de répondre de...
Apache Kylin V4: Le décisionnel extrême toujours plus facile et performant.
APACHE KYLIN v4 - BI & Big Data Les équipes Novagen ont depuis longtemps investi les technologies BI à l’échelle BigData et nous en suivons quotidiennement les évolutions. Aujourd’hui, nous vous proposons une analyse exhaustive de la version Majeure 4 d’Apache Kylin,...
OVHCloud DataProcessing : Real ‘Spark as a service’
OVHCloud knows well Novagen and its commitment to innovation, and when they proposed to be part of the early testers of their new product of Data Processing built on top of Apache Spark as a service, Novagen felt “honoured and eager to test it.” When it comes to...
Kubernetes pour faciliter votre stratégie multi-cloud. Exemple avec un déploiement Druid
Kubernetes pour faciliter votre stratégie multi-cloud. Exemple avec un déploiement Druid “Pour valoriser ses données, tous les chemins de l’innovation mènent au cloud” pourrait-on avancer, chaque jour un peu plus. Sur ce sujet, le choix était jusqu’à présent...
Machine Learning versus Coronavirus
Machine Learning contre Coronavirus QUI VA GAGNER ? En quelques mois, la COVID-19 a eu l’effet d’un raz-de-marée contaminant à ce jour près de 4,5 millions de personnes et causant plus de 307 000 décès dans le monde (d’après l’OMS à la date du...
Cloud : laboratoire d’innovation pour le ‘On Premise’
BOOST MY DATA LAKE Il EST POSSIBLE DE TIRER LE MEILLEUR DE SA PLATEFORME DATA ‘ON PREMISE’.... GRACE AU CLOUD Bien souvent, les plateformes Data Lake On premise créées - qui sont sur le chemin critique des attentes métiers - ne répondent pas à...
Apache Druid on Kubernetes @Novagen
L'analytique scalable avec Druid, déployé sur Kubernetes Après avoir implémenté Apache Kylin sur AWS EMR et sur Google Cloud DataProc et avoir démontré qu’il peut répondre à des scénarios très complexes d’utilisation de la donnée tout en ayant des temps de...
démarrer avec Spark NLP dans AWS EMR (Elastic Map Reduce) [Tutoriel]
Comment utiliser Spark-NLP depuis une EMR ? Spark NLP est une excellente collection d'algorithmes de transformation et d'analyse de texte. Cependant, utiliser des librairies tierces dans un cluster Hadoop+Spark requiert un peu de technicité. Nous vous partageons un...
2019 – 2020 : l’innovation par les données s’accélère
Nous pensons que ces accomplissements reposent sur notre capacité à investir sur l’innovation et en évaluer le potentiel d’application pour les métiers de nos clients. A titre d’exemple, en 2019, nous avons effectué pas moins de 200 créations d’infrastructures dans le...
Automatisation de la Data Science : avec AWS SageMaker
On évoque de manière toujours plus soutenue l'apprentissage automatique (ou Machine Learning) dans les entreprises, et ce dans tous les domaines: Prédiction de vente, Maintenance prédictive, assistance au support client... Cependant, pour en faire le levier...
TensorFlow v2 RoadShow
Ce vendredi 8 novembre a eu lieu le TensorFlow RoadShow à l’occasion de la présentation de la v2.0. Cette plateforme pour le machine learning est devenue un quasi standard. Le menu de la journée était copieux : Machine Learning today and tomorrow. TensorFlow 2.0....
Nous étions au SparkAISummit: voici le debrief !
Le SparkAISummit, une rencontre dont le succès se confirme par les chiffres : 3 jours 2300 ‘visiteurs’ [dév, data scientists, architectes, gourous], des salles pleines, plus de 60 nationalités réunies ! Des keynotes avec des invités stars : Les concepteurs de l’IA qui...
L’essentiel du OVHCloudSummit
Que chercher lors de la journée du OVHCloudSummit ? => Mesurer la volonté et la capacité de vraiment concurrencer les offres qui trustent le marché du cloud public.. pas besoin de les citer. => Analyser plus précisément les activités qui nous mobilisent chez nos...
Le clustering: cas d’usages et subtilités
“ Tout le monde peut calculer un K-Means, est-ce pour autant que l’on maîtrise l’art subtil du clustering? “ Nous présentons ici un article thématique sur le clustering (ou segmentation). Parce que son approche est intuitive et visuelle, le clustering est très souvent...
Un DSL (Domain Specific Language) comme Pivot de votre Data Quality
Un DSL pour décrire la qualité de données ! Voici un article qui introduira progressivement une initiative Novagen : Comment piloter sa qualité de données dans un datalake avec Spark. Première étape : comprendre et apprécier ce qu’un DSL apporte dans la description...
Portrait de Consultant Data : ….
Lucas, Data Ingénieur ET Data Scientist @ Novagen 1) Ton parcours en 30" Ingénieur de formation, diplômé de Telecom Lille en 2016, j'ai d’abord commencé ma carrière en mission chez un des grands acteurs de la métropole lilloise en tant que Data Scientist. J'ai ensuite...
Comparaison de la vitesse PySyft (apprentissage fédéré) / PyTorch sur AWS.
Cet article est le deuxième d’une série consacrée à PySyft, une nouvelle bibliothèque python pour Federated Learning ( http://www.novagen.tech/pysyft-une-bibliotheque-python-pour-lapprentissage-federe ). Chez Novagen , nos clients ont besoin de tirer le meilleur parti...

ADRESSES
Ile de France
171 Ter, Avenue Charles de Gaulle,
Bâtiment D,
92200 Neuilly Sur Seine
Tel : +33 1 46 37 22 42
Les Hauts de France
14 rue du vieux faubourg
59800 Lille
Tel: +33 3 59 56 16 30