Dataiku & Lincoln : Fonctionnalités et apports de la solution

Dataiku est un outil permettant de généraliser l’usage de la donnée dans l’entreprise. L’objectif est de permettre à tous de manipuler la donnée et de créer différents types d’application : BI/Dataviz, Analyse, IA, Industrialisation …

 

Une plateforme pour travailler la data de bout en bout : Data Preparation, Data science, DataViz

 

Afin de réaliser cet objectif d’ouverture au plus grand nombre, Dataiku propose un outil très visuel. Les projets s’articulent autour d’un “Flow” présentant l’ensemble des traitements data du projet sur un même écran et de manière très lisible.

Dataiku Schéma

 

Toujours orienté accessibilité, DSS propose un ensemble de traitements “standards” accessibles facilement et sans code. L’éditeur parle de “recettes visuelles” permettant ainsi de réaliser diverses opérations : jointures, filtres, déduplication …

Pour ne pas laisser les profils orientés code, DSS propose des “recettes de code” permettant d’exécuter des blocs de code (R, Python, SQL, Spark…) et ainsi aller plus loin dans la manipulation de données

Dataiku 2

 

Un outil collaboratif sur le traitement de la donnée

 

Dans la même philosophie DSS met à disposition des fonctionnalités autour du Machine Learning et de la Data Science. Un espace de Lab est accessible pour créer des modèles à partir des différents jeux de données. L’interface laisse le choix entre des fonctionnalités d’AutoML, avec lesquelles l’utilisateur laisse l’outil modéliser à sa place, et une interface de design. Cette dernière partie propose des options de feature engineering, de choix de modèles (par une pré-sélection ou du code Python) et de critères d’optimisation. Les utilisateurs pourront également analyser les performances et les choix opérés par le modèle via les différents algorithmes d’explicabilité déjà implémentés dans la plateforme.

Dataiku 3

 

La plateforme intègre également un ensemble d’outils facilitant la collaboration au niveau du projet et évitant de multiplier les outils. On y retrouve ainsi associé à chaque projet un repository git , un wiki pour la documentation, des to-do lists…

 

Au-delà de son ouverture à tous les collaborateurs, Dataiku vise à s’intégrer dans un maximum d’environnements. En effet la plateforme permet notamment de s’appuyer sur les outils existants, notamment sur les aspects du stockage et du calcul. En effet, lors de la création des recettes, il est possible de choisir le lieu de stockage de la table résultant. Si par défaut le stockage est effectué sur la machine où est installé DSS, il est recommandé de mettre en place les connexions vers les stockages de l’entreprise (bases SQL, stockage Cloud, HDFS…).

De la même manière, il est possible de choisir le moteur d’exécution pour un certain nombre de recettes. Les requêtes SQL peuvent être exécutées in-database, les traitements volumineux à l’aide d’un cluster Spark…

 

Du projet à l’industrialisation de cas d’usage Data 

 

Enfin, la plate-forme propose des solutions autour de l’automatisation et de l’industrialisation des projets. On retrouve dans DSS des scénarios, permettant d’exécuter un enchaînement d’actions (mettre à jour des tables, des modèles…) à partir d’un déclencheur qui peut être manuel, récurrent, sur modification d’une source de donnés… Cela permet d’automatiser un certain nombre de tâches et de garder le projet à jour. La plateforme dispose également de différents “nœuds” dédiés aux environnements de développement, de production… En effet, les projets sont conçus dans les “Design node” dans lesquels les utilisateurs sont amenés à expérimenter et construire leurs traitements. Une fois finalisés, ils peuvent ensuite être déployés sur un “automation node”, administré par les équipes d’exploitation et disposant d’outils de monitoring pour ces projets en production.

 

DSS est donc un outil de manipulation de données qui sait s’adresser à tous les acteurs de l’entreprise. Sa grande force est de connaître les limites de son interface visuelle et de rendre la main aux utilisateurs (via les recettes de code) ou aux infrastructures (choix du stockage ou du moteur d’exécution) lorsque leurs limites sont atteintes et c’est ce qui le rend particulièrement attractif.

 

Quels retours d’expériences ?

Partenaire de Dataiku depuis début 2019, Lincoln a testé la solution en interne sur des cas d’usages mêlant data préparation, modélisation prédictive et restitution. En tant que Cabinet de conseil, nous avons considéré que la solution pouvait démocratiser l’usage de la Data dans les entreprises. Avec plus de 80 consultants experts certifiés, Lincoln accompagne des clients dans les secteurs bancaires, retail, industrie sur l’implémentation de l’outil, son utilisation et sur ses capacités à acculturer les collaborateurs à la Data.

« Grâce à mes accès et en 1 semaine, formation comprise, j’ai pu construire mon dashboard de pilotage business ! » s’étonne un responsable marketing Telecom.

Dataiku présente l’avantage de s’interfacer facilement sur des environnements Cloud. Son utilisation au sein des équipes It et Métiers permet d’accélérer la transformation Digitale Data au sein des structures mettant la valorisation de la donnée au cœur de leur stratégie.

Les nombreuses « success stories » auxquelles nous avons participées et les évolutions de la solution laissent penser que Dataiku peut devenir un éditeur majeur dans le traitement de la donnée.

Si vous souhaitez être conseillé, être accompagné sur le déploiement ou sur la formation à l’outil, n’hésitez pas à nous en faire part 😊.