Dataiku

Partenaire de Dataiku depuis début 2019, Lincoln a testé sa solution en interne sur des cas d’usage mêlant préparation, modélisation prédictive et restitution de Data.

En tant que Cabinet de Conseil Data & IA, nous sommes persuadés que Dataiku peut démocratiser l’usage de la Data dans les entreprises. Avec plus de 80 consultants experts certifiés, Lincoln accompagne ses clients dans les secteurs de la banque, du retail et l’industrie sur l’implémentation de l’outil, son utilisation et sur l’acculturation des collaborateurs à la Data.

Formation et certification en interne

expertise technique

conseil

Partenariat Dataiku

Lincoln a choisi de nouer un partenariat avec Dataiku en raison de son expertise et de sa fiabilité dans le domaine de la Data Science. Depuis toujours, nous collaborons avec Dataiku pour offrir des solutions innovantes et sur mesure à un vaste panel de clients issus de tous les secteurs d’activité. Grâce à notre collaboration, nous avons intégré avec succès les solutions Dataiku, soutenant nos clients dans l’utilisation efficace des données pour prendre des décisions informées et stratégiques.

La plateforme Dataiku DSS offre une infrastructure robuste et évolutive, capable de gérer de grands volumes de données et d’exécuter des analyses avancées en temps réel. Dataiku est dotée de puissants outils de Machine Learning et d’Intelligence Artificielle, permettant d’extraire des insights précieux des données et d’automatiser des processus complexes.

De plus, l’architecture ouverte de Dataiku permet une intégration facile avec d’autres systèmes, garantissant flexibilité et adaptabilité aux besoins spécifiques de chaque client. La sécurité des données et la conformité aux réglementations sont d’autres points forts qui font de Dataiku un partenaire de confiance.

Pourquoi
Dataiku ?

Une plateforme pour travailler la Data de bout en bout : Data Préparation, Data Science, DataViz

Afin de réaliser cet objectif d’ouverture au plus grand nombre, Dataiku propose un outil très visuel. Les projets s’articulent autour d’un Flow présentant l’ensemble des traitements Data du projet sur un même écran et de manière très lisible.

visuel d'un flow Dataiku

Toujours orienté accessibilité, la plateforme Dataiku DSS propose un ensemble de traitements standards accessibles facilement et sans code. L’éditeur parle de « recettes visuelles » permettant ainsi de réaliser diverses opérations : jointures, filtres et déduplication.

Pour ne pas laisser les profils orientés code, Dataiku propose des « recettes de code » permettant d’exécuter des blocs de code (R, Python, SQL, Spark…) et ainsi aller plus loin dans la manipulation de données.

recipe-dataiku

Un outil collaboratif sur le traitement de la donnée

Dans la même philosophie, Dataiku met à disposition des fonctionnalités autour du Machine Learning et de la Data Science. Un espace de Lab est accessible pour créer des modèles à partir des différents jeux de données. L’interface laisse le choix entre des fonctionnalités d’AutoML, avec lesquelles l’utilisateur laisse l’outil modéliser à sa place, et une interface de design. Cette dernière partie propose des options de Feature Engineering, de choix de modèles (par une pré-sélection ou du code Python) et de critères d’optimisation. Les utilisateurs pourront également analyser les performances et les choix opérés par le modèle via les différents algorithmes d’explicabilité déjà implémentés dans la plateforme.

La plateforme intègre également un ensemble d’outils facilitant la collaboration au niveau du projet et évitant de multiplier les outils. On y retrouve ainsi associé à chaque projet un Repository Git, un Wiki pour la documentation ou encore des to-do lists.

Au-delà de son ouverture à tous les collaborateurs, Dataiku vise à s’intégrer dans un maximum d’environnements. En effet la plateforme permet notamment de s’appuyer sur les outils existants, notamment sur les aspects du stockage et du calcul. En effet, lors de la création des recettes, il est possible de choisir le lieu de stockage de la table résultant. Si par défaut le stockage est effectué sur la machine où est installé Dataiku DSS, il est recommandé de mettre en place les connexions vers les stockages de l’entreprise (bases SQL, stockage Cloud, HDFS…).

De la même manière, il est possible de choisir le moteur d’exécution pour un certain nombre de recettes. Les requêtes SQL peuvent être exécutées in-database, les traitements volumineux à l’aide d’un cluster Spark…

Du projet à l’industrialisation de cas d’usage Data 

Enfin, la plateforme propose des solutions autour de l’automatisation et de l’industrialisation des projets.

On retrouve dans Dataiku DSS des scénarios, permettant d’exécuter un enchaînement d’actions (mettre à jour des tables, des modèles…) à partir d’un déclencheur qui peut être manuel, récurrent, sur modification d’une source de données… Cela permet d’automatiser un certain nombre de tâches et de garder le projet à jour.

La plateforme dispose également de différents « nœuds » dédiés aux environnements de développement, de production… En effet, les projets sont conçus dans les Design Nodes dans lesquels les utilisateurs sont amenés à expérimenter et construire leurs traitements. Une fois finalisés, ils peuvent ensuite être déployés sur un Automation Node, administré par les équipes d’exploitation et disposant d’outils de monitoring pour ces projets en production.

La plateforme Dataiku DSS est donc un outil de manipulation de données qui sait s’adresser à tous les acteurs de l’entreprise. Sa grande force est de connaître les limites de son interface visuelle et de rendre la main aux utilisateurs (via les recettes de code) ou aux infrastructures (choix du stockage ou du moteur d’exécution) lorsque leurs limites sont atteintes et c’est ce qui le rend particulièrement attractif.