Pourquoi se doter d’une plateforme data ?
Cet article a été publié le 17 mai sur le média Viuz.
On assiste depuis quelques années à l’apparition de nombreux outils promettant de faciliter le travail des équipes data. Parmi elles, figurent les plateformes data définies par Gartner* comme des applications logicielles unifiées qui :
- Offrent des fonctionnalités essentielles à la création de solutions de data (science notamment) ;
- S’intègrent aux infrastructures et aux processus métiers existants.
Aux côtés des mastodontes de la Tech (Google, Microsoft, Amazon, IBM), on retrouve des acteurs majeurs tels que le français Dataiku, Alteryx, TIBCO ou encore Knime. Via les multiples options qu’elles offrent – préparation de la donnée, création de flux de données, modélisation, … – ces plateformes peuvent apporter une valeur considérable, en étant de vrais accélérateurs de performance. Converteo vous propose un tour d’horizon de ces plateformes, via une série de deux articles sur le sujet.
Dans ce premier article, abordons ensemble les raisons qu’une entreprise peut avoir de se doter d’une plateforme data, et quelques propositions pour en tirer le meilleur. Au programme : l’apport d’une plateforme pour répondre à un cas d’usage data, l’optimisation de l’utilisation des compétences pour un projet data, et quelques prérequis pour mettre à profit ces plateformes dans une organisation.
Retrouvez le deuxième article : Anatomie d’une plateforme data idéale
Plateforme data : Répondre rapidement à un cas d’usage data
Les plateformes data nouvelle génération permettent d’accélérer, et de simplifier au maximum la réponse à un cas d’usage. En particulier, quand le cas nécessite une réponse “simple” (une suite d’opérations et règles simples) ces plateformes permettent un déploiement rapide.
Les cas d’usage “simples” incluent par exemple la création d’un score (attrition, appétence, etc.) et/ou la diffusion d’un score, la prédiction de ventes, la segmentation d’une base client, la mise en place d’une action marketing via un outil de marketing automation…
La création et la mise en production d’outils de réponse à un cas d’usage est également facilitée, car les plateformes permettent notamment :
- de faciliter la collaboration entre différents profils sur une même interface – via sa facilité de prise en main notamment (vision du flux de données, clic-bouton, …)
- d’éviter la création de silos et d’unifier des règles ou définitions parfois multiples par l’utilisation d’un outil commun
- de créer simplement des outils interactifs, web apps ou portails à mettre à disposition du métier
Ces plateformes permettent également, en amont, d’identifier des cas d’usage, simples ou complexes, grâce à la facilité qu’elles offrent dans l’accès aux données et l’exploration de celles-ci par de multiples utilisateurs.
Malgré les facilités proposées par ces plateformes, il est important de garder à l’esprit que la réponse à un cas d’usage plus complexe ou une plus grande personnalisation dans la réponse rendra indispensable l’intervention d’un spécialiste – Data Scientist, Data Engineer, Analyste BI, Développeur Web, … Cela est particulièrement vrai pour des cas nécessitant de la maintenance prédictive, la création d’un moteur de recommandation ou encore de l’optimisation de pricing par exemple. Notons également qu’il n’est pas toujours nécessaire de passer par le Machine Learning pour produire une réponse pertinente à un cas d’usage.
Optimiser la productivité d’un projet data avec une plateforme data
Grâce à ces plateformes, le rôle de collaborateurs ayant une appétence pour la data peut être augmenté : ils peuvent participer aux étapes de préparation et d’analyse des données, documenter rigoureusement leur travail de manière simplifiée, et contribuer par exemple à la création de modèles statistiques via l’interface de la plateforme – toujours sous la supervision d’un Data Scientist en l’occurrence.
De fait, la montée en compétences de ces collaborateurs ne signifie pas que l’on peut faire l’économie d’experts (Data Scientist, Data Engineer). Ces derniers demeurent une pierre angulaire indispensable au sein des équipes data. Néanmoins, leur rôle peut évoluer par le biais de ces plateformes. Ces plateformes offrent par exemple au Data Scientist une opportunité de maximiser sa valeur sur un projet :
- Un Data Scientist peut consacrer aujourd’hui jusqu’à 80% de son temps aux étapes de préparation de la donnée (croisements, nettoyage, feature engineering, etc.). Avec les plateformes data de nouvelle génération, ces étapes sont moins chronophages, et peuvent être plus facilement déléguées, ce qui permet au Data Scientist de se concentrer sur des tâches nécessitant plus spécifiquement son expertise (ajustement et personnalisation des modèles, mise en production, suivi de performance, etc.)
- L’économie de temps ainsi réalisée permet au Data Scientist de consacrer davantage de temps sur la modélisation et l’exploitation des résultats d’un modèle, ou encore la supervision de profils moins expérimentés en Data Science
En particulier, l’association de profils hybrides et de Data Scientists peut être fructueuse pour les entreprises qui se dotent d’une plateforme data. Leur complémentarité de compétences et d’expertises couplée à l’utilisation de ces plateformes permet une plus grande rapidité, sans compromis sur la qualité, dans la réalisation d’analyses, la mise en place de solutions ou le déploiement d’outils. Les plateformes agissent ainsi en catalyseurs, qui augmentent le champ d’action de profils moins techniques, tout en optimisant celui des Data Scientists.
Par ailleurs, la pénurie actuelle de profils data sur le marché entraîne des difficultés à recruter des éléments possédant à la fois une bonne vision business et des compétences techniques (statistiques, programmation, …). Face à ces difficultés, une solution partielle consiste à former des profils hybrides, comme les Data Analysts ou les Data Miners, au pilotage d’une plateforme data. Ces derniers possèdent souvent une base théorique (maîtrise d’un outil de visualisation, du SQL, bases en Python/R, …) et une appétence pour la data, sans nécessairement posséder les compétences techniques approfondies évoquées précédemment.
Quelle organisation data pour tirer le meilleur de ces plateformes ?
En prérequis indispensable à la mise en place et l’utilisation optimale d’une plateforme data, une réflexion globale sur la donnée doit être au cœur des priorités de l’entreprise. Cette réflexion est en effet nécessaire pour atteindre une maturité data significative. Le déploiement d’une plateforme data doit ainsi s’inscrire dans une stratégie de collecte, de consolidation et de valorisation de la donnée. L’outil doit par ailleurs servir la réalisation de cas d’usages définis au sein d’une roadmap data claire. Enfin, la présence de sponsors à haut niveau dans l’entreprise, notamment sur les sujets de data science, doit faciliter l’adoption de l’outil.
En termes d’organisation, plusieurs éléments nous semblent relever de bonnes pratiques dans l’utilisation d’une plateforme data :
- Gestion de l’outil en priorité au niveau de la direction data afin de permettre une distribution de l’accès à la donnée descendante, le plus pertinente possible, et dépendante de la stratégie data de l’entreprise
- Définition claire d’une gouvernance data, que l’outil permet de mettre en application et sur laquelle il se fonde – la gouvernance s’intègre à l’outil, mais l’outil ne définit pas la gouvernance
- Nécessité de PMO dédié(s) à l’outil pour assurer la mise en place et le suivi de bonnes pratiques d’utilisation de la plateforme (documentation systématique, classification des projets, recherche de méthodes/outils sur des projets historiques, définition et mise en cohérence de règles métier pour les analyses, …)
- Mise en place de sessions de partage de connaissances et de mise en commun de bonnes pratiques liées à l’outil
- Nécessité d’une présentation des outils pour l’acculturation des équipes, et de formation pour les profils amenés à les utiliser
Conclusion sur les plateformes de données
Les métiers de la data étant en constante évolution, ils nécessitent une certaine flexibilité et une capacité des équipes à s’adapter aux nouvelles techniques, outils et processus. La plateforme data peut apporter une réponse à ces défis technologiques et organisationnels, pourvu que les conditions de sa mise en place soient réunies : stratégie data bien définie, existence d’une gouvernance et d’une culture de la donnée.
Avant de se lancer dans le choix d’un tel outil, il est notamment indispensable de faire une estimation du retour sur investissement, l’acquisition de la plateforme et de licences d’utilisation pouvant être très coûteuse.
Dans le prochain article de ce tour d’horizon des plateformes data, nous examinerons l’anatomie de la plateforme data idéale, et ce que l’on peut en attendre sur l’ensemble de la chaîne de valeur de la donnée.
Auteurs :
- Emmanuel Noiraud, Consultant Senior Converteo
- Sébastien Zinn, Consultant Senior Converteo
Source :
* https://www.gartner.com/reviews/market/data-science-machine-learning-platforms