Qu’est-ce qu’un data mesh

Qu’est-ce qu’un data mesh ?

De la même manière que les équipes d’ingénierie logicielle sont passées des applications monolithiques aux architectures microservices, le data mesh est, à bien des égards, la version des microservices pour les plateformes de données.
Selon la première définition de Zhamak Dehghani, consultant chez ThoughtWorks et premier architecte du terme, un data mesh est un type d’architecture de plate-forme de données qui tient compte de l’omniprésence des données dans l’entreprise en s’appuyant sur une conception orientée domaine et libre-service. S’inspirant de la théorie d’Eric Evans sur la conception axée sur le domaine, un paradigme qui fait correspondre la structure et le langage de votre code avec le domaine d’activité correspondant, le data mesh est largement considéré comme le prochain grand changement architectural en matière de données.

Contrairement aux infrastructures de données monolithiques traditionnelles qui gèrent la consommation, le stockage, la transformation et la sortie des données dans un lac de données central, un data mesh prend en charge les consommateurs de données distribués et spécifiques à un domaine, et considère les données comme un produit, chaque domaine gérant ses propres pipelines de données. Le tissu qui relie ces domaines et leurs ressources de données associées est une couche d’interopérabilité universelle qui applique la même syntaxe et les mêmes normes de données.
Au lieu de réinventer la roue de Zhamak, nous allons réduire la définition d’un data mesh à quelques concepts clés et souligner en quoi il diffère des architectures de données traditionnelles.

À un niveau élevé, un data mesh est composé de trois éléments distincts : les sources de données, l’infrastructure de données et les pipelines de données orientés domaine, gérés par des propriétaires fonctionnels. L’architecture data mesh est sous-tendue par une couche d’interopérabilité universelle, reflétant des normes indépendantes du domaine, ainsi que l’observabilité et la gouvernance. (Image reproduite avec l’aimable autorisation de Monte Carlo Data).

Propriétaires de données et pipelines orientés domaine

Les data meshes fédèrent la propriété des données entre les propriétaires de données de domaine qui sont tenus de fournir leurs données en tant que produits, tout en facilitant la communication entre les données distribuées à différents endroits.
Alors que l’infrastructure de données est chargée de fournir à chaque domaine les solutions permettant de les traiter, les domaines sont chargés de gérer l’ingestion, le nettoyage et l’agrégation des données afin de générer des ressources utilisables par les applications de veille stratégique. Chaque domaine est responsable de la propriété de ses pipelines ETL, mais un ensemble de capacités appliquées à tous les domaines qui stocke, catalogue, et maintient les contrôles d’accès pour les données brutes. Une fois que les données ont été servies et transformées par un domaine donné, les propriétaires du domaine peuvent alors exploiter les données pour leurs besoins analytiques ou opérationnels.

Fonctionnalité de libre-service

Les data meshes s’appuient sur les principes de la conception orientée domaine pour fournir une plateforme de données en libre-service qui permet aux utilisateurs de faire abstraction de la complexité technique et de se concentrer sur les cas d’utilisation des données qui leur sont propres.

Comme le souligne Zhamak, l’une des principales préoccupations de la conception orientée domaine est la duplication des efforts et des compétences nécessaires pour maintenir les pipelines de données et l’infrastructure dans chaque domaine. Pour remédier à ce problème, le data mesh rassemble et extrait les capacités de l’infrastructure de données indépendante du domaine dans une plate-forme centrale qui gère les moteurs de pipeline de données, le stockage et l’infrastructure de streaming. Dans le même temps, chaque domaine est chargé d’exploiter ces composants pour exécuter des pipelines ETL personnalisés, en leur fournissant le soutien nécessaire pour servir facilement leurs données ainsi que l’autonomie requise pour s’approprier véritablement le processus.

Interopérabilité et normalisation des communications

Chaque domaine repose sur un ensemble universel de normes de données qui facilite la collaboration entre les domaines lorsque cela s’avère nécessaire, ce qui est souvent le cas. Il est inévitable que certaines données (qu’il s’agisse de sources brutes ou de data sets nettoyés, transformés et servis) aient de la valeur pour plus d’un domaine. Pour permettre une collaboration inter-domaines, le data mesh doit normaliser le formatage, la gouvernance, la découvrabilité et les champs de métadonnées, entre autres caractéristiques des données. En outre, à l’instar d’un microservice individuel, chaque domaine de données doit définir et convenir des accords de niveau de service et des mesures de qualité qu’il « garantira » à ses consommateurs.

Pourquoi utiliser un data mesh ?

Jusqu’à récemment, de nombreuses entreprises utilisaient un entrepôt de données unique connecté à une myriade de plateformes de veille stratégique. Ces solutions étaient maintenues par un petit groupe de spécialistes et fréquemment grevées d’une importante dette technique.
En 2020, l’architecture du jour est un lac de données avec une disponibilité des données en temps réel et un traitement en flux, dans le but d’ingérer, d’enrichir, de transformer et de servir les données à partir d’une plateforme de données centralisée. Pour de nombreuses organisations, ce type d’architecture présente quelques lacunes :

Un pipeline ETL central donne aux équipes moins de contrôle sur les volumes croissants de données.
Comme chaque entreprise devient une entreprise de données, les différents cas d’utilisation des données nécessitent différents types de transformations, ce qui représente une charge importante pour la plateforme centrale.
De tels lacs de données conduisent à des producteurs de données déconnectés, à des consommateurs de données impatients et, pire encore, à une équipe de données en retard qui peine à suivre le rythme des demandes de l’entreprise. Au contraire, les architectures de données orientées domaine, comme les data meshes, offrent aux équipes le meilleur des deux mondes :

  • une base de données centralisée (ou un lac de données distribué) avec des domaines (ou des secteurs d’activité) responsables de la gestion de leurs propres pipelines.

Les data meshes apportent une solution aux défauts des lacs de données en offrant une plus grande autonomie et une plus grande flexibilité aux propriétaires de données, ce qui facilite l’expérimentation et l’innovation en matière de données tout en allégeant la charge des équipes chargées des données, qui doivent répondre aux besoins de chaque consommateur de données par le biais d’un pipeline unique.

Parallèlement, l’infrastructure en tant que plate-forme libre-service des data meshes offre aux équipes chargées des données une approche universelle, indépendante du domaine et souvent automatisée de la normalisation des données, du lineage des produits de données, de la surveillance des produits de données, des alertes, de la journalisation et des mesures de qualité des produits de données (en d’autres termes, de la collecte et du partage des données). Ensemble, ces avantages offrent un avantage concurrentiel par rapport aux architectures de données traditionnelles, qui sont souvent paralysées par le manque de normalisation des données entre les collecteurs et les consommateurs.

Mailler ou ne pas mailler : telle est la question ?

Les équipes qui gèrent un grand nombre de sources de données et qui ont besoin d’expérimenter avec les données (en d’autres termes, de les transformer à un rythme rapide) seraient bien avisées d’envisager de tirer parti d’un data mesh.
Nous avons mis au point un calcul simple pour déterminer s’il est judicieux pour votre organisation d’investir dans un data mesh. Répondez à chaque question, ci-dessous, par un chiffre et additionnez-les pour obtenir un total, en d’autres termes, votre score de data mesh.

  • Quantité de sources de données. Combien de sources de données votre entreprise possède-t-elle ?
  • Taille de votre équipe de données. Combien d’analystes de données, d’ingénieurs de données et de chefs de produit (le cas échéant) votre équipe de données compte-t-elle ?
  • Nombre de domaines de données. Combien d’équipes fonctionnelles (marketing, ventes, opérations, etc.) s’appuient sur vos sources de données pour prendre des décisions, combien de produits votre entreprise possède-t-elle et combien de fonctionnalités data-driven sont en cours de construction ? Faites le total.
  • Goulets d’étranglement de l’ingénierie des données. Sur une échelle de 1 à 10, 1 étant « jamais » et 10 étant « toujours », à quelle fréquence l’équipe d’ingénierie des données constitue-t-elle un goulot d’étranglement pour la mise en œuvre de nouveaux produits de données ?
  • Gouvernance des données. Quel est le degré de priorité de la gouvernance des données pour votre organisation sur une échelle de 1 à 10, 1  ?

Score de data mesh

En général, plus votre score est élevé, plus les besoins de votre entreprise en matière d’infrastructure de données sont complexes et exigeants, et plus votre organisation est susceptible de bénéficier d’un data mesh. Si vous avez obtenu un score supérieur à 10, la mise en œuvre de certaines des meilleures pratiques de data mesh est probablement judicieuse pour votre entreprise. Si vous avez obtenu un score supérieur à 30, votre entreprise se trouve dans la zone de prédilection du data mesh et il serait judicieux que vous rejoigniez la révolution des données.

Voici comment décomposer votre score :

  • 1-15 : Compte tenu de la taille et du caractère unidimensionnel de votre écosystème de données, vous n’avez peut-être pas besoin d’un data mesh.
  • 15-30 : Votre organisation évolue rapidement et peut même se trouver à un carrefour en termes de capacité à s’appuyer sur les données. Nous vous conseillons vivement d’intégrer certaines pratiques et certains concepts de data mesh afin de faciliter une migration ultérieure.
  • 30 ou plus : Votre organisation de données est un moteur d’innovation pour votre entreprise, et un data mesh soutiendra toutes les initiatives en cours ou futures visant à démocratiser les données et à fournir des analyses en libre-service dans toute l’entreprise.

À mesure que les données deviennent plus omniprésentes et que les demandes des consommateurs de données continuent de se diversifier, nous prévoyons que les data meshes deviendront de plus en plus courants pour les entreprises basées sur le cloud comptant plus de 300 employés.

 

Articles connexes

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

TESTEZ LA PERFORMANCE DIGITALE DE VOTRE SITE EN 5 MINUTES, CLIQUEZ ICI :
parcours-performance-digitale
parcours-performance-digitale
CONTACTEZ-NOUS
Une question, une campagne media à lancer ?
Vous êtes au bon endroit !
WINDOWS SERVER
VOUS AVEZ AIMÉ
COVID-19