Qu’est-ce que le data fabric ?

Il existe des fournisseurs qui vous feront croire que leur produit est un exemple de data fabric – certains ont même le mot « Data Fabric » dans le nom de leur produit.

Tout cela part sans doute d’une bonne intention, mais crée une certaine confusion sur le marché. Le Gartner estime qu’il n’existe pas de fournisseur unique qui réponde à l’ensemble des besoins requis pour créer une data fabric, du moins pas aujourd’hui.

Gartner définit la data fabric comme « un concept de conception qui sert de couche intégrée (fabric) de données et de processus de connexion. Une data fabric utilise des analyses continues sur les métadonnées existantes, découvrables et référencées pour prendre en charge la conception, le déploiement et l’utilisation de données intégrées et réutilisables dans tous les environnements, y compris les plateformes hybrides et multi-clouds. »

Bon, il est temps de s’y mettre : Selon Gartner, une data fabric est un concept de conception. En d’autres termes, une data fabric n’est pas une chose ou un produit unique. Elle est au contraire composable, constituée d’un ensemble de technologies intégrées qui accélèrent la valeur des métadonnées d’entreprise. Gartner reconnaît également que les données se trouvent aujourd’hui partout dans les environnements hybrides et multi-clouds (ce qui, à ce stade, devrait aller de soi).

Concept de conception. Métadonnées. Hybride et multi-cloud. Ce sont les termes importants de la définition de Gartner, mais pourquoi avons-nous besoin de data fabric en premier lieu ?

Les métadonnées sont la clé pour alimenter les cas d’utilisation de l’intelligence des données dans tous les domaines, y compris la recherche et la découverte de données et la gouvernance des données. Mais accéder aux métadonnées et leur donner un sens est extrêmement difficile dans l’environnement actuel. L’une des raisons principales est que les métadonnées sont partout. Elles se trouvent dans tous les types de systèmes de data management, des bases de données aux outils ERP, en passant par les logiciels d’intégration de données. Et les métadonnées peuvent se trouver à de nombreux endroits différents, y compris sur site, dans le cloud et partout ailleurs.

L’être humain a du mal à trouver les métadonnées pertinentes, et encore plus à leur donner un sens. Data Fabric est la réponse à ce problème. En utilisant des technologies pour automatiser la découverte, l’analyse continue et la réutilisation des métadonnées, les organisations peuvent surmonter les défis liés à leur prolifération et réduire les efforts manuels sources d’erreurs qui accompagnent leur exploitation.

Alors, qu’en est-il du data mesh ?

C’est Zhamak Dehghani, de Thoughtworks, qui a conçu le data mesh dans un billet de blog en mai 2019. Des articles ultérieurs ont clarifié les aspects architecturaux du data mesh, mais tous restent fidèles à la vision et à l’approche fondatrices présentées pour la première fois en 2019. Les fournisseurs ont maintenant commencé à donner leur propre tournure au data mesh, ce qui va sans doute introduire une certaine confusion. Pourtant, ces fournisseurs citent universellement les travaux de Dehghani comme base de leur « prise » du data mesh.

Son origine est claire, mais une définition claire est plus difficile à trouver. Heureusement, ce blog d’Arif Wider, également chez Thoughtworks, nous donne exactement ce dont nous avons besoin :

« Le paradigme du data mesh est un candidat sérieux pour supplanter le lac de données comme modèle architectural dominant dans le domaine des données et de l’analyse. Il est important de noter que le data mesh introduit principalement une nouvelle perspective organisationnelle et est indépendant des technologies spécifiques. Son idée maîtresse est d’appliquer une conception et une réflexion sur les produits axées sur le domaine aux défis de l’espace de données et d’analyse. Comparable à l’introduction d’une culture DevOps, l’établissement d’une culture data mesh consiste à connecter les gens, à susciter l’empathie et à créer une structure de responsabilités fédérées. »

Ici, Wider appelle à une nouvelle approche architecturale, qui supplantera le lac de données. Mais pourquoi ? On a beaucoup écrit sur la façon dont les lacs de données nous ont tous fait défaut. Ils se sont transformés en marécages de données en raison d’un manque d’organisation, de gouvernance et d’accessibilité. Pour Wider, le problème sous-jacent des lacs de données est simple et peut être résumé en un mot : centralisation.

Une équipe centrale est responsable de la maintenance de l’infrastructure centrale (alias lac de données). Cette équipe est généralement déconnectée des besoins des consommateurs de données et ne possède pas l’expertise du domaine des producteurs de données. Pourtant, elle est là, obligée de jouer les intermédiaires entre les consommateurs et les producteurs parce que l’architecture dominante du lac de données oblige les équipes à être organisées de cette façon. Le résultat final est une équipe qui n’évolue pas, et des données servies aux consommateurs qui peuvent ou non répondre à leurs besoins de qualité.

Data mesh inverse ce modèle avec une conception axée sur le domaine et une réflexion sur le produit. Les responsabilités sont distribuées aux personnes qui sont les plus proches des données. Ces propriétaires de produit sont responsables de la livraison des données en tant que produit et, en tant que tels, ils sont responsables des mesures objectives. En d’autres termes, le data mesh est une affaire de personnes, qui appelle à un changement de responsabilités afin de garantir que des données de haute qualité soient mises entre les mains des consommateurs de données plus rapidement et plus efficacement.

Voilà, vous l’avez compris. Malgré le battage médiatique, le data mesh et le data fabric sont complémentaires plutôt que rivaux. Ce qui est indiscutable, c’est que les deux connaissent leur « moment » et qu’il est plus que probable qu’ils continueront à le faire en 2022 et au-delà.