Qu’est-ce qu’un Data Mart dans un Data Warehouse ?
Qu’est-ce qu’un Data Mart ?
Un Data Mart est centré sur un seul domaine fonctionnel d’une organisation et contient un sous-ensemble de données stockées dans un Data Warehouse. Un Data Mart est une version condensée du Data Warehouse et est conçu pour être utilisé par un département, une unité ou un ensemble d’utilisateurs spécifiques dans une organisation. Par exemple, le marketing, les ventes, les RH ou les finances. Il est souvent contrôlé par un seul département dans une organisation.
Comparé à un entrepôt de données, un Data Mart tire généralement ses données de quelques sources seulement. Les Data Mart sont de petite taille et sont plus flexibles qu’un Datawarehouse.
Pourquoi avons-nous besoin de Data Mart ?
Le Data Mart permet d’améliorer le temps de réponse de l’utilisateur grâce à la réduction du volume de données.
Il permet un accès facile aux données fréquemment demandées.
Les Data Mart sont plus simples à mettre en œuvre par rapport aux Datawarehouse d’entreprise. En même temps, le coût de mise en œuvre d’un Data Mart est certainement inférieur à celui de la mise en œuvre d’un entrepôt de données complet.
Comparé à un entrepôt de données, un datamart est agile. En cas de changement de modèle, le datamart peut être construit plus rapidement en raison de sa taille réduite.
Un datamart est défini par un seul expert en la matière. Au contraire, un entrepôt de données est défini par des PME interdisciplinaires provenant de divers domaines. Par conséquent, le Data Mart est plus ouvert au changement que le Datawarehouse.
Les données sont partitionnées et permettent des privilèges de contrôle d’accès très granulaires.
Les données peuvent être segmentées et stockées sur différentes plateformes matérielles/logicielles.
Types de Data Mart
Il existe trois principaux types de Data Mart :
- Dépendant : Les data marts dépendants sont créés en puisant les données directement dans des sources opérationnelles, externes ou les deux.
- Indépendant : Le data mart indépendant est créé sans l’utilisation d’un entrepôt de données central.
- Hybride : Ce type de data marts peut prendre des données provenant d’entrepôts de données ou de systèmes opérationnels.
Un Data Mart dépendant permet d’obtenir les données de l’organisation à partir d’un seul entrepôt de données. C’est l’un des exemples de data mart qui offre l’avantage de la centralisation. Si vous devez développer un ou plusieurs data marts physiques, vous devez les configurer comme des data marts dépendants.
Un Data Mart dépendant dans un entrepôt de données peut être construit de deux manières différentes. Soit lorsqu’un utilisateur peut accéder à la fois au data mart et à l’entrepôt de données, en fonction de ses besoins, soit lorsque l’accès est limité uniquement au data mart. La deuxième approche n’est pas optimale car elle produit parfois ce qu’on appelle un data junkyard. Dans le data junkyard, toutes les données partent d’une source commune, mais elles sont mises au rebut, et surtout jetées.
Data Mart indépendant
Un Data Mart indépendant est créé sans l’utilisation d’un entrepôt de données central. Ce type de Data Mart est une option idéale pour les petits groupes au sein d’une organisation.
Un Data Mart indépendant n’a aucune relation avec l’entrepôt de données de l’entreprise ni avec aucun autre Data Mart. Dans un Data Mart indépendant, les données sont saisies séparément, et leurs analyses sont également effectuées de manière autonome.
La mise en œuvre de data marts indépendants va à l’encontre de la motivation de la construction d’un entrepôt de données. Tout d’abord, vous avez besoin d’un magasin cohérent et centralisé de données d’entreprise qui peut être analysé par de multiples utilisateurs ayant des intérêts différents et qui veulent des informations très variées.
Data Mart hybride
Un Data Mart hybride combine des données provenant de sources autres que l’entrepôt de données. Cela peut être utile lorsque vous souhaitez une intégration ad-hoc, comme après l’ajout d’un nouveau groupe ou d’un nouveau produit dans l’organisation.
C’est le meilleur exemple de data mart adapté aux environnements de bases de données multiples et à une mise en œuvre rapide pour toute organisation. Il nécessite également le moins d’efforts de nettoyage des données. Le Data Mart hybride prend également en charge les grandes structures de stockage, et il est le mieux adapté à la flexibilité pour les petites applications centrées sur les données.
Étapes de la mise en œuvre d’un Data Mart
La mise en œuvre d’un Data Mart est une procédure gratifiante mais complexe. Voici les étapes détaillées de l’implémentation d’un Data Mart :
Conception
La conception est la première phase de l’implémentation d’un Data Mart. Elle couvre toutes les tâches entre l’initiation de la demande d’un Data Mart et la collecte d’informations sur les exigences. Enfin, nous créons la conception logique et physique du Data Mart.
L’étape de conception implique les tâches suivantes :
- Recueillir les exigences commerciales et techniques et Identifier les sources de données.
- Sélectionner le sous-ensemble de données approprié.
- Concevoir la structure logique et physique du Data Mart.
Les données peuvent être partitionnées en fonction des critères suivants :
- Date
- Unité opérationnelle ou fonctionnelle
- Géographie
Les données peuvent être partitionnées au niveau de l’application ou du SGBD. Il est toutefois recommandé de partitionner au niveau de l’application car cela permet de changer de modèle de données chaque année en fonction de l’évolution de l’environnement commercial.
De quels produits et technologies avez-vous besoin ?
Un simple stylo et du papier suffisent. Les outils qui vous aident à créer des diagrammes UML ou ER peuvent également ajouter des métadonnées à vos conceptions logiques et physiques.
Construire
Il s’agit de la deuxième phase de la mise en œuvre. Elle consiste à créer la base de données physique et les structures logiques.
Cette étape implique les tâches suivantes :
La mise en œuvre de la base de données physique conçue dans la phase précédente. Par exemple, les objets du schéma de base de données tels que les tables, les index, les vues, etc. sont créés.
De quels produits et technologies avez-vous besoin ?
Vous avez besoin d’un système de gestion de base de données relationnelle pour construire un data mart. Les SGBDR ont plusieurs caractéristiques qui sont nécessaires pour le succès d’un Data Mart.
Gestion du stockage : Un SGBDR stocke et gère les données pour créer, ajouter et supprimer des données.
Accès rapide aux données : Avec une requête SQL, vous pouvez facilement accéder aux données en fonction de certaines conditions/filtres.
Protection des données : Le système SGBDR offre également un moyen de récupérer des pannes de système telles que les coupures de courant. Il permet également de restaurer les données à partir de ces sauvegardes en cas de défaillance du disque.
Support multi-utilisateurs : Le système de data management offre un accès simultané, c’est-à-dire la possibilité pour plusieurs utilisateurs d’accéder aux données et de les modifier sans interférer ou écraser les changements effectués par un autre utilisateur.
Sécurité : Le système RDMS permet également de réguler l’accès des utilisateurs aux objets et à certains types d’opérations.
Remplissage :
Dans la troisième phase, les données sont peuplées dans le data mart.
L’étape de peuplement implique les tâches suivantes :
- Cartographie des données sources vers les données cibles
- Extraction des données source
- Opérations de nettoyage et de transformation des données
- Chargement des données dans le data mart
- Création et stockage des métadonnées
- De quels produits et technologies avez-vous besoin ?
Vous accomplissez ces tâches de population en utilisant un outil ETL (Extract Transform Load). Cet outil vous permet d’examiner les sources de données, d’effectuer un mappage source/cible, d’extraire les données, de les transformer, de les nettoyer et de les charger à nouveau dans le data mart.
Au cours de ce processus, l’outil crée également des métadonnées relatives à des éléments tels que l’origine des données, leur caractère récent, le type de modifications apportées aux données et le niveau de compression effectué.
L’accès est la quatrième étape qui consiste à mettre les données à profit : interroger les données, créer des rapports, des graphiques et les publier. L’utilisateur final soumet des requêtes à la base de données et affiche les résultats de ces requêtes.
L’étape d’accès doit effectuer les tâches suivantes :
Mettre en place une couche méta qui traduit les structures de la base de données et les noms des objets en termes commerciaux. Cela aide les utilisateurs non techniques à accéder facilement au Data Mart.
Mettre en place et maintenir les structures de la base de données.
Configurer l’API et les interfaces si nécessaire.
De quels produits et technologies avez-vous besoin ?
Vous pouvez accéder au Data Mart en utilisant la ligne de commande ou l’interface graphique. L’interface graphique est préférée car elle peut facilement générer des graphiques et est conviviale par rapport à la ligne de commande.
Gérer
C’est la dernière étape du processus de mise en œuvre du Data Mart. Cette étape couvre les tâches de gestion telles que
La gestion continue de l’accès des utilisateurs.
L’optimisation et le réglage fin du système pour obtenir des performances accrues.
L’ajout et la gestion de nouvelles données dans le Data Mart.
La planification de scénarios de récupération et la garantie de la disponibilité du système en cas de défaillance.
De quels produits et technologies avez-vous besoin ?
Vous pouvez utiliser l’interface graphique ou la ligne de commande pour la gestion du data mart.
Meilleures pratiques pour la mise en œuvre de Data Mart
Voici les meilleures pratiques que vous devez suivre lors du processus de mise en œuvre d’un Data Mart :
- La source d’un Data Mart doit être structurée par département.
- Le cycle de mise en œuvre d’un Data Mart devrait être mesuré en périodes courtes, c’est-à-dire en semaines au lieu de mois ou d’années.
- Il est important d’impliquer toutes les parties prenantes dans la phase de planification et de conception car la mise en œuvre du Data Mart peut être complexe.
- Les coûts du matériel/logiciel, de la mise en réseau et de la mise en œuvre du Data Mart doivent être budgétisés avec précision dans votre plan.
- Même si le Data Mart est créé sur le même matériel, il peut avoir besoin de logiciels différents pour traiter les requêtes des utilisateurs. La puissance de traitement supplémentaire et les besoins en stockage sur disque doivent être évalués pour une réponse rapide des utilisateurs.
- Un Data Mart peut se trouver à un endroit différent de l’entrepôt de données. C’est pourquoi il est important de s’assurer qu’ils ont une capacité de mise en réseau suffisante pour gérer les volumes de données nécessaires au transfert des données vers le data mart.
- Le coût de mise en œuvre doit budgétiser le temps pris pour le processus de chargement du Datamart. Le temps de chargement augmente avec la complexité des transformations.
Avantages et inconvénients d’un Data Mart
Avantages
Les Data Mart contiennent un sous-ensemble des données de l’organisation. Ces données ont de la valeur pour un groupe spécifique de personnes dans une organisation.
C’est une alternative économique à un entrepôt de données, dont la construction peut coûter cher.
Data Mart permet un accès plus rapide aux données.
Le Data Mart est facile à utiliser car il est spécifiquement conçu pour les besoins de ses utilisateurs. Ainsi, un Data Mart peut accélérer les processus métier.
Les Data Mart nécessitent moins de temps de mise en œuvre que les systèmes d’entrepôt de données. Il est plus rapide de mettre en œuvre un Data Mart car il suffit de se concentrer sur un seul sous-ensemble de données.
Il contient des données historiques qui permettent à l’analyste de déterminer les tendances des données.
Inconvénients
Souvent, les entreprises créent un trop grand nombre de data marts disparates et sans rapport entre eux, sans grand bénéfice. Cela peut devenir un gros obstacle à maintenir.
Les Data Mart ne peuvent pas fournir une analyse des données à l’échelle de l’entreprise car leur data set est limité.