Qu’est-ce que la Data Virtualization ?

À l’ère moderne, les données d’entreprise se présentent sous de nombreuses formes et sont stockées dans de nombreux endroits. Il existe des données structurées et non structurées, y compris des lignes et des colonnes de données dans une base de données traditionnelle, et des données dans des formats tels que les journaux, le courrier électronique et le contenu des médias sociaux. Les Big Data, sous leurs nombreuses formes, sont stockées dans des bases de données, des fichiers journaux, des applications CRM, SaaS et autres.

Alors comment obtenir une vue d’ensemble de vos données lointaines et les gérer sous toutes leurs formes disparates ? Vous utilisez la Data Virtualization, un terme général pour décrire toute approche de la gestion des données de référence qui permet de récupérer et de manipuler des données sans savoir où elles sont stockées ni comment elles sont formatées.

La Data Virtualization intègre des données provenant de sources disparates sans les copier ou les déplacer, donnant ainsi aux utilisateurs une couche virtuelle unique qui couvre plusieurs applications, formats et emplacements physiques. Cela signifie un accès plus rapide et plus facile aux données.

C’est le nec plus ultra de l’intégration moderne des données, car elle brise les silos et les formats, en effectuant la réplication et la fédération des données en temps réel, ce qui permet une plus grande rapidité et agilité et un meilleur temps de réponse. Il facilite l’exploration des données, permet une analyse efficace des données et est essentiel pour les outils d’analyse prédictive. L’utilisation efficace de l’apprentissage machine et de l’intelligence artificielle est peu probable sans la Data Virtualization.

Il convient de noter que la Data Virtualization n’est pas un réplicateur de magasin de données. La Data Virtualization ne persiste normalement pas et ne réplique pas les données des systèmes sources. Elle ne stocke que des métadonnées pour les vues virtuelles et la logique d’intégration. La mise en cache peut être utilisée pour améliorer les performances mais, dans l’ensemble, la Data Virtualization est conçue pour être très légère et agile.

Data Virtualization

La Data Virtualization combine des données provenant de sources disparates dans des formats digestibles, ce qui accélère considérablement l’efficacité de l’exploration des données.

Capacités de Data Virtualization
En raison de son abstraction et de sa fédération, la Data Virtualization est idéale pour une utilisation avec Big Data. Elle masque la complexité des magasins Big Data, qu’il s’agisse de magasins Hadoop ou NoSQL, et facilite l’intégration des données de ces magasins avec d’autres données de l’entreprise. Après tout, c’est le but de la Data Virtualization, et les Big Data sont intrinsèquement hétérogènes.

Un autre avantage du Big Data est ce que l’on appelle le déchargement de l’entrepôt de données ou le partitionnement horizontal, où les données plus anciennes et moins fréquemment consultées sont déplacées de l’entrepôt de données vers un stockage moins coûteux et de commodité. Vous pouvez les transférer d’un SSD vers un disque dur ou une bande, par exemple, ou, dans une situation de Cloud, vers Glacier d’Amazon Web Service pour le stockage au froid.

La Data Virtualization offre donc un certain nombre de possibilités :

  • Réduction des coûts : Il est moins coûteux de stocker et de conserver des données que de les reproduire et de dépenser des ressources pour les transformer en différents formats et emplacements.
  • Abstraction et découplage logique : Les sources de données hétérogènes peuvent désormais interagir plus facilement grâce à la Data Virtualization.
  • Gouvernance des données : Grâce à une gestion centralisée, les problèmes de gouvernance des données peuvent être réduits et les règles peuvent être appliquées plus facilement à toutes les données à partir d’un seul endroit.
  • Rapprochement entre les données structurées et non structurées : La Data Virtualization peut combler les différences sémantiques entre les données structurées et non structurées, l’intégration est plus facile et la qualité des données s’améliore dans tous les domaines.

Augmentation de la productivité :

Outre l’intégration des données mentionnée ci-dessus, la virtualisation facilite également le test et le déploiement d’applications data-driven, car l’intégration des sources de données prend moins de temps.
Il faut également garder à l’esprit ce que la virtualisation des données n’est pas :

Ce n’est pas une virtualisation ordinaire. Lorsque le terme « virtualisation » est utilisé, il fait généralement référence à la virtualisation du matériel des serveurs. Il n’y a pas d’autre lien entre les deux, si ce n’est le mot.
Il ne s’agit pas non plus de stockage de données virtualisé. Certaines entreprises et certains produits utilisent le terme « Data Virtualization » pour décrire des produits de virtualisation de logiciels de base de données ou de matériel de stockage, mais il s’agit de produits de stockage de données autonomes, et non d’un moyen de recouvrir des sources de données.
Il ne s’agit pas de visualisation de données. Les deux sonnent de manière similaire mais la visualisation est l’affichage de données dans des tableaux, des graphiques, des cartes, des rapports, des images en 3D, etc. La visualisation des données est réalisée par la Data Virtualization parce qu’elle extrait les données de nombreuses sources différentes.
Il ne s’agit pas d’une fédération de données. Nous y reviendrons plus tard, mais pour l’instant, la Data Virtualization et la fédération de données sont deux sujets différents, bien que certaines personnes utilisent les termes de manière interchangeable, ce qui est incorrect.

Il ne s’agit pas d’un entrepôt de données logique. Le LDW est un concept architectural, pas une plate-forme. Vous tirez des données d’un LDW par le biais de la Data Virtualization.
Ce n’est pas un conteneur. Par contraste avec les conteneurs, la virtualisation est plus ou moins une couche abstraite, alors que les conteneurs sont un emballage logiciel pour une application et ses divers composants.
Cas d’utilisation de la Data Virtualization
La Data Virtualization a de nombreux usages, puisqu’il s’agit simplement d’insérer une couche d’accès aux données entre des sources de données disparates et des consommateurs de données, comme des tableaux de bord ou des outils de visualisation. Voici quelques-uns des cas d’utilisation les plus courants :

Intégration des données

C’est le cas le plus probable que vous rencontrerez, puisque pratiquement chaque entreprise possède des données provenant de nombreuses sources différentes. Il faut donc établir un lien entre une ancienne source de données, hébergée dans une configuration client/serveur, et de nouveaux systèmes numériques comme les médias sociaux. Vous utilisez des connexions, comme Java DAO, ODBC, SOAP ou d’autres API, et vous recherchez vos données dans le catalogue de données. Le plus difficile est de créer les connexions, même avec la Data Virtualization.

Entrepôts de données logiques

L’entrepôt de données logique a une fonction similaire à celle de l’entrepôt de données traditionnel, à quelques exceptions près. Pour commencer, contrairement à un entrepôt de données, où les données sont préparées, filtrées et stockées, aucune donnée n’est stockée dans un LDW. Les données résident à la source, quelle qu’elle soit, y compris dans un entrepôt de données traditionnel. De ce fait, aucune infrastructure n’est nécessaire ; vous utilisez les entrepôts de données existants. Un bon progiciel de LDW fédère toutes les sources de données et fournit une plate-forme unique pour l’intégration en utilisant une gamme de services, comme SOAP, REST, Odata, SharePoint et ADO.Net.

Big Data et analyse prédictive
Là encore, la nature de la Data Virtualization fonctionne bien car les Big Data et l’analyse prédictive reposent sur des sources de données hétérogènes. Il ne s’agit pas seulement de puiser dans une base de données Oracle, les Big Data proviennent de choses comme l’utilisation des téléphones portables, les médias sociaux et le courrier électronique. La Data Virtualization se prête donc à ces méthodologies très diverses.

Utilisations opérationnelles
L’un des grands maux de tête des centres d’appel ou des applications de service à la clientèle est le cloisonnement des données, et cela est resté ainsi pendant longtemps. Une banque aurait besoin d’un centre d’appel différent pour les cartes de crédit que pour les prêts immobiliers, par exemple. Grâce à la Data Virtualization, qui permet d’accéder aux silos de données, tout le monde, du centre d’appel au gestionnaire de la base de données, peut voir l’ensemble des données stockées à partir d’un seul point d’accès.

Abstraction et découplage
C’est le revers de la médaille de tous les éléments d’unification évoqués ci-dessus. Il existe peut-être des sources de données que vous souhaitez isoler, soit en raison de sources douteuses, de règles de confidentialité ou d’autres réglementations de conformité. La Data Virtualization vous permet d’isoler une source de données particulière de certains utilisateurs qui ne devraient pas avoir accès à ces données.

Data Virtualization : Sujets connexes

Data Virtualization vs. fédération de données
Ces deux termes sont souvent utilisés de manière interchangeable, ce qui est une erreur. La fédération de données est un type de Data Virtualization. Il s’agit de deux techniques destinées à simplifier l’accès des applications aux données. La différence est que la fédération de données est utilisée pour fournir une forme unique d’accès aux bases de données virtuelles avec des modèles de données stricts. La Data Virtualization n’utilise pas de modèle de données et peut accéder à divers types de données.

Data Virtualization contre Data Lake
La Data Virtualization et les lacs de données ne sont pas des concurrents et ne doivent pas être confondus. Un lac de données, qui n’est qu’un énorme dépôt de données non traitées et non structurées, est l’une des nombreuses sources de données que vous connectez dans un environnement de Data Virtualization. (Au fait, il est également utile de comprendre la différence entre un lac de données et un entrepôt de données).

Data Virtualization vs. intégration des données
L’intégration des données est une chose que vous faites et la Data Virtualization est le moyen d’y parvenir. L’intégration, comme son nom l’indique, est le processus qui consiste à combiner des données provenant de magasins de données hétérogènes pour créer une vue unifiée de toutes ces données. Vous utilisez la Data Virtualization pour relier les différents silos de données, puis vous effectuez la jonction, la transformation, l’enrichissement et le nettoyage des données avant de les intégrer dans un tableau de bord ou une autre méthode de visualisation.

Architecture de Data Virtualization
Les solutions  doivent être souples afin de s’adapter aux exigences changeantes de l’entreprise. De nouvelles sources de données seront constamment ajoutées et certaines supprimées. Et à mesure que vous ajouterez de nouvelles sources, le risque de complexité et de lenteur de la mise à l’échelle apparaîtra. En outre, il se peut que le code se chevauche, ce qui ajoute une complexité inutile. Pour éviter tout cela, gardez les points suivants à l’esprit :

  • Construisez vos applications en adoptant une approche par couches pour isoler la logique métier et les composants de transformation.
  • Établissez des règles strictes pour les normes telles que la dénomination, la réutilisabilité et l’isolation des couches.
  • Utilisez des outils de modélisation de la virtualisation des données tels que PowerDesigner, TIBCO Data Virtualization, Cisco Data Virtualization et Oracle Data Service Integrator.
  • Impliquer les équipes chargées de l’architecture des données, de la sécurité des données et de la gouvernance des données dès le début pour construire les connecteurs de données dans le respect total de la réglementation
  • Déterminer qui a quelles responsabilités pour la plate-forme de Data Virtualization.

Outils de Data Virtualization

Les plates-formes de Data Virtualization sont toutes conçues pour couvrir des sources de données disparates via une interface unifiée, mais elles y parviennent toutes par un chemin différent. Quelques grands noms sont entrés sur le marché, mais ils sont partis depuis. Parmi eux, Cisco, qui a vendu son produit de virtualisation des données à TIBCO en 2017, et IBM, qui a fait son entrée sur le marché en 2014 mais qui ne vend plus le SmartCloud Data Virtualization d’IBM.

Voici une liste des produits de virtualisation de données les plus connus.

DataCurrent – Met l’accent sur les données stockées dans les référentiels NoSQL, les services de Cloud et les données d’application ainsi que sur la prise en charge des outils de business intelligence pour se connecter à ces sources de données.

Denodo – Spécialisé dans les données en temps réel, Denodo est connu pour être facile à apprendre et à utiliser.

Oracle Data Service Integrator – Puissant intégrateur de données qui fonctionne au mieux avec les produits Oracle/

Red Hat JBoss Data Virtualization – Écrit en Java, fonctionne mieux avec n’importe quelle interface JDBC. On dit que l’ODBC fait défaut.

SAS Federation Server – Met l’accent sur la sécurité des données.

TIBCO Data Virtualization – Connu pour la connexion à une grande variété de sources de données

Articles connexes

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

TESTEZ LA PERFORMANCE DIGITALE DE VOTRE SITE EN 5 MINUTES, CLIQUEZ ICI :
parcours-performance-digitale
parcours-performance-digitale
CONTACTEZ-NOUS
Une question, une campagne media à lancer ?
Vous êtes au bon endroit !
WINDOWS SERVER
VOUS AVEZ AIMÉ
COVID-19