Stockage des Big Data

Le stockage des Big Data est une architecture de calcul et de stockage qui recueille et gère de grands ensembles de données et permet l’analyse des données en temps réel. Les entreprises appliquent l’analyse des Big Data pour tirer davantage d’intelligence des métadonnées. Dans la plupart des cas, le stockage Big Data utilise des disques durs à faible coût, bien que la modération des prix de la technologie flash semble avoir ouvert la voie à l’utilisation de la technologie flash dans les serveurs et les systèmes de stockage comme base du stockage Big Data. Ces systèmes peuvent être entièrement flash ou des hybrides mêlant stockage sur disque et flash.
Dans le Big Data, les données elles-mêmes ne sont pas structurées, ce qui signifie que le stockage est principalement basé sur des fichiers et des objets.

Bien qu’une taille ou une capacité de volume spécifique ne soit pas formellement définie, le stockage Big Data fait généralement référence à des volumes qui croissent de manière exponentielle à l’échelle du téraoctet ou du pétaoctet.

La grande promesse derrière le Big Data
Plusieurs facteurs ont favorisé l’essor du Big Data. Les gens stockent et conservent aujourd’hui plus d’informations que jamais auparavant en raison de la numérisation généralisée des documents papier dans les entreprises. La prolifération des dispositifs de l’Internet des objets (IoT) basés sur des capteurs a entraîné une augmentation correspondante du nombre d’applications basées sur l’intelligence artificielle (AI), qui est une technologie habilitante pour le machine learning. Ces appareils génèrent leurs propres données sans intervention humaine.

Une idée fausse concernant le Big Data est que le terme fait uniquement référence à la taille du data set. Bien que cela soit vrai dans l’ensemble, la science qui sous-tend le big data est plus ciblée. L’intention est d’exploiter des sous-ensembles spécifiques de données à partir de plusieurs grands volumes de stockage. Ces données peuvent être largement dispersées dans différents systèmes et ne pas avoir de corrélation évidente. L’objectif est d’unifier les données avec une structure et une intelligence permettant de les analyser rapidement.

La capacité de collecter différentes données provenant de diverses sources et de placer ces associations dans un contexte compréhensible permet à une organisation de glaner des détails qui ne seraient pas évidents autrement. L’analyse est utilisée pour éclairer la prise de décision, par exemple en examinant le comportement de navigation en ligne pour adapter les produits et services aux habitudes ou aux préférences d’un client.

L’analyse des Big Data a ouvert la voie à l’émergence des organisations DevOps en tant que branche analytique stratégique au sein de nombreuses entreprises. Les entreprises des secteurs de la finance, de la santé et de l’énergie ont besoin d’analyser les données pour repérer les tendances et améliorer leurs fonctions. Dans le passé, les entreprises étaient limitées à l’utilisation d’un entrepôt de données ou d’un cluster de calcul haute performance (HPC) pour paralléliser le traitement par lots de données structurées, un processus qui pouvait prendre des jours, voire des semaines.

En revanche, l’analyse des Big Data traite de grandes données semi-structurées ou non structurées et diffuse les résultats en quelques secondes. Google et Facebook exploitent le stockage rapide des big data pour diffuser des publicités ciblées aux utilisateurs lorsqu’ils surfent sur Internet, par exemple. Un entrepôt de données ou un cluster HPC peut être utilisé séparément comme complément d’un système Big Data.

Le cabinet d’analystes IDC estime que le marché du matériel, des services et des logiciels de stockage des données volumineuses générera 151 milliards de dollars en 2017, puis un taux de croissance annuel composé de près de 12 % jusqu’en 2020, date à laquelle les recettes devraient atteindre 210 milliards de dollars.

La demande de stockage de Big Data approchera les 163 zettaoctets d’ici 2025, selon un rapport distinct publié en 2017 par IDC et Seagate. Le rapport attribue cette croissance à l’utilisation accrue de l’informatique cognitive, des systèmes embarqués, du machine learning, des appareils mobiles et de la sécurité.

Les composants de l’infrastructure de stockage du big data.
Un système de stockage big data regroupe un grand nombre de serveurs de base reliés à un disque de grande capacité pour prendre en charge les logiciels d’analyse écrits pour croquer de grandes quantités de données. Le système s’appuie sur des bases de données de traitement massivement parallèle pour analyser des données provenant de diverses sources.

Les Big Data manquent souvent de structure et proviennent de sources diverses, ce qui les rend peu adaptées au traitement par une base de données relationnelle. Le système de fichiers distribués Apache Hadoop (HDFS) est le moteur d’analyse le plus répandu pour le Big Data, et il est généralement associé à une base de données NoSQL.

Méthodes de stockage des Big Data

Dans cette vidéo, Ben Woo, rédacteur en chef de Neuralytix, parle d’Hadoop et du stockage pour les projets Big Data.

Ben Woo, rédacteur en chef de Neuralytix Inc. discute d’Hadoop et du stockage pour les projets Big Data.

Hadoop est un open source software écrit dans le langage de programmation Java. HDFS répartit l’analyse des données sur des centaines, voire des milliers de nœuds de serveur, sans perte de performance. Grâce à son composant MapReduce, Hadoop distribue le traitement de cette manière afin de se prémunir contre les défaillances catastrophiques. Les multiples nœuds servent de plate-forme pour l’analyse des données à la périphérie d’un réseau. Lorsqu’une requête arrive, MapReduce exécute le traitement directement sur le nœud de stockage sur lequel résident les données. Une fois l’analyse terminée, MapReduce rassemble les résultats collectifs de chaque serveur et les « réduit » pour présenter une seule réponse cohérente.

Comment le stockage des Big Data se compare-t-il au stockage traditionnel des entreprises ?

Le Big Data peut apporter à une entreprise un avantage concurrentiel grâce à l’analyse statistique à grande échelle des données ou de leurs métadonnées. Dans un environnement Big Data, les analyses portent principalement sur un ensemble de données circonscrites, et utilisent une série de prévisions de modélisation prédictive basée sur l’exploration de données pour évaluer les comportements des clients ou la probabilité d’événements futurs.

L’analyse et la modélisation statistiques des Big Data sont de plus en plus utilisées dans de nombreux secteurs, notamment l’aérospatiale, les sciences de l’environnement, l’exploration énergétique, les marchés financiers, la génomique, les soins de santé et la vente au détail. Une plateforme Big Data est conçue pour une échelle, une vitesse et des performances bien supérieures à celles du stockage d’entreprise traditionnel. En outre, dans la plupart des cas, le stockage Big Data cible un ensemble beaucoup plus limité de charges de travail sur lesquelles il fonctionne.

Par exemple, vos systèmes de planification des ressources d’entreprise peuvent être rattachés à un réseau de stockage (SAN) dédié. Dans le même temps, votre système de stockage en réseau en cluster (NAS) prend en charge les bases de données transactionnelles et les données de vente de l’entreprise, tandis qu’un cloud privé gère l’archivage sur site.

Il n’est pas rare que les grandes entreprises disposent de plusieurs environnements SAN et NAS qui prennent en charge des charges de travail distinctes. Chaque silo de stockage de l’entreprise peut contenir des éléments de données qui se rapportent à votre projet Big Data.

Antony Adshead, rédacteur en chef du site de Computer Weekly, explique ce qui définit le Big Data et les principaux attributs requis pour le stockage des Big Data.

Les systèmes de stockage traditionnels gèrent un plus grand nombre de charges de travail d’application. La pratique généralement admise dans le secteur du stockage primaire consiste à attribuer un niveau de service individuel à chaque application pour régir la disponibilité, les politiques de sauvegarde, l’accès aux données, les performances et la sécurité. Le stockage utilisé pour la production — les activités qu’une entreprise utilise quotidiennement pour générer des revenus — exige un temps de disponibilité élevé, alors que les projets de stockage Big Data peuvent tolérer une latence plus élevée.

Les trois V des technologies de stockage du Big Data

Le stockage pour le big data est conçu pour collecter des données volumineuses produites à des vitesses variables par des sources multiples et dans des formats variés. Les experts du secteur décrivent ce processus comme les trois V : la variété, la vélocité et le volume des données.

La variété décrit les différentes sources et types de données à exploiter. Les sources comprennent les fichiers audio, les documents, les courriels, le stockage de fichiers, les images, les données de journal, les messages sur les médias sociaux, les vidéos en continu et les flux de clics des utilisateurs.

La vélocité concerne la vitesse à laquelle le stockage est capable d’ingérer de gros volumes de données et d’exécuter des opérations analytiques sur ces données. Le volume tient compte du fait que les scripts des applications modernes sont volumineux et ne cessent de croître, dépassant les capacités de stockage des systèmes existants.

Selon certains experts, le stockage des Big Data doit comporter un quatrième V : la véracité. Il s’agit de s’assurer que les sources de données exploitées sont dignes de confiance. L’un des principaux écueils de l’analyse des big data est que les erreurs ont tendance à s’accumuler, par corruption, erreur de l’utilisateur ou autre. La véracité peut être l’élément le plus important et le problème le plus difficile à résoudre, dans de nombreux cas possible uniquement après un nettoyage approfondi des bases de données.

Comment le Machine Learning affecte le stockage des Big Data ?
Le Machine learning est une branche de l’IA dont l’importance croissante reflète celle de l’analyse des Big Data. Des trillions de data points sont générés chaque jour par des capteurs basés sur l’IA et intégrés à des dispositifs IoT allant des automobiles aux puits de pétrole en passant par les réfrigérateurs.

En machine learning, un dispositif informatique produit une analyse sans intervention humaine. Les modèles d’analyse statistique itératifs appliquent une série de formules mathématiques. À chaque calcul, la machine apprend différents éléments d’intelligence qu’elle utilise pour affiner les résultats.

La théorie du machine learning est que l’analyse deviendra plus fiable au fil du temps. La voiture autonome de Google est un exemple de machine learning dans le monde de l’entreprise, mais les consommateurs l’utilisent lorsqu’ils cliquent sur une vidéo en streaming recommandée ou reçoivent une alerte de détection de fraude de leur banque.

La plupart des données machine existent dans un format non structuré. L’intelligence humaine seule n’est pas capable de restituer ces données dans leur contexte. Pour leur donner un sens, il faut un stockage massivement évolutif et performant, auquel se superpose une intelligence logicielle puissante qui impose une structure aux données brutes et les extrait d’une manière facile à digérer.

Création d’un système de stockage Big Data personnalisé
L’architecture de stockage des Big Data se divise généralement en deux catégories : les nœuds de serveurs géographiquement distribués – le modèle Hadoop – et les systèmes NAS ou objets à grande échelle. Chacune a ses avantages et ses inconvénients. Selon la nature des besoins en matière de stockage des Big Data, vous pouvez utiliser un mélange de plusieurs systèmes pour construire votre infrastructure.