La définition du Big Data

⌚: 8 minutes

Qu’entend-on exactement par « Big Data » ?

Pour bien comprendre le Big Data, il est utile de regarder un peu sont histoire. Selon le Gartner, vers 2001 (qui est toujours la définition de référence) : Le Big Data est un ensemble de données qui contiennent une grande variété de données arrivant en volumes croissants et à une vitesse toujours plus grande. C’est ce qu’on appelle la règle des trois V.

En d’autres termes, les Big Data sont des ensembles de données plus grands et plus complexes que les ensemble ordinaires, en particulier celles provenant de nouvelles sources de données. Ces ensembles de données sont si volumineux que les logiciels de traitement de données traditionnels ne peuvent tout simplement pas les gérer. Mais ces volumes massifs de données peuvent être utilisés pour résoudre des problèmes commerciaux, scientifiques que vous n’auriez pas pu résoudre auparavant notamment par manque de données, par exemple si vous avez 3 IRM de maladie neurologiques avec 3 diagnostiques, vous aurez un champs d’études assez restreint, en revanche di vous disposez de 1 million d’IRM avec 1 million d’avis et 1 million de thérapies et 1 million de résultat alors vous pourrez grâce au big data définir quelle thérapie est la plus efficace qu’une autre .

La règle des 3V du Big Data

Volume
Vitesse
Variété

Volume	La quantité de données doit être importante. Avec des données volumineuses. Il peut s’agir de données dont la valeur est inconnue comme des images ou des log, comme les flux de données Twitter, Facebook, les flux de clics sur une page web ou une application mobile, ou les équipements IoT. Pour certaines organisations, il peut s’agir de dizaines de pétaoctets de données. Pour d’autres, il peut s’agir de centaines de téraoctets.
Velocity	La vitesse est la vitesse à laquelle les données sont reçues et peuvent être traitées. En principe, la vitesse la plus élevée des flux de données est celle de l’écriture sur disque plutôt que celle de l’envoi direct en mémoire. Certains logiciel SaaS pratique le temps réel ou presque et nécessitent une évaluation et une action en temps réel.
Variety	La variété fait référence aux nombreux types de données disponibles (image,vidéo, texte…) . Les types de données traditionnels étaient structurés et s’inséraient parfaitement dans une base de données relationnelle. Avec l’essor des données du Big Data, les données se présentent sous de nouveaux types de données non structurées. Les types de données non structurés et semi-structurés, tels que le texte, l’audio et la vidéo, nécessitent un prétraitement supplémentaire pour en extraire la signification et prendre en charge les métadonnées.

La valeur et la vérité du Big Data

Deux autres V sont apparus ces dernières années : la valeur et la véracité.

Les données ont une valeur intrinsèque. Mais elles ne servent à rien tant que cette valeur n’est pas découverte. Tout aussi important : quelle est la véracité de vos données – et dans quelle mesure pouvez-vous vous y fier ?

Aujourd’hui, Le Big Data est devenu un capital. Pensez à certaines des plus grandes entreprises technologiques du monde. Une grande partie de la valeur qu’elles offrent provient de leurs données, qu’elles analysent en permanence pour gagner en efficacité et développer de nouveaux produits.

Les récentes percées technologiques ont réduit de façon exponentielle le coût du stockage des données et du calcul, rendant plus facile et moins coûteux que jamais le stockage de données. Avec un volume accru de données volumineuses désormais moins chères et plus accessibles, vous pouvez prendre des décisions commerciales plus précises et plus justes.

Trouver de la valeur dans le Big Data ne consiste pas seulement à analyser les données (ce qui est un tout autre avantage). Il s’agit d’un processus de découverte complet qui nécessite des analystes, des utilisateurs et des dirigeants perspicaces qui posent les bonnes questions, reconnaissent les modèles, font des hypothèses éclairées et prédisent les comportements.

Mais comment en sommes-nous arrivés là ?

En utilisant de Big Data ? Vous avez besoin d’une stratégie de cloud computing.

L’histoire des Big Data

Bien que le concept de Big Data soit relativement nouveau, les origines remontent aux années 60 et 70, lorsque le monde des données commençait à peine à se développer avec les premiers centres de données et le développement de la base de données relationnelle.

Vers 2005, les gens ont commencé à se rendre compte de la quantité de données générées par les utilisateurs de Facebook, YouTube et d’autres services en ligne. Hadoop (un cadre open-source créé spécifiquement pour stocker et analyser de gros ensembles de données) a été développé la même année. NoSQL a également commencé à gagner en popularité pendant cette période.

Le développement de cadres de travail à source ouverte, tels que Hadoop (et plus récemment Spark), a été essentiel pour la croissance du Big Data, car ils rendent les données plus faciles à utiliser et moins chères à stocker. Depuis lors, le volume des données a explosé. Les utilisateurs continuent de générer d’énormes quantités de données, mais il n’y a pas que les humains qui le font.

Avec l’avènement de l’internet des objets (IoT), de plus en plus d’objets et d’appareils sont connectés à l’internet, ce qui permet de recueillir des données sur les habitudes d’utilisation des clients et les performances des produits. L’émergence de l’apprentissage machine (machine learning) a produit encore plus de données.

Si le Big Data a fait du chemin, son utilité ne fait que commencer. Le cloud computing a encore élargi les possibilités du Big Data. Le Cloud offre une évolutivité vraiment élastique, où les développeurs peuvent simplement faire tourner des clusters ad hoc pour tester un sous-ensemble de données.

Avantages des Big Data et de l’analyse des données :

Le Big Data vous permettent d’obtenir des réponses plus complètes parce que vous disposez de plus d’informations.
Des réponses plus complètes signifient une plus grande confiance dans les données, ce qui signifie une approche complètement différente pour aborder les problèmes.
Découvrez d’autres solutions de Big Data
Le Big Data peut vous aider à aborder toute une série d’activités commerciales, de l’expérience client à l’analyse. En voici quelques-unes. (Vous trouverez d’autres cas d’utilisation sur le site Oracle Big Data Solutions).

Des sociétés de développement de produits comme Netflix et Procter & Gamble utilisent le Big Data pour anticiper la demande des clients. Elles construisent des modèles prédictifs pour les nouveaux produits et services en classant les principaux attributs des produits ou services passés et actuels et en modélisant la relation entre ces attributs et le succès commercial des offres. En outre, P&G utilise des données et des analyses provenant de groupes de discussion, de médias sociaux, de marchés tests et des premiers déploiements en magasin pour planifier, produire et lancer de nouveaux produits.

Les facteurs de maintenance prédictive qui permettent de prévoir les défaillances classiques peuvent être profondément cachée dans des données structurées, telles que l’année, la marque et le modèle de l’équipement, ainsi que dans des données non structurées qui couvrent des millions d’entrées, de données de capteurs, de messages d’erreur et de température moteur. En analysant ces indications de problèmes potentiels avant que les problèmes ne surviennent, les organisations peuvent déployer la maintenance de manière plus rentable et maximiser le temps de disponibilité des pièces et des équipements.

Les possibilités du Big Data

Expérience client : La course aux clients est lancée. Une vision plus claire de l’expérience client est plus que jamais possible. Le Big Data vous permet de rassembler des données provenant des médias sociaux, des visites sur le web, des journaux d’appels et d’autres sources pour améliorer l’expérience d’interaction et maximiser la valeur fournie. Commencez à proposer des offres personnalisées, réduisez le taux de désabonnement des clients et traitez les problèmes de manière proactive.

Fraude et conformité : En matière de sécurité, il ne s’agit pas seulement de quelques pirates informatiques malhonnêtes, mais d’équipes d’experts entières. Le paysage de la sécurité et les exigences de conformité sont en constante évolution. Le Big Data vous aide à identifier les schémas de données qui indiquent une fraude et à agréger de grands volumes d’informations pour accélérer le signalement des infractions.

Le Deep Learning : C’est un sujet brûlant d’actualité. Et les données – en particulier les données du Big Data – en sont l’une des raisons. Nous sommes désormais en mesure d’enseigner aux machines au lieu de les programmer. La disponibilité de de gros volumes de données pour créer des modèles d’apprentissage machine rend cela possible.

Efficacité opérationnelle : L’efficacité opérationnelle ne fait peut-être pas toujours la une des journaux, mais c’est un domaine dans lequel Le Big Data a beaucoup d’impact. Grâce aux données, vous pouvez analyser et évaluer la production, les réactions des clients et les retours, ainsi que d’autres facteurs pour réduire les pannes et anticiper les demandes futures. Les données business peuvent également être utilisées pour améliorer la prise de décision en fonction de la demande actuelle du marché.

Favoriser l’innovation : Le Big Data peut vous aider à innover en étudiant les interdépendances entre les êtres humains, les institutions, les entités et les processus, puis en déterminant de nouvelles façons d’utiliser ces informations. Utilisez les données pour améliorer les décisions relatives aux considérations financières et de planification. Examinez les tendances et ce que les clients veulent pour offrir de nouveaux produits et services. Mettre en place une tarification dynamique. Les possibilités sont infinies.

Les grands défis en matière de données

Si les applications Big Data sont très prometteuses, elles ne sont pas exemptes de défis.

Tout d’abord, les données issues du Big Data sont..Big. Bien que de nouvelles technologies aient été développées pour le stockage des données, le volume des données double environ tous les deux ans. Les organisations ont encore du mal à suivre le rythme de leurs données et à trouver des moyens de les stocker efficacement.

Mais il ne suffit pas de stocker les données. Les données doivent être utilisées pour avoir de la valeur et cela dépend de leur conservation. Des données propres, ou des données qui sont pertinentes pour le client et organisées de manière à permettre une analyse significative, demandent beaucoup de travail. Les spécialistes des données passent 50 à 80 % de leur temps à conserver et à préparer les données avant qu’elles ne puissent être utilisées.

Enfin, la technologie des Big Data évolue à un rythme rapide. Il y a quelques années, Apache Hadoop était la technologie populaire utilisée pour traiter les données importantes. Puis Apache Spark a été introduite en 2014. Aujourd’hui, une combinaison des deux cadres semble être la meilleure approche. Suivre le rythme de la technologie du Big Data est un défi permanent.

Il existe plusieurs grandes phases à ne pas louper pour passer au Big Data

Intégrer

Le Big Data rassemblent des données provenant de nombreuses sources et applications disparates. Les mécanismes traditionnels d’intégration des données, tels que l’ETL (extraction, transformation et chargement) ne sont généralement pas à la hauteur de la tâche. Il faut de nouvelles stratégies et technologies pour analyser de grands ensembles de données à l’échelle du téraoctet, voire du pétaoctet.

Au cours de l’intégration, vous devez introduire les données, les traiter et vous assurer qu’elles sont formatées et disponibles sous une forme permettant à vos analystes commerciaux de commencer.

Gérer

Les données volumineuses nécessitent un stockage. Votre solution de stockage peut être dans une infrastructure Cloud, dans les locaux ou les deux. Vous pouvez stocker vos données sous la forme que vous souhaitez et apporter à ces ensembles de données, à la demande, les exigences de traitement que vous souhaitez et les moteurs de traitement nécessaires. De nombreuses personnes choisissent leur solution de stockage en fonction de l’endroit où résident actuellement leurs données. Le cloud gagne progressivement en popularité car il prend en charge vos besoins de calcul actuels et vous permet de faire tourner les ressources selon vos besoins.

Analysez

Votre investissement dans les données importantes est rentable lorsque vous analysez vos données et agissez en conséquence. Obtenez une nouvelle clarté grâce à une analyse visuelle de vos différents ensembles de données. Explorez les données plus en profondeur pour faire de nouvelles découvertes. Partagez vos découvertes avec d’autres. Construisez des modèles de données grâce à l’apprentissage machine et à l’intelligence artificielle. Mettez vos données au travail.

Meilleures pratiques pour les données critiques

Pour vous aider dans votre grand voyage à travers les données, nous avons rassemblé quelques bonnes pratiques que vous devez garder à l’esprit. Voici nos lignes directrices pour construire une base de données importante et réussie.

Alignez Le Big Data sur les objectifs commerciaux spécifiques Des ensembles de données plus étendus vous permettent de faire de nouvelles découvertes. À cette fin, il est important de fonder les nouveaux investissements dans les compétences, l’organisation ou l’infrastructure sur un contexte fortement axé sur l’entreprise afin de garantir la continuité des investissements et du financement des projets. Pour déterminer si vous êtes sur la bonne voie, demandez quelle est la taille des données qui soutient et permet de réaliser vos principales priorités commerciales et informatiques. Il s’agit par exemple de comprendre comment filtrer les journaux Web pour comprendre le comportement du commerce électronique, de tirer des sentiments des médias sociaux et des interactions avec l’assistance à la clientèle, et de comprendre les méthodes de corrélation statistique et leur pertinence pour les données relatives aux clients, aux produits, à la fabrication et à l’ingénierie.

L’un des principaux obstacles à l’exploitation de votre investissement dans le Big Data est la pénurie de compétences. Vous pouvez atténuer ce risque en veillant à ce que les technologies, les considérations et les décisions relatives aux données de grande taille soient ajoutées à votre programme de gouvernance informatique. La normalisation de votre approche vous permettra de gérer les coûts et de tirer parti des ressources. Les organisations qui mettent en œuvre des solutions et des stratégies relatives aux données de grande taille doivent évaluer leurs besoins en compétences tôt et souvent et identifier de manière proactive toute lacune potentielle en matière de compétences. Ces lacunes peuvent être comblées par la formation/la formation polyvalente des ressources existantes, l’embauche de nouvelles ressources et le recours à des sociétés de conseil.

Utiliser une approche centrale pour partager les connaissances, contrôler la supervision et gérer les communications du projet. Que les données importantes constituent un nouvel investissement ou un investissement d’expansion, les coûts indirects et les coûts fixes peuvent être partagés dans toute l’entreprise. L’exploitation de cette approche peut contribuer à accroître les capacités du Big Data et la maturité de l’architecture globale de l’information d’une manière plus structurée et plus systématique.

L’alignement des données non structurées sur les données structurées est le principal avantage

Il est certainement utile d’analyser les donnée issue du Big data par soi-même. Mais vous pouvez apporter des informations encore plus utiles aux entreprises en connectant et en intégrant des données de faible densité aux données structurées que vous utilisez déjà aujourd’hui.

Que vous saisissiez des données importantes sur les clients, les produits, les équipements ou l’environnement, l’objectif est d’ajouter des points de données plus pertinents à vos résumés analytiques et de base, afin d’obtenir de meilleures conclusions. Par exemple, il y a une différence entre le sentiment de tous les clients et celui de vos meilleurs clients. C’est pourquoi beaucoup considèrent les données comme une extension intégrale de leurs capacités de veille économique, de leur plateforme de stockage de données et de leur architecture d’information.

N’oubliez pas que les processus et les modèles d’analyse des Big Data peuvent être basés à la fois sur l’homme et sur la machine. Les capacités d’analyse du Big Data comprennent les statistiques, l’analyse spatiale, la sémantique, la découverte interactive et la visualisation. À l’aide de modèles analytiques, vous pouvez corréler différents types et sources de données pour faire des associations et des découvertes significatives.

Planifiez votre laboratoire de Data Science en fonction des performances

Il n’est pas toujours facile de trouver un sens à vos données. Parfois, nous ne savons même pas ce que nous cherchons. C’est normal. La direction et l’informatique doivent soutenir ce « manque d’orientation » ou ce « manque d’exigence claire ».

Dans le même temps, il est important que les analystes et les spécialistes des données travaillent en étroite collaboration avec les entreprises pour comprendre les principales lacunes et exigences en matière de connaissances. Pour permettre l’exploration interactive des données et l’expérimentation d’algorithmes statistiques, il faut des espaces de travail performants. Assurez-vous que les environnements sandbox disposent du soutien dont ils ont besoin et qu’ils sont correctement gérés.

S’aligner sur le modèle d’exploitation dans le Cloud

Les gros processus de données et les utilisateurs doivent avoir accès à un large éventail de ressources, tant pour l’expérimentation itérative que pour l’exécution des tâches de production. Une solution Big data comprend tous les domaines de données, y compris les transactions, les données de base, les données de référence et les données résumées. Les sandbox analytiques doivent être créés à la demande. La gestion des ressources est essentielle pour assurer le contrôle de l’ensemble du flux de données, y compris le prétraitement et le post-traitement, l’intégration, la synthèse dans la base de données et la modélisation analytique. Une stratégie bien planifiée d’approvisionnement et de sécurité des cloud privés et publics joue un rôle essentiel dans le soutien de ces exigences changeantes.