Tag

Big Data

Browsing
⌚:  4 minutes

Les plateformes collectent des données à partir de nombreuses sources. Et les avantages sont multiples pour le fournisseur et les sociétés membres. En effet, ces données récoltées peuvent permettre à la société derrière la plateforme de prendre des décisions commerciales intelligentes. Mais aussi d’ouvrir de nouveaux marchés à ses membres. Alors, qu’un opérateur choisisse de les analyser lui-même ou de les vendre à d’autres acteurs, le Big Data représente de l’argent à gagner.

Les données pour établir une connexion

Deere & Company est un groupe basé à Moline, dans l’Illinois. Il est notamment connu pour fabriquer des tracteurs agricoles et autres machines lourdes de la marque John Deere. La majeure partie de son chiffre d’affaires annuel, de 26 milliards de dollars, est réalisé de façon traditionnelle. C’est à dire que la société vend ou loue de l’équipement à des fermes et à des entreprises de construction.

Pourtant, cette entreprise gérée de façon conservatrice a lancé la plateforme numérique myjohndeere.com, en 2013. Ainsi, elle a pu établir une connexion directe avec les agriculteurs. A l’origine, cette plateforme a été créée pour permettre aux propriétaires d’équipements John Deere d’accéder aux pièces détachées. Mais aussi aux autres offres de l’entreprise. Toutefois, myjohndeere.com fournit à l’entreprise une autre source de revenus potentiels : le Big Data.

Par exemple, la société a installé des capteurs sur ses tracteurs, connectés à internet. Ces derniers enregistrent et transmettent des données sur la consommation de carburant. Ainsi que d’autres paramètres utiles aux agriculteurs. Deere & Company vend également de l’équipement de surveillance, appelé Field Connect. Celui-ci recueille des données supplémentaires sur l’humidité du sol et la température. Mais aussi sur la vitesse du vent et les précipitations. Ensuite, ces données sont mises à la disposition des agriculteurs sur la plateforme myjohndeere.com.

Le Big Data attire les opportunités

« Nous n’avions jamais eu ces données auparavant », a déclaré Geoffrey G. Parker, professeur à la Thayer School of Engineering du Dartmouth College à Hanover, New Hampshire. Le coauteur du livre « Platform Revolution » a étudié la plateforme de Deere & Company. Et selon lui, il faut penser au tracteur « comme à un Mars Rover capturant des données ».

Le professeur rappelle que l’utilisation principale des données agricoles est d’aider les agriculteurs à améliorer la productivité de leur exploitation. Toutefois, ces données pourraient aussi être un bien précieux pour les entreprises agricoles. Celles-ci pourraient s’en servir pour élaborer leur stratégie d’investissement. « Si M. Deere agrégeait les données d’un nombre suffisant de fermes et vendait ce flux de données, cela donnerait des prévisions assez précises sur la production agricole de l’année prochaine. Ce qui lui donnerait un avantage financier énorme ».

Selon Michael Blitz, Directeur Général d’Accenture Technology Labs, le Big Data attire les opportunités. « Chaque nouveau service vous donnera plus de données. Et plus vous en aurez, plus vous comprendrez ce qui se passe réellement. Cela permettra aux gens de créer des services entièrement nouveaux ».

Traiter et analyser les données

Comme le suggère l’exemple de Deere & Company, les entreprises ayant des modèles d’affaires bien établis ont le potentiel d’utiliser les plateformes. Et pas seulement pour présenter leurs produits et services. Egalement comme source de données détaillées sur les utilisateurs. Les données recueillies via l’IoT (Internet of Things, ou internet des objets) puis analysées par des algorithmes d’intelligence artificielle (IA) deviennent une source précieuse d’informations commerciales. Pour Michael Biltz, « la possibilité de partager les données des clients avec des tiers fait partie des avantages des plates-formes ».

Et selon lui, « les entreprises réalisent très vite que les données qu’elles collectent ont plus de valeur pour leurs partenaires que pour elles-mêmes ». Le Directeur Général d’Accenture Technology Labs cite l’exemple des entreprises spécialisées dans les soins de santé. Celles-ci recueillent les dossiers médicaux électroniques des hôpitaux sur les maladies. Mais aussi les tests effectués et les produits pharmaceutiques utilisés pour les traitements. Bien que ces données puissent être utiles aux hôpitaux, elles le sont encore plus pour les compagnies pharmaceutiques. Notamment pour la recherche sur les effets de différents médicaments. Ou encore pour les essais cliniques, ainsi que pour décrypter les tendances dans les soins de santé.

Sangeet Paul Choudary, co-auteur du livre Platform Revolution, dirige une plateforme de conseil à Singapour. Il cite l’exemple d’un grand client bancaire qui a mis en place une plateforme immobilière pour aider les acheteurs à naviguer dans le processus d’achat d’une maison. Ainsi, les clients peuvent croiser les annonces de maisons avec des informations sur les écoles et quartiers voisins. Et la banque a pu utiliser les données recueillies sur le site Web pour cibler des offres de prêts à destination des couples qui achètent une maison.

Créer de la valeur avec le Big Data

Pour beaucoup d’entreprises, le processus de collecte et d’analyse de Big Data est trop compliqué pour être rentable. Alors, les sociétés spécialisées dans le Big Data peuvent intervenir pour proposer des services d’analyse. Selon Annabelle Gawer, codirectrice du Centre for the Digital Economy de l’Université de Surrey, en Angleterre, le Big Data est une opportunité professionnelle. « Avec la capacité accrue de se connecter sur des plates-formes et la capacité accrue d’analyser les données, vous allez voir émerger des entreprises qui trouvent les bons modèles d’affaires pour combiner ces deux éléments afin de créer de la valeur ».

De plus, les plates-formes numériques sont particulièrement bien placées pour bénéficier de l’intelligence artificielle. En effet, des algorithmes sophistiqués peuvent non seulement analyser les données, mais aussi améliorer continuellement leur analyse en tirant des enseignements des données. Ainsi, les grandes entreprises chinoises investissent massivement dans la technologie de l’intelligence artificielle. Et plus particulièrement dans le « machine learning« , la technologie de « l’apprentissage machine ».

Selon Peter Evans, directeur de l’Innovation Enterprise Solutions chez KPMG, un cabinet de conseil de la région d’Atlanta, « Leur modèle d’affaires est très axé sur la collecte de données et la facilitation de l’interaction ». Il ajoute assister à une adoption massive de l’intelligence artificielle par les plateformes en ligne. « Je vois beaucoup de plateformes graviter vers l’intelligence artificielle, plus rapidement que d’autres entreprises ».

Définition de Open data

⌚: 4 minutes

L’Open Data sont des informations numériques qui font l’objet d’une licence de manière à ce qu’elles soient accessibles à tous, avec peu d’autorisations nécessaire. Les données sont généralement soit publiques, soit ouvertes, soit attribuées. Toute donnée ou contenu libre d’utilisation et distribué relève de la notion d’Open Data. Allons plus loin et répondons à cette question : qu’est-ce qu’une donnée ouverte ?

Voici quelques exemples de données ouvertes :

  • Les données financières des gouvernements
  • Les informations boursières que vous voyez défiler sur votre flux d’informations.
  • Les statistiques sur les données du marché auxquelles vous pouvez accéder via un moteur de recherche.
  • Les recherches universitaires publiées.

En revanche, les données « fermées » limitent souvent leur utilisation, les liant à l’obtention d’une licence pour des raisons de sécurité ou de confidentialité. Un exemple de données fermées pourrait inclure des informations financières auxquelles seul le propriétaire d’une marque peut avoir accès. Il peut s’agir de données sur les ventes aux consommateurs propres à une entreprise à but lucratif ou d’autres informations sur les consommateurs ou les entreprises qui sont jugées « sensibles » comme les données détaillés de patients.

Pourquoi les données de l’Open Data ont-elles de la valeur ?

La technologie nous a permis de saisir des données d’une manière et dans des volumes que beaucoup plus importantes.  Des outils d’analyse de données de plus en plus sophistiqués nous permettent d’analyser les données d’une nouvelle manière afin de découvrir les tendances et les résultats qui ont façonné des décisions commerciales cruciales. Ces outils nous permettent de voir des liens entre des données qui n’ont jamais été explorées.

Le débat s’intensifie sur la question de savoir qui doit contrôler ces données : les entreprises et les gouvernements qui les collectent, ou le public qui en bénéficie ?

En d’autres termes, la connaissance est un pouvoir. Le partage des connaissances permet la dispersion du pouvoir d’une manière qui profite au plus grand nombre, et non à quelques-uns. C’est le fondement philosophique qui sous-tend le concept de données ouvertes.

Quels sont donc les avantages les plus courants des données ouvertes ?

1. Responsabilité
Des données ouvertes peuvent permettre aux actionnaires de comprendre les décisions prises au niveau de l’entreprise. Elles peuvent aider les citoyens à voir comment l’argent de leurs impôts influe sur l’amélioration des infrastructures municipales. La transparence financière et éthique du gouvernement renforce la démocratie. L’ouverture des données favorise la responsabilisation des entreprises, des cultures et des pays.

2. Autonomisation
Les données ouvertes peuvent permettre aux individus de mener leurs propres recherches conduisant à des changements de comportement qui améliorent leur santé. Les données ouvertes que l’on trouve sur Internet ont été un outil incroyable pour éduquer et responsabiliser les consommateurs en matière de comportements d’achat. L’accès aux données ouvertes a un impact sur la prise de décision personnelle en permettant aux individus de rassembler tous les faits avant d’agir.

3. Mesure de l’impact
Les données ouvertes permettent aux décideurs politiques de comprendre l’impact de leurs décisions. Elles peuvent aider les spécialistes du marketing à discerner les modèles de vente qui leur permettent d’ajuster leurs stratégies commerciales en fonction des nouvelles tendances. Elles peuvent également influencer de manière proactive les décisions de planification futures en mesurant les tendances historiques, ce qui a un impact sur tout, de la préparation aux catastrophes aux taux d’intérêt.

4. Les progrès scientifiques et technologiques
La méthode scientifique repose sur l’élaboration d’une hypothèse, puis sur l’essai de divers concepts pour prouver ou réfuter la théorie. Chaque expérience devient une donnée qui alimente la recherche à suivre. Les percées scientifiques et technologiques, trop nombreuses pour être citées, sont le résultat de cette construction progressive des connaissances basée sur la recherche partagée.

Dans le domaine de la technologie, les données ouvertes sont utilisées par les entrepreneurs pour créer des entreprises, comme Development Seed, qui utilise des API de données ouvertes pour résoudre des problèmes d’ingénierie. Ou le projet Open Bank qui crée les API de données ouvertes à l’usage des banques.

Il est clair que tout le monde, des citoyens aux fonctionnaires, en passant par les chercheurs et les entrepreneurs, peut bénéficier des données ouvertes. Mais quelle est la différence avec les données fermées ?

En quoi les données ouvertes diffèrent-elles des données fermées ?

Toutes les données se situent sur une échelle entre les données fermées et les données ouvertes car il existe des différences dans la manière dont les informations sont partagées entre les deux points du continuum (de données fermées à ouvertes). Les données fermées peuvent être partagées avec des personnes spécifiques dans le cadre d’une entreprise. Les données ouvertes peuvent nécessiter l’attribution de permission de la source contributrice, tout en restant entièrement disponibles pour l’utilisateur final.

En général, la pratique acceptée suggère que les données ouvertes diffèrent des données fermées de trois façons principales :

  • Les données ouvertes sont accessibles, généralement via un entrepôt de données sur Internet.
  • Elles sont disponibles dans un format lisible.
  • Elles sont sous licence de source ouverte, ce qui permet à quiconque d’utiliser les données ou de les partager à des fins non commerciales ou commerciales.
  • Les données qui sont ouvertes au public par le biais d’un droit de licence ou d’une autre condition préalable.

Les données fermées restreignent l’accès à l’information de plusieurs façons possibles :

  • Les données sont brevetées ou propriétaires.
  • Les données sont semi-restreintes à certains groupes.
  • Elles ne sont accessibles qu’à certaines personnes au sein d’une organisation.
  • Les données qui sont difficiles d’accès, comme les dossiers papier qui n’ont pas été numérisés.

L’exemple parfait de données fermées pourrait être des informations qui nécessitent une autorisation de sécurité, des informations relatives à la santé collectées par un hôpital ou une compagnie d’assurance ou, à plus petite échelle, vos propres déclarations d’impôts personnelles.

Quels sont les secteurs/industries qui utilisent des données ouvertes ?

Les données alimentent l’innovation. L’innovation est le moteur de la croissance économique. Les partisans des données ouvertes affirment que l’accès à l’information est la clé d’une société en évolution. Les données ouvertes peuvent aider les citoyens à demander des comptes à leur gouvernement. Elles peuvent également constituer la clé de la résolution de certains de nos problèmes planétaires les plus difficiles, tels que le changement climatique et la pollution ou la pauvreté et la famine.

Les entreprises, les gouvernements ou les communautés peuvent tirer parti des données ouvertes pour créer de nouveaux services ou produits. Les données ouvertes profitent aux entités à but lucratif et non lucratif, ainsi qu’à l’économie et aux particuliers. Voici quelques-unes des entités qui profitent actuellement de l’exploitation des données ouvertes.

1. Culturel
Les musées, les bibliothèques et les archives ont désormais numérisé d’importants objets culturels et les ont stockés sur le web sous forme de données ouvertes. Ces efforts soutiennent le discours scientifique et éduquent les populations sur nos données culturelles historiques les plus précieuses.

2. Environnement
Des données ouvertes sont utilisées pour surveiller et conserver les zones humides d’Europe et la biodiversité de ces environnements fragiles dans le cadre d’un projet appelé LifeWatch, qui rassemble des données recueillies dans huit pays européens.

Aux États-Unis, l’université d’État de l’Oregon utilise des données ouvertes pour suivre les changements du niveau de la mer sur la côte ouest. Le Chesapeake Conservancy et le Chesapeake Bay Project ont récemment publié les données ouvertes de leur projet afin de suivre la façon dont la pollution affecte les plantes, les animaux et les personnes qui entourent cette ressource naturelle.

3. Finance et banque
Des données ouvertes peuvent aider les institutions financières à utiliser l’analyse prédictive pour se préparer aux fluctuations du marché. Elles peuvent utiliser les statistiques pour modifier leur offre de produits afin de s’adapter aux tendances démographiques et à l’évolution des préférences des clients. Les données ouvertes peuvent également aider à détecter et à arrêter plus rapidement les activités frauduleuses. Un exemple de données ouvertes dans ce secteur est la publication par Fannie Mae de données sur 700 000 prêts individuels en 2010. Ces données ont été publiées pour aider les investisseurs à comprendre la performance des titres de l’agence.

4. Gouvernement
Au gouvernement, la transparence des données est de plus en plus un problème. Les militants réclament plus d’informations sur tous les sujets, des finances personnelles des candidats à la présidence aux comptes rendus sur la façon dont l’argent des contribuables est dépensé. La transparence des données permet aux organismes civiques de communiquer plus efficacement avec les citoyens, ce qui peut renforcer le concept de gouvernement « par le peuple et pour le peuple ».

Certaines administrations avant-gardistes ont adopté le concept de données ouvertes. À Raleigh, en Caroline du Nord, des responsables de la ville et du comté se sont réunis pour créer le Durham Open Data Portal, un portail web contenant des données pertinentes pour la communauté et ayant un impact sur l’éducation, la criminalité, les finances, les transports, la santé publique, etc. Les citoyens peuvent désormais accéder aux données ouvertes via un portail web qui comprend des tableaux de bord faciles à utiliser, des cartes interactives et un index de données consultable. Les législateurs de Durham affirment que le portail a renforcé l’engagement de la communauté dans le processus décisionnel du gouvernement, en favorisant une communication ouverte entre le gouvernement et les personnes qu’il sert.

À plus grande échelle, en 2013, les États-Unis et d’autres dirigeants du G7 ont créé la Charte des données ouvertes pour créer des données gouvernementales accessibles et transparentes. Les données peuvent être utilisées pour promouvoir la responsabilité, accroître l’efficacité et favoriser l’innovation dans les secteurs scientifique et privé.

5. La recherche et la science
Nous avons discuté de la manière dont les données ouvertes utilisées dans la méthode scientifique s’appuient sur les recherches antérieures pour créer des innovations médicales, environnementales ou technologiques. Mais le concept de données ouvertes est appliqué pour éliminer réellement les goulots d’étranglement qui ralentissent la recherche sur la maladie d’Alzheimer. Pharmacog est un partenariat entre 32 organisations industrielles et universitaires de sept pays qui partagent des données et accélèrent le rythme des recherches menant à la découverte d’un remède.

6. Technologie
Dans le monde de la technologie, certaines des dernières innovations logicielles sont liées à des données ouvertes. La start-up technologique OpenSensors.io est un fournisseur d’Internet des objets qui relie le matériel sensoriel à une entreprise via Internet. OpenSensors utilise des données ouvertes pour aider les entreprises à se connecter.

Les projets de données ouvertes comme ceux-ci explosent dans le monde des technologies, favorisant l’échange ouvert d’informations, la collaboration et le développement axé sur la communauté.

De la même manière que la communauté des chercheurs a mis en place des couches de recherche pour guérir les maladies, le secteur technologique utilise les données ouvertes pour encourager les progrès dans tous les domaines, des applications téléphoniques à la réalité virtuelle.

Alors, qu’est-ce que l’Open Data ?

L’évolution de la technologie a permis une explosion exponentielle de l’Open Data accessibles par nos appareils numériques. L’ère de l’information est en train de passer à l’économie de la connaissance, car de plus en plus d’entreprises tirent profit des données des consommateurs pour stimuler leur croissance. Dans ce cas, la connaissance est, littéralement, une richesse, car les améliorations de l’analyse des données nous permettent de discerner des modèles de comportement. Les entrepreneurs exploitent alors les données ouvertes pour créer des produits et des services en vue d’un gain financier. Selon McKinsey, l’impact économique des données ouvertes se situe entre 3 et 5 000 milliards de dollars par an.

Les données ouvertes sont une entité autonome, qui évolue constamment en temps réel. Il en va de même pour les avantages de l’utilisation des données ouvertes, car des outils d’analyse de données de plus en plus sophistiqués nous permettent de gérer des données importantes et de tirer de nouvelles idées pour façonner notre monde de demain. Nous savons que le partage ouvert des données entre les entreprises, les chercheurs, les spécialistes du marketing et les gouvernements conduit à l’innovation dans tous ces secteurs. Cela illustre clairement la valeur et l’importance des données ouvertes à l’avenir.

 

Qu’est-ce que le Big Data Analytics ?

⌚: 4 minutes

Le Big Data Analytics est le processus, souvent complexe, qui consiste à examiner des données ou bien des ensembles de données, volumineux et variés . L’objectif est de découvrir des informations, comme des modèles cachés et des corrélations inconnues. Ou encore des tendances du marché et des préférences clients. Ainsi, ces données peuvent aider les entreprises à prendre des décisions commerciales éclairées.

Les requêtes BI (Business Intelligence, pour informatique décisionnelle) répondent donc à des questions de base, sur les opérations et les performances de l’entreprise. Le Big Data Analytics est une forme d’analyse avancée. Il implique des éléments tels que des modèles prédictifs et des algorithmes statistiques. Ainsi que des simulations optimisées par des systèmes d’analyse de haute performance.

L’importance du Big Data Analytics

L’analyse des données offre divers avantages commerciaux lorsqu’elle est stimulée par des systèmes et des logiciels d’analyse spécialisés. Ainsi que par des systèmes informatiques de grande puissance. Notamment, elle produira de nouvelles opportunités de revenus. Mais aussi un marketing plus efficace et un meilleur service client. Ainsi qu’une efficacité opérationnelle améliorée et des avantages concurrentiels. Les grandes applications d’analyse de données permettent aux professionnels d’analyser des volumes croissants de transactions structurées. Mais aussi d’autres formes de données, souvent inexploitées par les programmes de BI.

Cela comprend un mélange de données semi-structurées et non structurées. Par exemple, les données du parcours de navigation sur Internet, les journaux du serveur Web ou encore le contenu des médias sociaux. On peut également citer les courriels des clients et les réponses aux sondages. Ainsi que les enregistrements des téléphones mobiles et les données des machines, saisies par des capteurs connectés à l’IoT (Internet of Things, pour internet des objets). Le terme Big Data a été utilisé pour la première fois pour désigner l’augmentation du volume de données au milieu des années 1990.

Les 3V du Big Data : volume, vitesse et variété

C’est en 2001 que Doug Laney, analyste chez Meta Group Inc. à titre de consultant, a élargi la notion de Big Data. Il y a inclut trois facteurs. Ainsi, le volume, la vitesse et la variété des données sont devenus les 3V du Big Data. C’est en 2006 qu’a été lancé Hadoop, un framework libre et open source, conçu pour exécuter des applications Big Data. En 2011, le Big Data Analytics a commencé à s’imposer dans les organisations et dans l’opinion publique. Au même titre que Hadoop et les diverses technologies développées autours de lui.

Au départ, les applications Big Data étaient principalement le fait de grandes sociétés Internet et de commerce électronique. On peut citer Yahoo, Google et Facebook, ainsi que des fournisseurs de services analytiques et marketing. Mais très vite, d’autres entreprises, dans tous les secteurs, se sont de plus en plus tournés vers le Big Data Analytics.

Technologies et outils d’analyse

Les types de données non structurées et semi-structurées ne conviennent généralement pas aux bases de données relationnelles traditionnelles. En effet, elles reposent sur des ensembles de données structurées. De plus, les bases de données ne peuvent pas toujours traiter des paquets de données volumineux avec des mises à jour fréquentes. Voire même continuelles.

C’est le cas par exemple pour les transactions boursières, les activités en ligne des internautes ou encore la performance des applications mobiles. Alors, de nombreuses organisations qui collectent, traitent et analysent de grandes quantités de données se tournent vers les bases de données NoSQL. Ainsi que vers Hadoop et ses outils complémentaires, notamment :

  • YARN : une technologie de gestion de ressources et de plannification des tâches.
  • MapReduce : un framework logiciel qui permet aux développeurs d’écrire des programmes qui traitent des quantités massives de données non structurées. Et ce, en parallèle sur un cluster de processeurs ou d’ordinateurs autonomes.
  • Spark : un cadre de traitement parallèle open source qui permet aux utilisateurs d’exécuter des applications d’analyse de données, à grande échelle, sur des systèmes en cluster.
  • HBase : une base de données non-relationnelles conçue pour fonctionner sur le HDFS (Hadoop Distributed File System, pour système de fichiers distribués Hadoop).
  • Hive : un système d’entrepôt de données open source pour interroger et analyser de grands ensembles de données stockés dans des fichiers Hadoop.
  • Kafka : un système de stockage et d’échange de données en temps réel.
  • Pig : une technologie open source pour la création de programmes MapReduce.

Comment fonctionne le Big Data Analytics ?

Généralement, les analystes de Big Data adoptent le concept d’un pool de données Hadoop. Celui-ci sert de référentiel principal aux flux entrants de données brutes. Dans de telles architectures, les données peuvent être analysées directement dans un cluster Hadoop. Ou alors, être exécutées par un moteur de traitement comme Spark. Une bonne gestion des données est une première étape cruciale dans le processus d’analyse des Big Data.

Les données stockées doivent être organisées, configurées et partitionnées correctement. Ainsi, on peut obtenir de bonnes performances des tâches ETL (Extract, Transform and Load, pour extraction, de transformation et de chargement) et des requêtes analytiques. Une fois que les données sont prêtes, elles peuvent être analysées. Et ce, à l’aide d’un logiciel doté d’outils d’exploration de données, qui passent au crible les ensembles de données à la recherche de modèles et de relations. Ou encore des outils d’analyse prédictive, pour construire des modèles de prédiction sur le comportement des clients et d’autres développements futurs.

Mais aussi le machine learning, l’apprentissage machine, qui exploite les algorithmes pour analyser de grands ensembles de données. Ainsi que le deep learning, l’apprentissage profond, une branche plus avancée du machine learning. Les logiciels d’analyse statistique et de text mining, l’exploration et l’analyse de données textuelles non structurées, jouent un rôle dans le processus d’analyse de données. Tout comme les logiciels de BI et les outils de visualisation de données. Pour les applications ETL et analytiques, les requêtes peuvent être saisies dans MapReduce, via des langages de programmation. Notamment le Python, R, Scala et SQL.

Utilisations et défis

Les applications d’analyse en continu deviennent de plus en plus courantes dans les environnements Big Data. En effet, les utilisateurs veulent réaliser des analyses en temps réel, sur les données introduites dans les systèmes Hadoop, via des moteurs de traitement de flux comme Spark, Flink et Storm. En parallèle, les fournisseurs de platesformes de Cloud computing ont facilité la mise en place et la gestion des clusters Hadoop dans le Cloud. Notamment Amazon Web Services (AWS) et Microsoft.

Il en va de même des fournisseurs Hadoop, comme Cloudera et Hortonworks. Ils prennent en charge la distribution du framework sur AWS et Microsoft Azure Clouds. Désormais, les utilisateurs peuvent faire tourner des clusters dans le Cloud. Et ils peuvent les exécuter aussi longtemps qu’ils en ont besoin. En effet, la tarification est basée sur l’utilisation et ne nécessite pas de licences logicielles permanentes. De plus, les logiciels d’analyse de Big Data sont plus faciles à utiliser, grâce à l’introduction des technologies d’intelligence artificielle et de machine learning.

Parmi les principaux fournisseurs dans ce domaine, on peut citer Alteryx, IBM, Microsoft et Knime. Toutefois, l’intégration des outils de Big Data dans une architecture cohérente reste un défi pour de nombreuses équipes informatiques et analytiques. En effet, elles doivent identifier la bonne combinaison de technologies. Puis assembler les pièces, pour répondre à leurs besoins d’analyse de données.