Dataviz, définition, outils et fonctionnement
⌚: 7 minutes
La visualisation de données ou data vizualisation est la pratique qui consiste à traduire des informations dans un contexte visuel, comme une carte ou un graphique, afin de rendre les données plus faciles à comprendre pour le cerveau humain et d’en tirer des informations. L’objectif principal de la visualisation des données est de faciliter l’identification des modèles, des tendances et des aberrations dans de grands ensembles de données. Le terme est souvent utilisé de manière interchangeable avec d’autres, notamment graphiques d’information, ou graphiques statistiques.
La visualisation des données est l’une des étapes du processus de la Data science, qui stipule qu’après avoir été collectées, traitées et modélisées, les données doivent être visualisées pour que des conclusions puissent être tirées. La visualisation des données est également un élément de la discipline plus large de l’architecture de présentation des données (DPA), qui vise à identifier, localiser, manipuler, formater et livrer les données de la manière la plus efficace possible.
La visualisation des données est importante pour presque toutes les carrières. Elle peut être utilisée par les enseignants pour afficher les résultats des tests des élèves, par les informaticiens qui explorent les progrès de l‘intelligence artificielle (IA) ou par les cadres qui cherchent à partager des informations avec les parties prenantes. Elle joue également un rôle important dans le Big Data. Comme les entreprises ont accumulé des collections massives de données au cours des premières années de la vague Big Data, elles avaient besoin d’un moyen d’obtenir rapidement et facilement une vue d’ensemble de leurs données. Les outils de visualisation leur convenaient tout naturellement.
La visualisation est au cœur de l’analyse avancée pour des raisons similaires. Lorsqu’un spécialiste des données écrit des algorithmes d’analyse prédictive ou de machine learning, il devient important de visualiser les résultats pour contrôler les résultats et s’assurer que les modèles fonctionnent comme prévu. En effet, les visualisations d’algorithmes complexes sont généralement plus faciles à interpréter que les sorties numériques.
Pourquoi la visualisation des données est-elle importante ?
La visualisation des données offre un moyen rapide et efficace de communiquer des informations de manière universelle en utilisant des informations visuelles. Cette pratique peut également aider les entreprises à identifier les facteurs qui influent sur le comportement des clients, à repérer les domaines qui doivent être améliorés ou auxquels il faut prêter davantage attention, à rendre les données plus mémorables pour les parties prenantes, à comprendre quand et où placer des produits spécifiques et à prévoir les volumes de vente.
La visualisation des données présente d’autres avantages :
- la capacité d’absorber rapidement les informations, d’améliorer les connaissances et un decision making plus rapide
- une meilleure compréhension des prochaines étapes qui doivent être prises pour améliorer l’organisation
- une meilleure capacité à maintenir l’intérêt du public avec des informations qu’il peut comprendre
- une diffusion aisée des informations qui augmente la possibilité de partager les connaissances avec toutes les personnes concernées
- éliminer le besoin dedata specialists puisque les données sont plus accessibles et plus compréhensibles
- une capacité accrue à agir rapidement sur les résultats et, par conséquent, à obtenir des succès avec plus de rapidité et moins d’erreurs
Visualisation des données et Big data
La popularité croissante du Big data et de l’analyse de données a rendu la visualisation plus importante que jamais. Les entreprises ont de plus en plus recours au machine learning pour recueillir des quantités massives de données qui peuvent être difficiles et lentes à trier, à comprendre et à expliquer. La visualisation offre un moyen d’accélérer ce processus et de présenter les informations aux propriétaires d’entreprises et aux parties prenantes de manière à ce qu’ils puissent les comprendre.
La visualisation de données Big Data va souvent au-delà des techniques typiques utilisées dans la visualisation normale, comme les diagrammes circulaires, les histogrammes et les graphiques d’entreprise. Elle utilise plutôt des représentations plus complexes, telles que des cartes de chaleur. La visualisation de données volumineuses nécessite des systèmes informatiques puissants pour collecter des données brutes, les traiter et les transformer en représentations graphiques que les humains peuvent utiliser pour en tirer rapidement des informations.
Si la visualisation de données volumineuses peut être bénéfique, elle peut présenter plusieurs inconvénients pour les organisations. Les voici :
- Pour tirer le meilleur parti des grands outils de visualisation de données, il faut engager un spécialiste de la visualisation. Ce spécialiste doit être capable d’identifier les meilleurs ensembles de données et styles de visualisation pour garantir que les organisations optimisent l’utilisation de leurs données.
- Les grands projets de visualisation de données nécessitent souvent l’intervention des services informatiques, ainsi que de la direction, car la visualisation de données exige un matériel informatique puissant, des systèmes de stockage efficaces et même un passage au Cloud.
- Les informations fournies par la visualisation de données volumineuses ne seront précises que si elles sont à la hauteur des informations visualisées. Par conséquent, il est essentiel de disposer de personnes et de processus pour régir et contrôler la qualité des données, des métadonnées et des sources de données de l’entreprise.
Exemples de visualisation de données
Au début de la visualisation, la technique de visualisation la plus courante consistait à utiliser une feuille de calcul Microsoft Excel pour transformer les informations en un tableau, un graphique à barres ou un graphique circulaire. Si ces méthodes de visualisation sont encore couramment utilisées, des techniques plus complexes sont désormais disponibles, notamment :
- Infographie
- Nuages de bulles
- Graphiques à puces
- Cartes de chaleur
- Graphiques de séries chronologiques
Parmi les autres techniques populaires, on peut citer :
Des graphiques linéaires: C’est l’une des techniques les plus fondamentales et les plus courantes. Les graphiques linéaires montrent comment les variables peuvent changer au fil du temps.
Cartes de zone: Cette méthode de visualisation est une variation d’un graphique linéaire ; elle affiche des valeurs multiples dans une série temporelle — ou une séquence de données recueillies à des points consécutifs et équidistants dans le temps.
Les diagrammes de dispersion: Cette technique permet d’afficher la relation entre deux variables. Un nuage de points prend la forme d’un axe x et y avec des points pour représenter les points de données.
Les arbres: Cette méthode présente des données hiérarchiques dans un format imbriqué. La taille des rectangles utilisés pour chaque catégorie est proportionnelle à son pourcentage de l’ensemble. Les arbres sont mieux utilisés lorsque l’objectif est de comparer différentes parties d’un tout.
Pyramides des populations. Cette technique utilise un diagramme à barres superposées pour afficher le récit social complexe d’une population. Il est préférable de l’utiliser lorsque l’on essaie d’afficher la répartition d’une population.
Exemple :
Cas d’utilisation de la visualisation de données communes
Les cas d’utilisation courants pour la visualisation de données sont les suivants :
Ventes et marketing: Une étude de l’agence médiatique Magna prévoit que la moitié de l’ensemble des fonds publicitaires mondiaux sera dépensée en ligne d’ici 2020. Par conséquent, les équipes marketing doivent être très attentives à leurs sources de trafic sur le web et à la manière dont leurs propriétés web génèrent des revenus. La visualisation des données permet de voir facilement les tendances du trafic au fil du temps, résultat des efforts de marketing.
La politique: Une utilisation courante de la visualisation de données en politique est une carte géographique qui affiche le parti pour lequel chaque État ou district a voté.
Les soins de santé: Les professionnels de la santé utilisent fréquemment les cartes choroplèthes pour visualiser les données importantes sur la santé. Une carte choroplèthe affiche des zones géographiques divisées ou des régions auxquelles on a attribué une certaine couleur en fonction d’une variable numérique. Les cartes choroplèthes permettent aux professionnels de voir comment une variable, telle que le taux de mortalité des maladies cardiaques, évolue sur des territoires spécifiques.
Les scientifiques: La visualisation scientifique, parfois appelée en abrégé SciVis, permet aux scientifiques et aux chercheurs de mieux comprendre leurs données expérimentales que jamais auparavant.
Les finances: Les professionnels de la finance doivent suivre les performances de leurs décisions d’investissement lorsqu’ils choisissent d’acheter ou de vendre un actif. Les graphiques sont utilisés comme outils de négociation et aident les professionnels de la finance à analyser les mouvements de prix dans le temps, en affichant des informations importantes, telles que les titres, les produits dérivés, les devises, les actions, les obligations et les matières premières. En analysant l’évolution des prix dans le temps, les analystes de données et les professionnels de la finance peuvent détecter des tendances.
La logistique. Les compagnies maritimes peuvent utiliser des outils de visualisation pour déterminer les meilleures routes maritimes mondiales.
Les chercheurs. Les visualisations réalisées par les spécialistes des données sont généralement destinées à leur propre usage ou à la présentation des informations à un public choisi. Les représentations visuelles sont construites à l’aide de bibliothèques de visualisation des langages et outils de programmation choisis. Les scientifiques et les chercheurs utilisent fréquemment des langages de programmation libres (tels que Python) ou des outils propriétaires conçus pour l’analyse de données complexes. La visualisation des données effectuée par ces scientifiques et chercheurs les aide à comprendre les ensembles de données et à identifier des modèles et des tendances qui seraient autrement passés inaperçus.
La science de la visualisation des données
La science de la visualisation des données provient de la compréhension de la façon dont les humains recueillent et traitent les informations. Daniel Kahn et Amos Tversky ont collaboré à des recherches qui ont permis de définir deux méthodes différentes de collecte et de traitement de l’information.
Le système 1 se concentre sur le traitement de la pensée qui est rapide, automatique et inconscient. Cette méthode est fréquemment utilisée dans la vie quotidienne et aide à accomplir :
- la lecture du texte sur un panneau ;
- la résolution de problèmes mathématiques simples, comme 1+1 ;
- identifier la provenance d’un son ;
- faire du vélo ;
- déterminer la différence entre les couleurs.
Le système 2 se concentre sur le traitement lent, logique, calculateur et peu fréquent de la pensée. Cette méthode est utilisée pour :
- la récitation d’un numéro de téléphone ;
- résoudre des problèmes mathématiques complexes, comme 132 x 154 ;
- déterminer la différence de signification entre plusieurs signes se trouvant côte à côte
- la compréhension de signaux sociaux complexes.
Outils de visualisation des données et fournisseurs
Les outils de visualisation des données peuvent être utilisés de différentes manières. L’utilisation la plus courante aujourd’hui est celle d’un outil de reporting de business intelligence. Les utilisateurs peuvent mettre en place des outils de visualisation pour générer des dashboard automatiques qui suivent les performances de l’entreprise sur la base d’indicateurs de performance clés (KPI) et interprètent visuellement les résultats.
Les images générées peuvent également inclure des capacités interactives, permettant aux utilisateurs de les manipuler ou d’examiner plus attentivement les données pour les interroger et les analyser. Des indicateurs conçus pour alerter les utilisateurs lorsque les données ont été mises à jour ou lorsque des conditions prédéfinies se produisent peuvent également être intégrés.
De nombreux départements commerciaux mettent en œuvre des logiciels de visualisation de données pour suivre leurs propres initiatives. Par exemple, une équipe de marketing peut mettre en place un logiciel pour contrôler les performances d’une campagne de courrier électronique, en suivant des mesures comme le taux d’ouverture, le taux de clics et le taux de conversion.
À mesure que les fournisseurs de visualisation de données étendent les fonctionnalités de ces outils, ils sont de plus en plus utilisés comme frontaux pour des environnements de données plus sophistiqués et plus volumineux. Dans ce contexte, les logiciels de visualisation de données aident les ingénieurs et les scientifiques à suivre les sources de données et à effectuer une analyse exploratoire de base des ensembles de données avant ou après des analyses avancées.
Les plus grands noms du marché des outils de données sont Microsoft, IBM, SAP et SAS. D’autres fournisseurs proposent des logiciels spécialisés de visualisation de données volumineuses ; parmi les noms les plus connus sur ce marché figurent Tableau, Qlik et Tibco.
Si Microsoft Excel reste un outil populaire pour la visualisation de données, d’autres ont été créés qui offrent des capacités plus sophistiquées. En voici quelques exemples :
- IBM Cognos Analytics
- Qlik Sense et QlikView
- Microsoft Power BI
- Analyseur visuel Oracle
- SAP Lumira
- SAS Visual Analytics
- Le feu de Tibco
- Zoho Analytics
- js
- Jupyter
- MicroStrategy
- Google Charts