La préparation des données
⌚: 4 minutes
La préparation des données est le processus de collecte, de combinaison, de structuration et d’organisation des données afin qu’elles puissent être analysées dans le cadre d’applications de visualisation des données , d’analyse et d’apprentissage machine
La préparation des données comprend le prétraitement, le profilage, le nettoyage, la validation et la transformation ; elle implique souvent aussi de rassembler des données provenant de différents systèmes internes et de sources externes.
Le travail de préparation des données est effectué par des équipes de technologie de l’information (TI) et de business intelligence (BI) qui intègrent les data set à charger dans un data warehouse, une base de données NoSQL ou un dépôt de lac de données Hadoop. En outre, les analystes de données peuvent utiliser des outils de préparation de données en libre-service pour collecter et préparer les données pour l’analyse lorsqu’ils utilisent des outils de visualisation de données tels que Tableau.
Objectifs de la préparation des données
L’un des principaux objectifs de la préparation des données est de s’assurer que les informations préparées pour l’analyse sont exactes et cohérentes, afin que les résultats des applications de BI et d’analyse soient valides. Les données sont souvent créées avec des valeurs manquantes, des inexactitudes ou d’autres erreurs. En outre, les ensembles de données stockés dans des fichiers ou des bases de données séparés ont souvent des formats différents qui doivent être gérés. Le processus de correction des inexactitudes, de vérification et d’assemblage des ensembles de données constitue une grande partie du processus de préparation des données.
Dans les applications big data, la préparation des données est en grande partie une tâche automatisée, car il pourrait falloir des années de travail aux informaticiens ou aux analystes de données pour corriger manuellement chaque champ de chaque fichier qui doit être utilisé dans une analyse. Les algorithmes d’apprentissage automatique peuvent accélérer les choses en examinant les champs de données et en remplissant automatiquement les valeurs vides ou en renommant certains champs pour assurer la cohérence lors de la jointure des fichiers de données.
Processus de préparation des données
Après validation et rapprochement des données, le logiciel de préparation des données fait passer les fichiers par un workflow, au cours duquel des opérations spécifiques sont appliquées aux fichiers. Par exemple, cette étape peut impliquer la création d’un nouveau champ dans le fichier de données qui regroupe les comptages des champs préexistants, ou l’application d’une formule statistique — telle qu’un modèle de régression linéaire ou logistique — aux données. Après le déroulement du travail, les données sont sorties dans un fichier finalisé qui peut être chargé dans une base de données ou un autre datamart, où elles sont disponibles pour être analysées.
Même si les méthodes de préparation des données sont devenues très automatisées, cela peut encore prendre beaucoup de temps, d’autant plus que le volume de données utilisées dans les analyses ne cesse de croître. Les spécialistes des données se plaignent souvent du fait qu’ils passent la majorité de leur temps à localiser et à nettoyer les données plutôt qu’à les analyser réellement.
C’est en partie pour cette raison qu’il y a eu une augmentation du nombre de fournisseurs de logiciels qui tentent de s’attaquer au problème de la préparation des données, et que de nombreuses organisations consacrent davantage de ressources à l’automatisation de la préparation des données. En 2017, le fournisseur de visualisation de données Tableau a ajouté la préparation de données en libre-service dans son logiciel, en utilisant des méthodes de machine learning pour simplifier le processus de préparation des données.
Avantages de la préparation des données
L’un des principaux avantages de l’instauration d’un processus formel de préparation des données est que les utilisateurs peuvent passer moins de temps à trouver et à structurer leurs données.
De nombreuses entreprises ont mis en place des lacs de données, souvent construits autour des magasins de données Hadoop, où elles stockent de grandes quantités de données semi-structurées et non structurées. Lorsqu’un spécialiste des données a besoin d’un ensemble de données pour une analyse, il doit d’abord les rechercher. Grâce à un processus formel de préparation des données, les analyses répétitives peuvent être alimentées en données automatiquement, plutôt que de demander aux utilisateurs de localiser et de nettoyer leurs données à chaque fois.