Le Data Mining

⌚: 7 minutes

Six étapes clés

Compréhension de l’entreprise
La première étape consiste à établir les objectifs du projet et à déterminer comment le data mining peut vous aider à atteindre ce but. Un plan doit être élaboré à ce stade pour inclure des calendriers, des actions et des attributions de rôles.

Compréhension des données
Les données sont collectées à partir de toutes les sources de données applicables à cette étape. Des outils de visualisation des données sont souvent utilisés à cette étape pour explorer les propriétés des données afin de s’assurer qu’elles aideront à atteindre les objectifs de l’entreprise.

Préparation des données
Les données sont ensuite nettoyées, et les données manquantes sont incluses pour s’assurer qu’elles sont prêtes à être exploitées. Le traitement des données peut prendre énormément de temps selon la quantité de données analysées et le nombre de sources de données. C’est pourquoi les systèmes distribués sont utilisés dans les systèmes modernes de gestion de bases de données (SGBD) pour améliorer la vitesse du processus d’extraction des données plutôt que de charger un seul système. Ils sont également plus sûrs que de regrouper toutes les données d’une organisation dans un seul endroit. Il est important d’inclure des mesures de sécurité dans l’étape de manipulation des données afin que celles-ci ne soient pas perdues de façon permanente.

Modélisation des données
Des modèles mathématiques sont ensuite utilisés pour trouver des patterns dans les données à l’aide d’outils de données sophistiqués.

Évaluation
Les résultats sont évalués et comparés aux objectifs commerciaux pour déterminer s’ils doivent être déployés dans toute l’organisation.

Déploiement
Dans la phase finale, les résultats du data mining sont partagés dans les opérations commerciales quotidiennes. Une plate-forme de veille économique d’entreprise peut être utilisée pour fournir une source unique de vérité pour la découverte de données en open data.

Qu’est-ce que le Data Mining ?

Le data mining est l’exploration et l’analyse de données volumineuses pour découvrir des modèles et des règles significatives. Elle est considérée comme une discipline relevant du domaine de la science des données et diffère de l’analyse prédictive car elle décrit des données historiques, tandis que le data mining vise à prédire les résultats futurs. En outre, les techniques de data mining sont utilisées pour construire des modèles d’apprentissage machine (ML) qui alimentent les applications modernes d’intelligence artificielle (IA) telles que les algorithmes des moteurs de recherche et les systèmes de recommandation.

Avantages du data mining

Prise de décision automatisée
Le data mining permet aux organisations d’analyser continuellement les données et d’automatiser les décisions de routine et les décisions critiques sans retarder le jugement humain. Les banques peuvent détecter instantanément les transactions frauduleuses, demander une vérification et même sécuriser les informations personnelles pour protéger les clients contre le vol d’identité. Déployés au sein des algorithmes opérationnels d’une entreprise, ces modèles peuvent collecter, analyser et agir sur les données de manière indépendante pour rationaliser la prise de décision et améliorer les processus quotidiens d’une organisation.

Prévisions et prédictions précises
La planification est un processus essentiel au sein de toute organisation. Le data mining facilite la planification et fournit aux gestionnaires des prévisions fiables basées sur les tendances passées et les conditions actuelles. Macy’s met en œuvre des modèles de prévision de la demande pour prévoir la demande de chaque catégorie de vêtements dans chaque magasin et acheminer les stocks appropriés pour répondre efficacement aux besoins du marché.

Réduction des coûts
Le data mining permet une utilisation et une allocation plus efficaces des ressources. Les organisations peuvent planifier et prendre des décisions automatisées grâce à des prévisions précises qui permettront de réduire au maximum les coûts. Delta a implanté des puces RFID dans les bagages enregistrés des passagers et a déployé des modèles de data mining pour identifier les trous dans leur processus et réduire le nombre de sacs mal traités. Cette amélioration des processus accroît la satisfaction des passagers et réduit le coût de la recherche et du réacheminement des bagages perdus.

Perspectives clients
Les entreprises déploient des modèles de data mining à partir des données de leurs clients afin de découvrir les caractéristiques et les différences clés entre leurs clients. Le data mining peut être utilisé pour créer des personnalités et personnaliser chaque point de contact afin d’améliorer l’expérience globale du client. En 2017, Disney a investi plus d’un milliard de dollars pour créer et mettre en place des « Magic Bands ». Ces groupes entretiennent une relation symbiotique avec les consommateurs, travaillant à l’amélioration de leur expérience globale dans la station tout en recueillant simultanément des données sur leurs activités pour que Disney les analyse afin d’améliorer encore leur expérience client.

Les défis du data mining
Bien qu’il s’agisse d’un processus puissant, Le data mining est entravée par la quantité et la complexité croissantes des grandes données. Là où les entreprises collectent chaque jour des exabytes de données, les décideurs doivent trouver des moyens d’extraire, d’analyser et de tirer profit de leur abondante réserve de données.

Big Data
Les défis du Big Data sont prolifiques et pénètrent tous les domaines, de la collecte, du stockage et de l’analyse des données. Le Big Data se caractérise par quatre défis majeurs : le volume, la variété, la véracité et la vitesse. L’objectif du data mining est d’arbitrer ces défis et de débloquer la valeur des données.

Le volume décrit le défi que représente le stockage et le traitement de l’énorme quantité de données collectées par les organisations. Cette énorme quantité de données présente deux défis majeurs : premièrement, il est plus difficile de trouver les bonnes données, et deuxièmement, elle ralentit la vitesse de traitement des outils du data mining.

La variété englobe les nombreux types de données collectées et stockées. Les outils du data mining doivent être équipés pour traiter simultanément un large éventail de formats de données. Le fait de ne pas concentrer l’analyse sur les données structurées et non structurées inhibe la valeur ajoutée du data mining.

La vitesse détaille la vitesse croissante à laquelle les nouvelles données sont créées, collectées et stockées. Alors que le volume fait référence à l’augmentation des besoins de stockage et que la variété fait référence à l’augmentation des types de données, la vitesse est le défi associé à l’augmentation rapide du taux de génération de données.

Enfin, la véracité montre que toutes les données ne sont pas également exactes. Les données peuvent être désordonnées, incomplètes, mal collectées et même biaisées. Dans tous les cas, plus les données sont collectées rapidement, plus elles contiennent d’erreurs. Le défi de la véracité est d’équilibrer la quantité de données avec leur qualité.

Modèles surajustés
Il y a surajustement lorsqu’un modèle explique les erreurs naturelles au sein de l’échantillon plutôt que les tendances sous-jacentes de la population. Les modèles surajustés sont souvent trop complexes et utilisent un excès de variables indépendantes pour générer une prédiction. Par conséquent, le risque de surajustement est accru par l’augmentation du volume et de la variété des données. Trop peu de variables rendent le modèle non pertinent, alors que trop de variables le limitent aux données connues de l’échantillon. Le défi consiste à modérer le nombre de variables utilisées dans les modèles du data mining et à équilibrer son pouvoir prédictif avec la précision.

Types de data mining
Le data mining comporte deux processus principaux : l’apprentissage supervisé et non supervisé.

Apprentissage supervisé
L’objectif de l’apprentissage supervisé est la prédiction ou la classification. La façon la plus simple de conceptualiser ce processus est de rechercher une seule variable de sortie. Un processus est considéré comme un apprentissage supervisé si le but du modèle est de prédire la valeur d’une observation. Un exemple est celui des filtres anti-spam, qui utilisent l’apprentissage supervisé pour classer les messages électroniques entrants comme des contenus indésirables et pour supprimer automatiquement ces messages de votre boîte de réception.

Les modèles analytiques courants utilisés dans les approches du data mining supervisé sont les suivants

Régressions linéaires
Les régressions linéaires permettent de prédire la valeur d’une variable continue en utilisant une ou plusieurs entrées indépendantes. Les agents immobiliers utilisent les régressions linéaires pour prédire la valeur d’une maison en fonction de la superficie en pieds carrés, du ratio lit/baignoire, de l’année de construction et du code postal.

Régressions logistiques
Les régressions logistiques prédisent la probabilité d’une variable catégorielle en utilisant une ou plusieurs entrées indépendantes. Les banques utilisent les régressions logistiques pour prédire la probabilité qu’un demandeur de prêt fasse défaut en fonction de sa cote de crédit, du revenu du ménage, de son âge et d’autres facteurs personnels.

Séries chronologiques
Les modèles de séries chronologiques sont des outils de prévision qui utilisent le temps comme principale variable indépendante. Les détaillants, tels que Macy’s, déploient des modèles de séries chronologiques pour prévoir la demande de produits en fonction du temps et utilisent la prévision pour planifier et stocker avec précision les magasins avec le niveau de stock requis.

Arbres de classification ou de régression
Les arbres de classification sont une technique de modélisation prédictive qui peut être utilisée pour prédire la valeur des variables cibles catégorielles et continues. Sur la base des données, le modèle créera des ensembles de règles binaires pour diviser et regrouper la plus grande proportion de variables cibles similaires. En suivant ces règles, le groupe dans lequel se trouve une nouvelle observation deviendra sa valeur prédite.

Réseaux neuronaux
Un réseau de neurones est un modèle analytique inspiré par la structure du cerveau, ses neurones et leurs connexions. Ces modèles ont été créés à l’origine dans les années 1940, mais ils viennent de gagner en popularité auprès des statisticiens et des spécialistes des données. Les réseaux neuronaux utilisent des entrées et, en fonction de leur magnitude, « pondéreront » ou « ne pondéreront pas » leur nœud en fonction de son seuil d’exigence. Ce signal, ou son absence, est ensuite combiné avec les autres signaux « pondérés » dans les couches cachées du réseau, où le processus se répète jusqu’à ce qu’une sortie soit créée. Comme l’un des avantages des réseaux neuronaux est une sortie quasi instantanée, les voitures à conduite autonome déploient ces modèles pour traiter avec précision et efficacité les données afin de prendre des décisions critiques de manière autonome.

Voisin le plus proche de K
La méthode du plus proche voisin K est utilisée pour catégoriser une nouvelle observation basée sur des observations passées. Contrairement aux méthodes précédentes, la méthode du plus proche voisin est basée sur des données et non sur un modèle. Cette méthode ne fait pas d’hypothèses sous-jacentes sur les données et n’utilise pas de processus complexes pour interpréter ses entrées. L’idée de base du modèle du k-plus proche voisin est qu’il classe les nouvelles observations en identifiant ses K voisins les plus proches et en lui attribuant la valeur de la majorité. De nombreux systèmes de recommandation imbriquent cette méthode pour identifier et classer des contenus similaires qui seront ensuite extraits par l’algorithme le plus grand.