Noisy data
Les Noisy data sont des données sans signification. Ce terme a souvent été utilisé comme synonyme de données corrompues. Cependant, sa signification s’est élargie pour inclure toutes les données qui ne peuvent pas être comprises et interprétées correctement par les machines, comme le texte non structuré. Toute donnée reçue, stockée ou modifiée de telle manière qu’elle ne peut être lue ou utilisée par le programme qui l’a créée à l’origine peut être décrite comme bruyante. Noisy data augmente inutilement la quantité d’espace de stockage nécessaire et peut également avoir un effet négatif sur les résultats de toute analyse d’exploration de données. L’analyse statistique peut utiliser les informations glanées dans les données historiques pour éliminer les données bruyantes et faciliter l’exploration de données.
Les données bruyantes peuvent être causées par des défaillances matérielles, des erreurs de programmation et le charabia des programmes de reconnaissance vocale ou optique de caractères (OCR). Les fautes d’orthographe, les abréviations industrielles et l’argot peuvent également entraver la lecture automatique.