Les dark data
Les dark data sont des informations numériques qui ne sont pas utilisées. La société de conseil et d’études de marché Gartner Inc. décrit les dark data comme « des actifs informationnels qu’une organisation collecte, traite et stocke dans le cadre de son activité professionnelle régulière, mais qu’elle n’utilise généralement pas à d’autres fins. »
Bien souvent, une organisation peut laisser les données obscures pour des raisons pratiques. Les données peuvent être sales et le temps qu’elles puissent être nettoyées, les informations peuvent être trop anciennes pour être utiles. Dans un tel scénario, les enregistrements peuvent contenir des données incomplètes ou périmées, être mal analysés ou être stockés dans des formats de fichiers ou sur des appareils devenus obsolètes.
De plus en plus, le terme « dark data » est associé aux big data et aux données opérationnelles. Il s’agit par exemple des fichiers journaux des serveurs qui pourraient fournir des indices sur le comportement des visiteurs d’un site web, des enregistrements des détails des appels des clients qui intègrent des données non structurées sur le sentiment des consommateurs et des données de géolocalisation mobile qui pourraient révéler des modèles de trafic qui aideraient à la planification des activités.
Potentiellement, ce type de données sombres peut être utilisé pour générer de nouvelles sources de revenus, éliminer le gaspillage et réduire les coûts. Par conséquent, de nombreuses organisations qui stockent des données sombres à des fins de conformité réglementaire utilisent Hadoop pour identifier les bits sombres utiles et les associer à des utilisations commerciales possibles.