Cloud Data

Définition DFS (distributed file system)

Distributed file system  (DFS)

⌚: 2 minutes

Un système de fichiers distribués (DFS pour Distributed File System) est une application client/serveur qui permet aux clients d’accéder aux données stockées sur le serveur et de les traiter comme s’il s’agissait de leur propre ordinateur. Lorsqu’un utilisateur accède à un fichier sur le serveur, le serveur lui envoie une copie du fichier, qui est mise en cache sur l’ordinateur de l’utilisateur pendant que les données sont traitées, puis renvoyée au serveur.

Dans l’idéal, un système de fichiers distribués organise les services de fichiers et de répertoires des différents serveurs en un répertoire global de telle sorte que l’accès aux données à distance ne soit pas spécifique à un lieu mais soit identique à partir de n’importe quel client. Tous les fichiers sont accessibles à tous les utilisateurs du système de fichiers global et l’organisation est hiérarchique et basée sur des répertoires.

Distributed File System (DFS) - FirstAttribute AG

Étant donné que plusieurs clients peuvent accéder simultanément aux mêmes données, le serveur doit disposer d’un mécanisme (tel que le maintien des informations sur les heures d’accès) pour organiser les mises à jour de manière à ce que le client reçoive toujours la version la plus récente des données et que des conflits de données ne se produisent pas. Les systèmes de fichiers distribués utilisent généralement la réplication de fichiers ou de bases de données (distribution de copies de données sur plusieurs serveurs) pour se protéger contre les défaillances d’accès aux données.

Le Network File System (NFS) de Sun Microsystems, Novell NetWare, le Distributed File System de Microsoft et le DFS d’IBM/Transarc sont quelques exemples de systèmes de fichiers distribués.

Une vidéo explicative de la définition d’un DFS (Distributed File System) :

————————————————————————————————————————————————————-

Pour aller plus loin sur le DFS nous vous proposons ci-dessous d’aborder des notions plus techniques quand dans la définition ci-dessus 🙂

 

 

La DFS comporte deux volets :

Transparence des lieux : La transparence de l’emplacement est obtenue grâce à la composante espace de noms.
La redondance : La redondance se fait par le biais d’une composante de réplication de fichiers.
En cas de panne et de charge importante, ces composants améliorent ensemble la disponibilité des données en permettant de regrouper logiquement dans un seul dossier le partage des données à différents endroits, ce qui est connu sous le nom de « racine DFS ».

Il n’est pas nécessaire d’utiliser les deux composantes de DFS ensemble, il est possible d’utiliser la composante espace de noms sans utiliser la composante réplication de fichiers et il est parfaitement possible d’utiliser la composante réplication de fichiers sans utiliser la composante espace de noms entre les serveurs.

Caractéristiques de DFS

  • Transparence :
    • Transparence de la structure : Il n’est pas nécessaire que le client connaisse le nombre ou l’emplacement des serveurs de fichiers et des dispositifs de stockage. Plusieurs serveurs de fichiers doivent être fournis pour des raisons de performance, d’adaptabilité et de fiabilité.
    • Transparence de l’accès : Les fichiers locaux et distants doivent être accessibles de la même manière. Le système de fichiers doit être automatiquement localisé sur le fichier auquel on accède et l’envoyer au client.
    • Transparence des noms : Le nom du fichier ne doit comporter aucune indication sur l’emplacement du fichier. Une fois qu’un nom est donné au fichier, il ne doit pas être modifié pendant le transfert d’un nœud à l’autre.
    • Transparence de la réplication : Si un fichier est copié sur plusieurs nœuds, tant les copies du fichier que leurs emplacements doivent être cachés d’un nœud à l’autre.

 

  • Mobilité des utilisateurs : Le répertoire d’origine de l’utilisateur sera automatiquement amené au nœud où l’utilisateur se connecte.
  • Performance : La performance est basée sur le temps moyen nécessaire pour convaincre le client des demandes. Ce temps couvre le temps CPU + le temps d’accès au stockage secondaire + le temps d’accès au réseau. Il est conseillé que les performances du système de fichiers distribué soient similaires à celles d’un système de fichiers centralisé.
  • Simplicité et facilité d’utilisation : L’interface utilisateur d’un système de fichiers doit être simple et le nombre de commandes dans le fichier doit être faible.
  • Haute disponibilité : Un système de fichiers distribué doit pouvoir continuer à fonctionner en cas de défaillance partielle, comme une défaillance d’un lien, d’un nœud ou d’un disque de stockage.

Un système de fichiers distribués hautement authentique et adaptable doit disposer de serveurs de fichiers différents et indépendants pour contrôler des dispositifs de stockage différents et indépendants.

 

Historique du DFS

La composante serveur du système de fichiers distribués a été initialement introduite comme une fonctionnalité supplémentaire. Il a été ajouté à Windows NT 4.0 Server et était connu sous le nom de « DFS 4.1 ». Par la suite, il a été inclus comme composant standard pour toutes les éditions de Windows 2000 Server. Le support côté client a été inclus dans Windows NT 4.0 et également dans les versions ultérieures de Windows.

Les noyaux Linux 2.6.14 et les versions ultérieures sont livrés avec un VFS client SMB appelé « cifs » qui prend en charge DFS. Mac OS X 10.7 (lion) et les versions ultérieures supportent Mac OS X DFS.

Applications

  • NFS : NFS signifie Network File System. Il s’agit d’une architecture client-serveur qui permet à un utilisateur d’ordinateur de visualiser, de stocker et de mettre à jour des fichiers à distance. Le protocole de NFS est l’une des nombreuses normes de systèmes de fichiers distribués pour le stockage en réseau (NAS).
  • CIFS : CIFS signifie Common Internet File System. CIFS est un accent de SMB. C’est-à-dire que CIFS est une application du protocole SIMB, conçu par Microsoft.
  • SMB : SMB signifie Server Message Block. C’est un protocole de partage de fichiers qui a été inventé par IMB. Le protocole SMB a été créé pour permettre aux ordinateurs d’effectuer des opérations de lecture et d’écriture sur des fichiers vers un hôte distant via un réseau local (LAN). Les répertoires présents dans l’hôte distant sont accessibles via SMB et sont appelés « partages ».
  • Hadoop : Hadoop est un groupe de services de logiciels à source ouverte. Il fournit un cadre logiciel pour le stockage distribué et l’exploitation de données volumineuses en utilisant le modèle de programmation MapReduce. Le noyau deHadoop contient une partie de stockage, appelée Hadoop Distributed File System (HDFS), et une partie opérationnelle qui est un modèle de programmation MapReduce.
  • NetWare : NetWare est un système d’exploitation de réseau informatique abandonné, développé par Novell, Inc. Il utilise principalement le multitâche combiné pour exécuter différents services sur un ordinateur personnel, en utilisant le protocole de réseau IPX.

Fonctionnement de DFS

Il y a deux façons de mettre en œuvre la DFS :

  • Espace de noms DFS autonome : Il n’autorise que les racines DFS qui existent sur l’ordinateur local et n’utilisent pas Active Directory. Un DFS autonome ne peut être acquis que sur les ordinateurs sur lesquels il est créé. Il ne fournit aucune libération de fautes et ne peut être lié à aucun autre DFS. Les racines de DFS autonomes sont rarement rencontrées en raison de leur avantage limité.
  • Espace de noms DFS basé sur un domaine : Il stocke la configuration de DFS dans Active Directory, créant ainsi la racine de l’espace de noms DFS accessible à \\\\<nom de domaine>\<dfsroot> ou \\\<FQDN>\<dfsroot>

Avantages d’un DFS

  • Le DFS permet à plusieurs utilisateurs d’accéder aux données ou de les stocker.
  • Il permet de partager les données à distance.
  • Il améliore la disponibilité des fichiers, le temps d’accès et l’efficacité du réseau.
  • Elle a amélioré la capacité à modifier la taille des données et améliore également la capacité à échanger les données.
  • Le système de fichiers distribués assure la transparence des données même en cas de défaillance du serveur ou du disque.

Inconvénients du DFS

  • Dans un système de fichiers distribué, les nœuds et les connexions doivent être sécurisés, on peut donc dire que la sécurité est en jeu.
  • Il y a une possibilité de perte de messages et de données dans le réseau lors du passage d’un nœud à l’autre.
  • La connexion à la base de données dans le cas d’un système de fichiers distribués est compliquée.
  • De plus, la manipulation de la base de données n’est pas facile dans un système de fichiers distribués par rapport à un système à utilisateur unique.
  • Il est probable qu’une surcharge se produise si tous les nœuds tentent d’envoyer des données en même temps.

 

Voilà vous devriez maintenant être calé sur les fonctionnalités et l’utilité d’un DFS, du moins en théorie, pour la partie pratique en revanche il va falloir mettre les mains dans le moteur 🙂

Ecrire un commentaire