AWS Data Pipeline

AWS Data Pipeline est un outil d’Amazon Web Services (AWS) qui permet à un professionnel de l’informatique de traiter et de déplacer des données entre des services de calcul et de stockage sur le cloud public AWS et des ressources sur site.AWS Data Pipeline gère et rationalise les flux de travail data-driven, ce qui inclut la planification du déplacement et du traitement des données. Ce service est utile pour les clients qui souhaitent déplacer des données le long d’un pipeline défini de sources, de destinations et d’activités de traitement des données.
À l’aide d’un modèle de pipeline de données, un professionnel de l’informatique peut accéder aux informations d’une source de données, les traiter, puis transférer automatiquement les résultats vers un autre système ou service. L’accès au pipeline de données est possible via l’AWS Management Console, l’interface de ligne de commande ou les API de service.

Une activité est une action exécutée par AWS Data Pipeline, telle qu’une requête SQL ou un script de ligne de commande. Un développeur peut associer une précondition facultative à une source de données ou à une activité, ce qui permet de s’assurer qu’elle répond à des conditions spécifiées avant d’exécuter une activité. AWS Data Pipeline comprend plusieurs activités et conditions préalables standard pour des services tels qu’Amazon DynamoDB et Amazon Simple Storage Service (S3).

Comment le service AWS Data Pipeline aide-t-il
à mieux gérer les charges de travail axées sur les données,
ainsi que des exemples de mise en place et de
l’approvisionnement d’un pipeline dans le système.
Un développeur peut gérer les ressources ou laisser AWS Data Pipeline les gérer. Les options de ressources gérées par AWS-Data-Pipeline comprennent les instances Amazon EC2 et les clusters Amazon Elastic MapReduce (EMR). Le service fournit un type d’instance ou un cluster EMR, selon les besoins, et met fin aux ressources de calcul lorsque l’activité se termine.

Exemples
Un spécialiste des données affectera une tâche à AWS Data Pipeline afin qu’elle accède aux données du journal d’Amazon S3 toutes les heures, puis transfère ces données vers une base de données relationnelle ou une base de données NoSQL en vue d’une analyse ultérieure. Autre exemple, AWS Data Pipeline peut transformer des données en un format SQL, faire des copies de données distribuées, envoyer des données à des applications Amazon Elastic MapReduce (Amazon EMR) ou traiter des scripts pour envoyer des données à Amazon S3, Amazon Relational Database Service ou Amazon DynamoDB.

Le service AWS Data Pipeline est adapté aux flux de travail déjà optimisés pour AWS, mais il peut également se connecter à des sources de données sur site, ainsi qu’à des sources de données tierces. L’installation du package Java Task Runner sur les serveurs locaux interrogera en permanence AWS Data Pipeline pour lui permettre de travailler avec des ressources sur site.

Tarification
Les tarifs d’AWS Data Pipeline varient selon la région dans laquelle les clients utilisent le service, selon qu’ils fonctionnent sur site ou dans le cloud, et selon le nombre de conditions préalables et d’activités qu’ils utilisent chaque mois.

AWS propose un niveau de service gratuit pour AWS Data Pipeline. Les nouveaux clients reçoivent gratuitement trois conditions préalables à faible fréquence et cinq activités à faible fréquence par mois pendant un an. Ces activités et conditions préalables à basse fréquence ne sont pas exécutées plus d’une fois par jour.