使用AWS Data Pipeline处理数据

Data Pipeline的主角是数据。

AWS上提供了多种服务来存储、处理数据,S3,EMR,Redshift,RDS,DynamoDB。

Pipeline就是帮用户在这么多种数据源上进行处理。

下面通过简单制作一个pipeline把S3数据拷贝到S3上的另一个路径,来学习Data Pipeline的基础概念。

创建pipeline

使用AWS Data Pipeline处理数据_第1张图片

可以通过预定义的模板来定义管道

使用AWS Data Pipeline处理数据_第2张图片


管道可以单次运行或者类似cron定时运行

使用AWS Data Pipeline处理数据_第3张图片

使用AWS Data Pipeline处理数据_第4张图片


定义pipeline

空白模板

使用AWS Data Pipeline处理数据_第5张图片


创建数据源(注意FilePath,from是源,to是目的)

使用AWS Data Pipeline处理数据_第6张图片

使用AWS Data Pipeline处理数据_第7张图片

可以用的数据源

使用AWS Data Pipeline处理数据_第8张图片


定制Activity 活动

使用AWS Data Pipeline处理数据_第9张图片

活动的可选类型

使用AWS Data Pipeline处理数据_第10张图片


连接后的结果的可视化界面

使用AWS Data Pipeline处理数据_第11张图片


这时如果想保存,执行管道的时候,会出现错误


需要设置 资源

也就是运行这个Activity的环境,我们使用EC2

使用AWS Data Pipeline处理数据_第12张图片


执行

保存Pipeline后,会询问是否Activate激活,选择Yes。然后开始运行。



结果

会看到在S3的to目录里,有了拷贝过来的test.txt文件

你可能感兴趣的:(AWS,Data,Pipeline)