数据爬取之后,做ETL增量更新数据到原始表

接上面的文章,继续做大数据平台。在前些天将所有的数据都爬完了,也都导入的爬虫数据库(我们自己建了三个库,爬虫库、原始库、正式库)。今天演示从爬虫库到原始库的步骤。

思路: 首先要在原始库中创建时间戳表,用于保存更新数据后的时间。其次获取原始表中最后一次更新操作的时间,作为时间配置。然后对垃圾数据进行删除(此处的垃圾数据指的是任务中途停止,时间未更新,但原始数据库里存在新插入的部分新数据)。其次增量更新原始数据库,里面还包括数据进入原始库的时间。最后更新时间戳。

打开spoon做增量更新任务

数据爬取之后,做ETL增量更新数据到原始表_第1张图片

spoon中的任务图

数据爬取之后,做ETL增量更新数据到原始表_第2张图片

1、初始化时间戳

数据爬取之后,做ETL增量更新数据到原始表_第3张图片

2、获取时间,进行配置

数据爬取之后,做ETL增量更新数据到原始表_第4张图片

数据爬取之后,做ETL增量更新数据到原始表_第5张图片

3、删除垃圾数据

数据爬取之后,做ETL增量更新数据到原始表_第6张图片

4、增量更新数据

数据爬取之后,做ETL增量更新数据到原始表_第7张图片

数据爬取之后,做ETL增量更新数据到原始表_第8张图片

数据爬取之后,做ETL增量更新数据到原始表_第9张图片

数据爬取之后,做ETL增量更新数据到原始表_第10张图片

5、更新时间戳

数据爬取之后,做ETL增量更新数据到原始表_第11张图片

 

最后说一下待完善的内容,这里还需要有日志的支持,日入报错时的日志内容。还需要有定时任务的支持。这就需要之前我研究的kettle web端了,后续还会更新。

你可能感兴趣的:(数据爬取之后,做ETL增量更新数据到原始表)