工作中做的一个数据交付项目总结

标题项目的形式

依托第三方数据源,以及公司爬虫数据、政府合作数据,按甲方的需求字典清洗字段并进行定时推送。

项目的难点

(1)数据清洗,处理
(2)数据更新考虑到外部第三方的数据的问题,做定时轮询取数据做处理—通过接口;
(3)数据交付的问题 –通过sftp服务交付;

用到的组件与开发技术点

  1. PG:连接、存取数据、唯一索引
  2. python:接口取文件,保存文件,读取文件,原始文件保留入pg库备份;同时原始文件字段进行清洗后结果数据保留入pg库,从pg库导出交付到ftp服务器上,这期间入pg库需要用到进程池的处理的方式,python多进程处理,保证入库速度。
  3. stfp:连接,上传文件,创建文件目录,断点续传。
    定时任务:定时轮询去第三方接口取数据,如果取过,则不会再取,这里取过与否是根据数据库里面产生的文件名称记录来辨别的,文件名称是根据推送时间及加密规则生成的特定名称,保证每次轮询取最新的数据包;处理完之后推送到交付方。
  4. 邮件通知:推送完毕后会添加邮件服务,推送此次统计报告,以及推送数量的记录。
    非数据交付日,需要推送空包,以表明机制正常运行!

你可能感兴趣的:(工作总结)