大数据之路之数据上云解决方案(全量)

定义:数据上云又称数据采集,数据集成,数据迁移,是大数据架构中的最基础也是最根本的一环,从性质上来讲属于ETL中的一部分操作,即把数据从一个地方迁移汇总到另外一个地方。数据上云解决了信息孤岛问题,解决了信息不对称问题,即”车同轨书同文“,同时把数据迁移到云计算平台,对后续数据的计算和应用提供了第一步开山之路

难点:

  1. 数据上云如何做到在数量上,质量上保持无误?
  2. 数据上云如何解决不同平台的网络,架构等数据兼容性,影射性问题?
  3. 数据上云如何做到从云下到云上自动调度,如何保证数据变更与云下保持一致?
  4. 数据上云如何解决云下数据库表结构变化,云下数据变化,云上能及时获取,能及时在平台级做到变更?
  5. 数据上云如何针对不同的业务需求做出不同的应对,如何面面俱到而不是过度拟合?
  6. 数据上云如何解决后续运维难题?

上云工具:数据上云工具有很多,不仅有开源的DataX,Kettle,Sqoop等,还有一些厂商自研的各种数据采集平台,我们可根据实际需求选择最好的。由于很多数据采集平台都是付费或者与自己云平台绑定在一块的,买了服务才能用,而且这种平台大多数是图形化点击操作,无需掌握采集技术原理,只需傻瓜式点点即可,所以这里我们讲一下更具技术含量的开源采集工具,以DataX为例,DataX知识

篇幅有限,这里先讲全量上云

全量上云即在上云的那一刹那,把当前数据库形成一个全量快照,然后采集上云,所以在传统全量上云中,云下数据库新进来的数据是无法采集到的,不过影响也不算大。毕竟我们选择全量上云时一般都是在凌晨左右,业务量极低,而且本身全量上云就是离线操作,所以这些新进来的数据第二次采集再进来也不迟,如果业务有需求的,可以通过控制时间和采集频率来解决 

以oracle - 云 为例

第一步:信息配置:由于实际业

你可能感兴趣的:(大数据弄潮儿)