《大数据之路:阿里巴巴大数据实践》笔记——数据同步篇

数据同步方式

方式 定义 优点 缺点
直连同步 通过定义好的规范接口 API 和基于动态链接库的方式直接连接业务库 配置简单,实现容易,比较适合操作型业务系统的数据同步 对源系统的性能影响较大
数据文件同步 通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如 FTP 服务器传输到目标系统后,加载到目标数据库系统中。 当数据源包含多个异构的数据库系统(如 MyS QL Oracle QL Server DB2 等)时,用这种方式比较简单、实用;互联网的日志类数据,通常是以文本文件形式存在的,也适合使用数据文件同步方式 文件传输需校验,有时也需增加压缩加密等功能
数据库日志解析同步 使用日志文件进行系统恢复 实现了实时与准实时同步的能力,延迟以控制在毫秒级别,并且对业务系统的性能影响也比较小 数据延迟,投人较大,数据漂移和遗漏

阿里数仓同步方式

批量数据同步

DataX 采用 Framework+Plugin 的开放式框架实现, Framework 处理缓冲、流程控制、并发、上下文加载等高速数据交换的大部分技术问题,并提供简单的接口与插件接入。
《大数据之路:阿里巴巴大数据实践》笔记——数据同步篇_第1张图片
• Job :数据同步作业
• Splitter :作业切分模块,将 个大任务分解成多个可以并发行的小任务
• Sub-Job :数据同步作业切分后的小任务,或称之为 Task
• Read er :数据读人模块,负 运行切分后的小任务,将数据从源系统 载到 DataX
• Channel: eader Writer 通过 hannel 交换数据。
• Writer :数据 出模块,负责将数据从 DataX 导人目标数据系统。

实时数据同步

TimeTunnel (TT )系统就是这样的实时数据传输平台,具有高性能、实时性、顺序性、高可靠性、高可用性、可扩展性等特点。
《大数据之路:阿里巴巴大数据实践》笔记——数据同步篇_第2张图片

数据同步中的问题和解决

分库分表

TDDL ( Taobao Distributed Data ayer )就是这样一个分布式数据库的访问引擎,通过建立中间状态的逻辑表来整合统一分库分表的访问

高效同步和批量同步

通过 OneClick 产品,真正实现了数据的一键化和批量化同步,一键完成 DDL DML 生成、数据的冒烟测试以及在生产环境中测试等。

增量与全量同步的合并

全外连接( full outer join) +数据全量覆盖重新加载( insert overwrite ),即如日调度,则将当天的增量数据和前一天的全量数据做全外连接,重新加载最新的全量数据。在大数据量规模下,全量更新的性能比 update 要高得多。此外,如果担心数据更新错误问题,可以采用分区方式,每天保持 个最新的全量版本,保留较短的时间周期(如3~7天)

同步性能的处理

,阿里巴巴数据团队实践出了一套基于负载均衡思想的新型数据同步方案。该方案的核心思想是通过目标数据库的元数据估算同步任务的总线程数,以及通过系统预先定义的期望同步速度估算首轮同步的线程数,同时通过数据同步任务的业务优先级决定同步线程的优先级,最终提升同步任务的执行效率和稳定性。

数据漂移的处理

【时间类型】
数据库表中用来标识数据记录更新时间 modified_time
数据库日志中用来标识数据记录更新时间 log_time
数据库表中用来记录具体业务过程发生时间 proc_time
标识数据记录被抽取到时间 extract_time
【漂移的原因】
(1)根据 extract_ti me 来获取数据。这种情况数据漂移的问题最明显。
(2)根据 modified_time 限制。在实际生产中这种情况最常见,但是
往往会发生不更新 modified time 而导致的数据遗漏,或者凌晨时间产生的数据记录漂移到后一天。
(3)根据 log_time 限制。由于网络或者系统压力问题, log time 会晚于proc_time。
(4)根据 proc_time 限制。仅仅根据 proc_time 限制,我们所获取ODS 表只是包含一个业务过程所产生的记 ,会遗漏很多其他过程的变化记录,这违背了 ODS 和业务系统保持 致的设计原则
【漂移的处理】
方法1:多获取后一天的数据,保障数据只会多不会少。这样会有误差,比如凌晨支付并退款,统计状态时出错。
方法2:通过多个时间戳字段限制时间来获取相对准确的数据。
(1)首先根据 log_time 分别冗余前一天最后 15 分钟的数据和后一天凌晨开始 15 分钟的数据,并用 modified_time 过滤非当天数据。
(2)然后根据 log_time 获取后一天 15 分钟的数据 针对此数据,按照主键根据 log_time 做升序排列去重。
(3)前两步的结果数据做全外连接,通过限制业务时间proc_time 来获取我们所需要的数据。

你可能感兴趣的:(大数据,big,data,数据库,大数据)