读《大数据之路:阿里巴巴大数据实践》有感

  • 日志采集的挑战
    数据采集面临的主要挑战已不是日志采集技术本身,而是如何实现日志数据的结构化和规范化组织,实现更为高效的下游统计计算,提供符合业务特性的数据展现,以及为算法提供更便捷、灵活的支持等方面。
    规范制定——元数据注册——日志采集——自动化计算——可视化展现

3、数据同步

3.1 数据同步方式

直连同步、数据文件同步、数据库日志解析同步

  • 直连同步
    直连同步是指通过定义好的规范接口API和基于动态链接库的方式直接连接业务库,如ODBC/JDBC等规定了统一规范的标准接口,不同的数据库基于这一套标准接口提供规范的驱动,支持完全相同的函数调用和SQL实现。
    这种方式配置简单,实现容易,比较适合操作型业务系统的数据同步。但是业务库直连的方式对源系统的性能影响较大,当执行大批量数据同步时会降低甚至拖垮业务系统的性能。如果业务系统采用主备策略,从备库抽取数据,避免影响。数据量较大时,采取这种抽取方式性能较差,不太适合从业务系统到数据仓库系统的同步。

  • 数据文件同步
    数据文件同步通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如FTP服务器传输到目标系统后,加载到目标数据库系统中。
    优点:简单实用。
    缺点:通过文件服务器上传和下载可能会造成丢包和错误,为了确保数据文件同步的完整性,需要校验文件,校验文件记录数据文件的数据量和文件大小等。文件传输之前对文件进行压缩,解压缩,加密和解密,可以大大提高文件传输效率和安全性。

  • 数据库日志解析同步
    大多数主流数据库都是实现了日志文件进行系统恢复,日志文件信息丰富,数据格式稳定,可以通过解析日志文件获取发生变更的数据。
    优点:数据库日志解析同步方式可以实时和准实时的同步,延迟可以控制在毫秒级别,并且对业务系统的性能影响较小。目前广泛应用于从业务系统到数据仓库系统的增量数据同步应用中。

7 数据挖掘

数据挖掘过程包括商业理解、数据准备、特征工程、模型训练、模型测试、模型部署、线上应用、效果反馈等环节。
数据中层分为特征层(Featural Data Mining Layer, FDM)、中间层、应用层(Application-oriented Data Mining Layer, ADM),其中中间层分为个体中间层(Individual Data Mining Layer, IDM)、关系中间层(Relational Data Mining Layer, RDM)。

读《大数据之路:阿里巴巴大数据实践》有感_第1张图片
阿里巴巴数据挖掘中台.png

不同数据层的作用的区别:

  • FDM层:用于存储在模型训练前常用的特征指标,并进行统一的清洗和去燥处理,提升机器学习特征工程环节的效率。
  • IDM层:个体挖掘指标中间层,面向个体挖掘场景,用于存储通用性强的结果数据,主要包含商品、卖家、买家、行业等维度的个体数据挖掘的相关指标。
  • RDM层:关系挖掘指标中间层,面向关系挖掘场景,用于存储通用性强的结果数据,主要包含商品间的相似关系、竞争关系、店铺间的相似关系、竞争关系等。
  • ADM层:用来沉淀比较个性化偏应用的数据挖掘指标,比如用户偏好的类目,品牌等,这些数据已经过深度的加工处理,满足某一特点业务或产品的使用。

常见数据挖掘应用

  • 个体挖掘应用
    • 用户画像
    • 用户身份&同人识别
    • 业务指标预测
    • ID反作弊
  • 关系挖掘应用
    • 相似关系挖掘
    • 竞争关系挖掘
    • 推荐系统

7.4.1 互联网反作弊

反作弊方向

  • 账户/资金安全与网络欺诈防控
  • 非人行为和账户识别
  • 虚假账单与信用炒作识别
  • 广告推广与app安装反作弊

反作弊方法

  • 基于业务规则的方法
  • 基于监督学习的方法
  • 基于无监督学习的方法

你可能感兴趣的:(读《大数据之路:阿里巴巴大数据实践》有感)