大数据之路——数据挖掘

七、数据技术篇—— 数据挖掘

    • 7.1 数据挖掘算法平台
    • 7.2 数据挖掘中台体系
      • 7.2.1 挖掘数据中台
      • 7.2.2 挖掘算法中台
    • 7.3 数据挖掘案例
      • 7.3.1 用户画像
      • 7.3.2 反作弊

数据挖掘技术与数据仓储和计算技术发展相辅相成,挖掘有效数据信息

企业级数据挖掘包含两个要素:

  1. 面向计算器学习算法的并行计算框架与算法平台;
  2. 面向企业级数据挖掘的算法资产管理体系。

7.1 数据挖掘算法平台

汇集了大量优质的分布式算法,包括数据处理、特征工程、机器学习算法等,可高效地完成海量、亿级维度数据的复杂计算(海量样本的高维度特征训练时必备要素

MPI是一种基于消息传递的并行计算框架,没有IO操作。
大数据之路——数据挖掘_第1张图片

7.2 数据挖掘中台体系

将一些通用的技术集成起来形成中台技术体系,提供统一、高效的技术服务,避免资源浪费与时间消耗。

一次数据挖掘的过程:商业理解 -> 数据准备 -> 特征工程 -> 模型训练 -> 模型测试 -> 模型部署 -> 线上应用 -> 效果反馈。

数据挖掘的商业场景

  1. 个体挖掘应用,对单个实体的行为特征进行预测分析,如预测商品的销量等
  2. 关系挖掘应用,研究多个实体间的关系特征,如商品的相似关系

数据挖掘技术要素

  1. 数据,数据是起源也是最终承载形式,源于数据高于数据
  2. 算法,是神经中枢,进行加工

7.2.1 挖掘数据中台

大数据之路——数据挖掘_第2张图片

  • 特征层 Featural Data Mining Layer(FDM)。存储训练前常用的特征指标,统一清洗和去噪处理。
  • 中间层
    • 个体中间层 Individual Data Mining Layer。面向个体挖掘场景,存储通用性强的结果数据
    • 关系中间层 Relational Data Mining Layer。面向关系挖掘场景,存储通用性强的结果数据
  • 应用层 Application-oriented Data Mining Layer (AD)。沉淀比较个性偏应用的数据挖掘指标,经过深度加工

7.2.2 挖掘算法中台

比较难的是在理解原理的基础上结合业务使用算法。希望有一套类似于评分卡建模的方法论和实操模版。

个体挖掘:消费者画像与业务指标预测 比较有代表性

关系挖掘:相似关系和竞争关系

7.3 数据挖掘案例

7.3.1 用户画像

背景:传统获取用户反馈信息耗时长、结果缺失

转折点:大数据环境,能快速获取海量用户行为并精确分析人群偏好

什么是用户画像:为用户打上各种标签,如年龄、性别、职业、商品类别偏好等

分类:基础属性、购物偏好、社交关系、财富属性

用户标签如何基于全域数据产出?女装风格偏好为例

  1. 女装有哪些风格?将女装行业下的商品标题文本提取出后,进行分词(去除无效的词可用TF-IDF),得到女装描述词库
  2. 如果商品描述中已经包含一种风格,就可以计算词库中词语和商品描述的相似度,过滤得到女装风格词库
  3. 用无监督学习LDA等可以计算出一种风格包含的词汇和词汇的重要性
  4. 根据买家的浏览、搜索、加购物车等行为,考虑风格元素组成
  5. 选择合适的进行推荐

7.3.2 反作弊

反作弊的使用方面

  1. 账户/资金安全与网络欺诈防控
  2. 非人行为和账户识别
  3. 虚假订单与信用炒作识别
  4. 广告推广与APP安装反作弊
  5. UGC恶意信息检测

反作弊方法

  1. 基于业务规则。优点:精度高、可解释性强,能识别老的作弊方式。缺点:人力成本高,滞后性强
  2. 基于有监督学习的方法。优点:通用性强,人力成本在样本标注。缺点:解释性不强,易错判
  3. 基于无监督学习的方法。优点:异常检测,不需要标记样本。缺点:特征设计和提取工作量大
  4. 多媒体数据处理
  5. 图计算模型

反作弊分类

  1. 离线反作弊。通过对历史行为和业务规则的沉淀,来判断未来行为的作弊情况。优点:准确率高,历史数据越多越准。缺点:时效性差
  2. 实时反作弊。在满足基本准确率和覆盖率的前提下抽取计算速度比较快的部分。

挑战

  1. 作弊手段的多样性和多变性
  2. 算法的及时性和准确性
  3. 数据及作弊手段的沉淀和逆向反馈

你可能感兴趣的:(大数据,大数据之路总结,数据挖掘,big,data,算法)