结构化数据挖掘

经典的结构化数据挖掘

什么是结构化数据

结构化数据即表格数据(tabular data),绝大多数数据都是表格数据。虽然现在有很多非结构化数据,但大多数是结构化数据,也会从非结构化中提取非机构化数据。
每列为一个字段(变量),变量可以分为离散型、连续型。

传统建模流程

主要建立在业务理解上,90%时间用在DC(数据清洗)和EDA上。

存在的问题

业务理解是一个悖论——科学的业务理解需要来自对数据宏观的分析,而分析又来自对业务的理解。
一些实际的问题:

  • 高维稀疏变量(人不能很好地处理高维的特征,没法得到很好的业务理解)
  • 较差的变量质量(数据不准确、少)
  • 业务的多变性(实际面临各种各样的业务,任何人不可能面面俱到)

现在的结构化数据挖掘

数据挖掘竞赛简介

主办方提供训练集,测试集(评分用),挑战:
无业务理解,对提交次数限制,测试集和训练集有出入,时间有限制需充分利用,最终根据精度来评价。
与实际业务的区别:给定了变量。

新的流程

  • 数据清理和EDA
  • 半自动的变量构建和手动构建
  • 一类模型用来提高准确率,一类模型做集成备选(提高多样性)
    • 传统主要靠集成树(xgboost,lightGBM)
    • 神经网络越来越多

说明

  • 流程需要反复进行
  • 基本原则:尽可能利用算力和时间(训练的时间用来进一步EDA或别的事情,即不要到最后再去训练模型)
  • EDA的重要性没有定论,最好结合实际的试验结果来做。
  • 结合全局和局部信息(极度稀疏的特征在不稀疏的时候的重要性)

你可能感兴趣的:(结构化数据挖掘)