1.数据科学项目处理流程
(1)确定问题
将用户层面的问题抽象化为数据科学层面的问题。
(2)制定目标
用户层面与数据科学层面均有涉及,力求明确、具体、可验证、可量化、可实现的目标。
(3)搜集数据
(4)探索性数据分析(EDA)
了解数据特性,并形成一些初步假设,为后续建模提供基础与准备。
(5)建立模型
基于任务目标,结合EDA结果,选择并构建合适的模型。
(6)性能评价
关注三方面问题:
①用什么评价指标?(依据任务选择)
②指标的参照标准是什么?(他人的结果、空模型)
③在什么数据对象上进行评价?(学习的数据、新数据)
常见的模型评价指标举例:
①分类问题:混淆矩阵等
②特征提取:ROC曲线下面积AUC等
③统计学分析:p值、置信区间等
空模型评价:空模型指的是最简单的模型,用于确定性能的下限,如果一个方法没有达到最基本的空模型性能,就不应该接受。
举例1:X疾病发病率0.1%,某模型达到99%诊断准确率:
如果建立一个对所有数据都判定为健康的空模型,则正确率达到99.9%,所以不接受。
举例2:对150个鸢尾花数据(50个setosa,50个versicolor,50个Virginia)实施“是setosa”和“不是setosa”的二分类,能实现总体判别准确率65%:
如果建立一个对所有数据都判定为不是setosa的空模型,则正确率达到66.7%,所以不接受。
(7)结果展示
(8)部署模型
1.5 数据科学项目的数据流
①数据获取(数据方案设计和实施)
②EDA(预处理和初步分析)
③信息挖掘(建模)
④解释与可视化
第二章 问题与目标
问题和目标均涉及现实世界的用户层面和抽象世界的数据科学层面。
2.1 用户层面的问题与目标
面对现实世界的具体问题,制定相应用户层面的目标,越具体、明确越好。
2.2 数据科学层面的问题与目标
把用户层面的问题或任务抽象为分类、预测、排序/打分、关联化/去关联化、特征提取、聚类。
(1)分类
依据一定的规则进行两个或两个以上的类别划分,获得的输出是针对输入数据所分配的类别标签。
举例:“真/假”、“阳性/阴性”、“类别Ⅰ/类别Ⅱ/类别Ⅲ”
(2)预测
基于已知数据对将来状态做出估计判断,预测结果可以是类别标签,也可以是连续的数量值。
举例:依据以往7天天气,预测未来7天天气
(3)排序/打分
对于实体的某种或某些属性进行数量化描述或进行排序。
举例:根据绩效找出前10名优秀员工
(4)关联化/去关联化
在众多实体特征中寻找有相互关联的特征以便互相替代,从而实现特征的相互“解释”或数据降维;而对于非关联的特征则需要予以保留,以实现对样本的全面描述。
(5)特征提取
基于实体的众多特征,构造最反应目标的,或最能指示某种分类或排序的复合特征。
(6)聚类
根据样本间的相似度将样本分组。
2.3 例题
1.电商网站将用户消费能力分为高、中、低三个等级,此任务是:分类问题
2.电商网站根据用户的的消费数据进行自然的分组,不事先规定等级,此任务是:聚类
3.电商网站根据用户的历史数据判断每个用户下一个年度的消费金额,此任务是:预测
第三章 数据获取
确定数据科学层面的问题和目标后,需要有明确的前提假设,基于前提假设设计的数据构成,明确总体和抽样方案,再收集数据。
3.1 前提假设与数据方案设计
(1)前提假设
根据任务提出前提假设,即研究的问题或任务可能与哪些因素相关。
(2)数据方案设计
根据前提假设设计数据方案,即前提假设需要用什么样的数据方案或实验支持。其中包括指标量化、采集范围等细节。
(3)数据获取的可行性分析
对设计的数据方案进行可行性分析,即现有条件能否获取所需的数据。需要具体的获取方法,认真评估方法的可行性,如果不能通过则需要重新审视、调整方案。
(4)确定数据构成
根据数据方案确定数据构成,数据应该为方便后期处理的“结构化”数据。结构化数据可以理解为一张不能再细分的二维表,表中一行代表一个存在且唯一的个体,一列代表一个属性(满足第一范式)。
举例:贷款客户甄别任务(“普通客户/高风险客户”二分类)的结构化数据:
客户 贷款期数 贷款目的 贷款金额 可支配月收入与月供比 …
客户1
客户2
…
3.2 总体与抽样
确定数据构成后需要面临具体的数据搜集。
(1)总体与个体
总体:待研究对象的全体
个体:总体中的每一个对象
(2)样本
样本:在无法获取总体的情况下,从总体中抽取出来的子集
样本容量:样本包含的个体数量
①样本容量不能过小
②抽样时不能有预设的偏见,必须是无偏抽样
(3)无偏抽样
无偏抽样(代表性抽样):抽样过程中不受个体性质的影响
(4)抽样偏差
抽样偏差:从总体中非随机性抽样带来的系统性错误
举例:幸存者偏差是典型的抽样偏差,其过度关注"幸存了某些经历"的人事物,忽略那些没有幸存的(可能因为无法观察到),造成错误的结论。
要避免抽样偏差,通常的做法是随机抽样。
(5)随机抽样
随机抽样:总体中的个体是否被抽样并非确定,即不因为个体的某个或某些性质一定被抽中或一定不被抽中,而是每个个体都以一定的概率被抽样。
3.3 混杂因素与 A/B Testing
(1)混杂因素与辛普森悖论
混杂因素:不是考察对象,但却可能会对结果造成影响的因素
排除混杂因素:对两相比较的样本集做好潜在混杂因素,甚至所有非考察因素的匹配
辛普森悖论:在某个条件下的两组数据,分别讨论时都会满足某种性质,可一旦合并考虑,却可能导致相反的结论(一般都是由于没有充分排除混杂因素影响所引起)
举例:课程网站的回头率与明星微博回头率数据比较:
学历信息 某明星微博回头率 课程网站回头率
大学及以上 95%(76/80) 92%(231/250)
中学及以下 71%(193/270) 34%(17/50)
全部 77%(269/350) 83%(248/300)
(2)双盲实验与 A/B Testing
A/B Testing:专门设计一些对比试验,在其他所有特征都匹配(或一致)的情况下,只观察一个变量(通常只有两个选项)的不同取值对结果的影响
双盲实验:临床医学研究中检验新药物新技术是否有效的方法
举例:“A服用我们的产品治好了老寒腿”为什么不能作为产品有效的科学依据
①样本容量过小(只有一人)
②抽样存在幸存者偏差(是否吃过药的都治好)
③未考虑混杂因素(是否接受过其他治疗)