这是笔者大学二年级必修科目《数据科学基础》个人向笔记整理的第一部分,包含前三个章节。本笔记内容基于清华大学出版社《数据科学导论-探索数据的奥秘》的相关知识。对于同样学习本门学科的读者可以此做参考方便您的学习;对于其他对本学科或相关领域感兴趣的读者,也可以在对本篇的阅读中激发兴趣。
数据的获取:传感技术
数据的流动传播:互联网与通信技术
数据的长期保存:存储技术
数据科学成为继实验、理论、计算以后人类探索世界的“第四范式”
①伦理与隐私
②数据分析与信息挖掘(不局限于结构化数据分析的Data Science)
③数据泄露:使用区块链技术使得数据无法随意复制,使得验证信息与拥有信息分离
对现实中某种事物或事物之间关系进行数量或性质表征与记录的,都可以称为数据;即以定性或定量的方式来描述事物、事件的符号记录。
有观点:当数据量大到需要用并行计算工具处理时
大数据的4V特点:
①Volume 体量大(完备性)
②Velocity 产生速度快而时效性高(实时性)
③Variety 类型繁多(多维度)
④Veracity 高度真实而价值密度低
相较于传统数据分析的三大变革:
①由随机样本转为全体数据(相对全体)
②由精确性转为混杂性
③由因果关系转为相关关系
应用科学的方法、流程、算法和系统,从多种形式的结构化或非结构化数据中提取知识和洞见的交叉学科。所有对数据的采集、分类、存储、处理、分析、呈现均可纳入范畴。
①出资方:出于商业或公共利益,提供资金支持
②客户/用户:最终利益
③数据科学家:设定和执行分析战略
④数据架构师:数据管理和存储
⑤运营工程师:管理基础设施,部署最终成果
将用户层面的问题抽象化为数据科学层面的问题。
用户层面与数据科学层面均有涉及,力求明确、具体、可验证、可量化、可实现的目标。
了解数据特性,并形成一些初步假设,为后续建模提供基础与准备。
基于任务目标,结合EDA结果,选择并构建合适的模型。
关注三方面问题:
①用什么评价指标?(依据任务选择)
②指标的参照标准是什么?(他人的结果、空模型)
③在什么数据对象上进行评价?(学习的数据、新数据)
常见的模型评价指标举例:
①分类问题:混淆矩阵等
②特征提取:ROC曲线下面积AUC等
③统计学分析:p值、置信区间等
空模型评价:空模型指的是最简单的模型,用于确定性能的下限
,如果一个方法没有达到最基本的空模型性能,就不应该接受。
举例1:X疾病发病率0.1%,某模型达到99%诊断准确率:
如果建立一个对所有数据都判定为健康的空模型,则正确率达到99.9%,所以不接受。
举例2:对150个鸢尾花数据(50个setosa,50个versicolor,50个Virginia)实施“是setosa”和“不是setosa”的二分类,能实现总体判别准确率65%:
如果建立一个对所有数据都判定为不是setosa的空模型,则正确率达到66.7%,所以不接受。
①数据获取(数据方案设计和实施)
②EDA(预处理和初步分析)
③信息挖掘(建模)
④解释与可视化
问题和目标均涉及现实世界的用户层面和抽象世界的数据科学层面。
面对现实世界的具体问题,制定相应用户层面的目标,越具体、明确越好。
把用户层面的问题或任务抽象为分类
、预测
、排序/打分
、关联化/去关联化
、特征提取
、聚类
。
依据一定的规则进行两个或两个以上的类别划分,获得的输出是针对输入数据所分配的类别标签。
举例:“真/假”、“阳性/阴性”、“类别Ⅰ/类别Ⅱ/类别Ⅲ”
基于已知数据对将来状态做出估计判断,预测结果可以是类别标签,也可以是连续的数量值。
举例:依据以往7天天气,预测未来7天天气
对于实体的某种或某些属性进行数量化描述或进行排序。
举例:根据绩效找出前10名优秀员工
在众多实体特征中寻找有相互关联的特征以便互相替代,从而实现特征的相互“解释”或数据降维;而对于非关联的特征则需要予以保留,以实现对样本的全面描述。
基于实体的众多特征,构造最反应目标的,或最能指示某种分类或排序的复合特征。
根据样本间的相似度将样本分组。
1.电商网站将用户消费能力分为高、中、低三个等级,此任务是:分类问题
2.电商网站根据用户的的消费数据进行自然的分组,不事先规定等级,此任务是:聚类
3.电商网站根据用户的历史数据判断每个用户下一个年度的消费金额,此任务是:预测
确定数据科学层面的问题和目标后,需要有明确的前提假设,基于前提假设设计的数据构成,明确总体和抽样方案,再收集数据。
根据任务提出前提假设,即研究的问题或任务可能与哪些因素相关。
根据前提假设设计数据方案,即前提假设需要用什么样的数据方案或实验支持。其中包括指标量化、采集范围等细节。
对设计的数据方案进行可行性分析,即现有条件能否获取所需的数据。需要具体的获取方法,认真评估方法的可行性,如果不能通过则需要重新审视、调整方案。
根据数据方案确定数据构成,数据应该为方便后期处理的“结构化”数据。结构化数据可以理解为一张不能再细分的二维表,表中一行代表一个存在且唯一的个体,一列代表一个属性(满足第一范式)。
举例:贷款客户甄别任务(“普通客户/高风险客户”二分类)的结构化数据:
客户 | 贷款期数 | 贷款目的 | 贷款金额 | 可支配月收入与月供比 | … |
---|---|---|---|---|---|
客户1 | |||||
客户2 | |||||
… |
确定数据构成后需要面临具体的数据搜集。
总体:待研究对象的全体
个体:总体中的每一个对象
样本:在无法获取总体的情况下,从总体中抽取出来的子集
样本容量:样本包含的个体数量
①样本容量不能过小
②抽样时不能有预设的偏见,必须是无偏抽样
无偏抽样(代表性抽样):抽样过程中不受个体性质的影响
抽样偏差:从总体中非随机性抽样带来的系统性错误
举例:幸存者偏差是典型的抽样偏差,其过度关注"幸存了某些经历"的人事物,忽略那些没有幸存的(可能因为无法观察到),造成错误的结论。
要避免抽样偏差,通常的做法是随机抽样。
随机抽样:总体中的个体是否被抽样并非确定,即不因为个体的某个或某些性质一定被抽中或一定不被抽中,而是每个个体都以一定的概率被抽样。
混杂因素:不是考察对象,但却可能会对结果造成影响的因素
排除混杂因素:对两相比较的样本集做好潜在混杂因素,甚至所有非考察因素的匹配
辛普森悖论:在某个条件下的两组数据,分别讨论时都会满足某种性质,可一旦合并考虑,却可能导致相反的结论(一般都是由于没有充分排除混杂因素影响所引起)
举例:课程网站的回头率与明星微博回头率数据比较:
学历信息 | 某明星微博回头率 | 课程网站回头率 |
---|---|---|
大学及以上 | 95%(76/80) | 92%(231/250) |
中学及以下 | 71%(193/270) | 34%(17/50) |
全部 | 77%(269/350) | 83%(248/300) |
A/B Testing:专门设计一些对比试验,在其他所有特征都匹配(或一致)的情况下,只观察一个变量(通常只有两个选项)的不同取值对结果的影响
双盲实验:临床医学研究中检验新药物新技术是否有效的方法
举例:“A服用我们的产品治好了老寒腿”为什么不能作为产品有效的科学依据
①样本容量过小(只有一人)
②抽样存在幸存者偏差(是否吃过药的都治好)
③未考虑混杂因素(是否接受过其他治疗)
笔记的第一部分包含了数据科学项目处理流程中确定问题
、制定目标
、搜集数据
方面的相关理论内容与介绍。本节内容偏理论,同样学习该门学科的读者应该熟练掌握,大部分读者了解思想即可。更为具体也是更为重要的内容将在接下来的笔记分享。