《大数据概论》第2章 理论基础

目录

  • 一、数据科学的学科地位
    • 1.数学与统计知识
    • 2.黑客精神与技能
    • 3.领域实务知识
  • 二、统计学
    • 1.分类
      • 1.1从行为目的和思维方式看
      • 1.2.从方法论角度看
    • 2.统计学与机器学习的区别
    • 3.数据科学视角下的统计学
  • 三、机器学习
    • 1.概念
    • 2.常用机器学习知识
      • 2.1基于实例学习
        • KNN(K近邻)算法
      • 2.2概念学习
      • 2.3决策树学习
      • 2.4人工神经网络学习
        • 深度学习
      • 2.5贝叶斯学习
      • 2.6遗传算法
      • 2.7分析学习
      • 2.8增强学习
    • 3.机器学习面临的挑战
  • 四、数据可视化
    • 1.在数据科学中的地位
    • 2.Tableau技术

一、数据科学的学科地位

从学科定位来看,数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域的重叠之处,是多种理论相互融合后形成的新兴学科

1.数学与统计知识

“数学与统计知识”是数据科学的主要理论基础之一
数据科学与(传统)数学和统计学的区别:
1.“数据”不仅仅是“数值”,也不等同于“数值”
2.“计算”不仅仅是数学计算,还包括数据的查询、挖掘、洞见、分析、可视化等更多类型
3.数据科学强调跨学科视角
4.数据科学是“理论研究”和“领域实务知识”二者的结合

2.黑客精神与技能

“黑客精神与技能”是数据科学家的主要精神追求和技能要求——大胆创新、喜欢挑战、追求完美和不断改进
黑客(Hacker):喜欢发现和解决技术挑战、攻击计算机网络系统的精通计算机技能的人
骇客(Cracker):闯入计算机系统和网络试图破坏和偷窃个人信息的个体

3.领域实务知识

“领域实务知识”是对数据科学家的特殊要求,具有显著的面向领域性

二、统计学

1.分类

1.1从行为目的和思维方式看

数据统计方法分为:
1.描述统计:采用图表和数学方法描述数据的统计特征
分为集中趋势分析,离中趋势分析,相关分析
2.推断统计:通过“样本”对“总体”进行推断分析
常用方法:参数估计、假设检验

1.2.从方法论角度看

基于统计的数据方法分为:
1.基本分析法:用于对“低层数据(0次或1次数据)”进行统计分析
常用方法:回归分析、分类分析、时间序列分析、线性分析、方差分析、聚类分析等
2.元分析法:基于“高层数据(2次或3次数据)”,尤其是对基本分析法得出的结果进一步分析的方法(在已有统计分析的结果上进一步进行统计分析)
常用方法:加权平均法、优化方法

2.统计学与机器学习的区别

统计学更关注“可解释性”,侧重模型
机器学习更关注“预测能力”,侧重“算法”
主要区别:统计学需要事先对处理对象的概率分布做出假定,而机器学习不需要;统计学通过各种统计指标来评价统计模型的拟合优度,而机器学习通过交叉验证或划分训练集和测试集的方法评价算法的准确度

3.数据科学视角下的统计学

1.不是随机样本,而是全体数据
2.不是精确性,而是混杂性
3.不是因果关系,而是相关关系

三、机器学习

1.概念

机器学习:计算机能模拟人的学习行为,通过学习获取知识和技能,不断改善技能,实现自我完善
基本思路:以现有的部分数据(训练集)为学习素材(输入),通过特定的的学习方法(机器学习算法),让机器学习到(输出)能够处理更多或未来数据的新能力(目标函数)【采用函数逼近算法估计目标函数】
描述完整的学习系统的三个关键组成要素:
1.任务(T)
2.性能指标(P)
3.经验来源(E)

2.常用机器学习知识

2.1基于实例学习

基本思路:事先将训练样本存储下来,然后每当遇到一个新增查询实例时,学习系统分析此新增实例与此前存储的实例之间的关系,并据此把一个目标函数值赋给新增实例
常用方法:K近邻方法,局部加权回归法,基于案例的推理

KNN(K近邻)算法

主要解决的是:在训练样本集中的每个样本的分类标签为已知的条件下,如何为一个新增数据给出对应的分类标签
计算特征之间的相似度:欧式距离法

2.2概念学习

本质:从有关某个布尔函数的输入输出训练样本中推算出该布尔函数
核心问题:搜索策略的选择
为了便于假设空间的搜索,一般定义假设的一般到特殊偏序结构,具体方法:Find-S算法、候选消除算法

2.3决策树学习

本质:逼近离散值目标函数的过程(代表一种分类过程)
根节点:分类的开始
叶节点:一个实例的结束
中间节点:相应实例的某一个属性
节点之间的边:某一个属性的属性值
从根节点到叶节点的每条路径:一个具体的实例,同一路径上的所有属性之间是“逻辑”与“关系”
核心算法:ID3算法

2.4人工神经网络学习

概念:从训练样本中学习到目标函数,学习系统是由相互连接的神经元组成的复杂网络
通过神经元之间的连接方式不同,分为无反馈的前向神经网络和相互连接型网络(反馈网络)

深度学习

概念:采用一组简单转换方法将原始数据转换成更高层次和更抽象的表达的过程(通过足够多的简单转换函数及其各种组合方式来学习一个复杂的目标函数)
关键:计算观测数据的分层特征及其表示
分为:无监督和生成式学习深度网络、监督学习深度网络、混合深度网络

2.5贝叶斯学习

概念:一种以贝叶斯法则为基础的,并通过概率手段进行学习的方法(贝叶斯概率引入先验知识和逻辑推理来处理不确定命题)
贝叶斯概率分析是相对于频数概率分析的分析方法(频数概率只从数据本身获得结论)
基本方法:朴素贝叶斯分类器

2.6遗传算法

概念:从候选假设空间中搜索出最佳假设
“最佳假设”指“适应度指标为最优的假设”
“适应度”:为当前问题预先定义的一个评价度量值
生物进化:三个基本原则:适者生存、两性繁衍、突变
对应遗传算法:三个基本算子:选择、交叉、突变

2.7分析学习

特点:使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关(相对于归纳学习的一种提法)

2.8增强学习

主要研究:如何协助自治Agent的学习活动,进而达到选择最优动作的目的(Agent需要具备与环境的交互能力和自治能力)
基本思路:当Agent在其环境中做出每个动作时,施教者会根据奖赏或惩罚信息,以表示结果状态的正确与否
Agent的任务:从这些有延迟的回报中学习“控制策略”,以便后续的动作产生最大的累积回报
根据学习任务的不同,分为:监督学习、无监督学习、半监督学习
带标签数据:训练集中的每个示例均带有自己的输出值——便签

3.机器学习面临的挑战

1.过拟合
2.维度灾难
3.特征工程
4.算法的可扩展性
5.模型集成

四、数据可视化

1.在数据科学中的地位

1.视觉是人类获得信息的最主要路径
2.相比于统计分析的优势
(1)可以洞察统计分析无法发现的结构和细节
(2)数据可视化处理结果的解读对用户知识水平的要求较低
3.可视化能够帮助人们提高理解和处理数据的效率

2.Tableau技术

Tableau支持数据可视化和数据故事化
起源于VizQL语言,用户只需进行简单拖放操作即可完成较为复杂的可视化处理
数据引擎技术:Hyper,可以在几秒之内对几十亿行数据完成临时分析(利用专有的动态代码生成机制和先进的并行方法提高速度)

你可能感兴趣的:(大数据概论,大数据)