机器学习_1 机器学习-深度学习概念入门

三者区别

人工智能(Artificial Intelligence)
机器学习(Machine Learning):一种实现人工智能的方法。
深度学习(Deep Learning):一种实现机器学习的技术。

机器学习——按照任务是否需要和环境交互分为:

  1. 监督学习——按照训练样本是否存在标签分为:
    1.1 有监督学习
    1.2 无监督学习
    1.3 半监督学习
  2. 强化学习

1.有监督学习

按照训练样本的固有属性,可以分为分类(训练样本离散,目标标签是类别类型)和回归(训练样本连续,目标标签是数值类型)。

典型算法包括:

  • 线性回归
  • 逻辑回归
  • 支持向量机(SVM)
  • 朴素贝叶斯分类器
  • 决策树
  • 集成方法
  • 人工神经网络
  • 深度神经网络

关于神经网络和深度学习的概念,可以先这样理解:神经网络和深度学习的概念其实差不多,互相交叉。

有监督学习特性:

1 至少需要一个输入特征和标签来训练模型,机器能够从训练集中进行学习的根本原因在于基本假设,即输入特征中的一些数据独立或联合起来会对标签产生影响。

  1. 训练集——高中三年的作业题
  2. 验证集——高考模拟题
  3. 测试集——高考题

2 可以评估模型的性能,基于模型的分类(分类、回归、时序),可以应用评估指标并且可以测量性能结果(因为我们已经知道测试集的正确标签了)。

2.无监督学习

基于没有任何正确答案得到数据来训练模型,机器尝试找出数据中的隐藏模式和有用信号,以便后续应用。

典型算法包括:

  • 聚类算法(K均值、层次聚类)
  • 维度降低技术
  • 主题模型
  • 关联规则挖掘

典型应用包括:

  • 聚类
  • 异常检测
  • 关联关系

无监督学习与有监督学习相比:

1 不需要标注训练集。
2 不提供预测。
3 性能无法估算(因为没有标签或正确答案)。

3.半监督学习

实例:

网络上存在大量品牌图片,我们手动标注一部分,然后基于这些标注图片来训练模型,之后,使用模型预测来标注其余图片。

优点:

  1. 模型是基于较大数据集训练来的,模型健壮性较好。
  2. 因为无须人工大量标注,可以节省大量时间和精力。

缺点:

  1. 伪标注难以提供较高的性能。

4.强化学习

监督学习与强化学习的主要区别在于是否需要与环境进行交互,监督学习需要数据来训练模型,而强化学习依托奖励系统运行,通过反馈机制最大化奖励。

典型应用包括:

  • 自动驾驶汽车
  • 能源消耗的优化
  • 游戏领域
  • 下棋竞技(阿尔法狗)
  • 构建推荐系统

热门应用

1.CV

2.NLP

3.BI(推荐算法属于BI)

两个PDF要好好学。

名词解释

1.特征、标签和观察

  • 特征——也叫属性,例如年龄、性别等列。

  • 标签——也叫目标,就是模型试图为未知数据进行预测的结果列。

  • 观察——一条完整的具有特征和标签的记录就是一个观察。

2.特征工程

对数据原有的特征和列进行预处理、构造和拆分,对数据原有的特征进行重构,便于模型学习,可以通过引入新特性来提升模型性能,因为garbage in,garbage out。

3.超参数(hyperparameter)

在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。

超参数可以理解为一种需要提前设置的经验值,其也是一种参数,它具有参数的特性,比如未知,也就是它不是一个已知常量。一种手工可配置的设置,需要为它根据已有或现有的经验指定“正确”的值,也就是人为为它设定一个值,它不是通过系统学习得到的,在支持向量机(SVM)和深度学习(Deep Learning)中应用较多。

超参数的一些示例:

  1. 树的数量或树的深度
  2. 矩阵分解中潜在因素的数量
  3. 学习率(多种模式)
  4. 深层神经网络隐藏层数
  5. k均值聚类中的簇数

你可能感兴趣的:(机器学习,机器学习)