机器学习概念介绍

机器学习(Machine Learning)

  1. 概念:机器学习是一门多领域交叉学科,涉及概率论统计学逼近论凸分析算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
  2. 学科定位:人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
  3. 定义:探索和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。
    Arthur Samuel(1959):一门不需要通过外部程序指示而让计算机有能力自我学习的学科
    Langley(1996):机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能
    Tom Michell(1997):机器学习是对能通过经验自动改进的计算机算法的研究
    学习针对经验E(experience)和一系列的任务T(tasks)和一定表现的衡量P,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力
  4. 应用:语音识别、自动驾驶、语言翻译、计算机视觉、推荐系统、无人机、垃圾识别邮件等
  5. Demo:人脸识别、无人驾驶汽车、电商推荐系统等

深度学习(Deep Learning)

  1. 是基于机器学习延伸出来的一个新的领域,由以人的大脑结构为启发的神经网络算法为起源加之模型结构深度的增加发展,并伴随大数据和计算能力的提高而产生的一系列新的算法,其概念由著名科学家Geoffrey Hinton等人在2006年和2007年在《Science》等上发表的文章被提出和兴起。
  2. 主要应用于图像处理与计算机视觉,自然语言处理以及语音识别等领域。如无人驾驶汽车中的路标识别,百度识图、针对图片,自动生成文字的描述等

概念简介

  1. 基本概念:训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归
  2. 人类学习概念(鸟,车,计算机)-> 定义概念学习:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数
    例如学习“享受运动”这一概念:小明进行水上运动,是否享受运动取决于很多因素,如
    天气:晴,阴,雨
    温度:暖,冷
    湿度:普通,大
    风力:强,弱
    水温:暖,冷
    预报:一样,变化
样例 天气 温度 湿度 风力 水温 预报 享受运动
1 普通 一样
2 一样
3 变化
4 变化

概念定义在实例(instance)集合之上,这个集合表示为X(X:所有可能的日子,每个日子的值由天气、温度、湿度、风力、水温、预报这6个属性组成,每一个属性都是一个特征值)

待学习的概念或目标函数称为目标概念(target concept),记做c,当享受运动时,c(x) = 1,当不享受运动时,c(x)=0
c(x)也可叫做y,x表示每一个实例,X表示样例,即所有实例的集合,也叫做数据集

  • 训练集(training set/data)/训练样例(training examples):用来进行训练,也就是产生模型或者算法的数据集(这里假设有100天小明进行水上运动的数据,知道是否享受运动)
  • 测试集(testing set/data)/测试样例 (testing examples):用来专门进行测试已经学习好的模型或者算法的数据集(这里有10天小明进行水上运动的数据,不知道是否享受运动,只有6个属性,来预测每一天是否享受运动)
  • 特征向量(features/feature vector):属性的集合,通常用一个向量来表示,附属于一个实例,如样例1,x = [晴,暖,普通,强,暖,一样]
  • 标记(label):c(x),实例类别的标记,如c([晴,暖,普通,强,暖,一样])= 1

再例如房价预测问题(这里假设影响房价的因素只有两个,面积(平方米)和学区(评分1-10))

样例 面积 学区 房价
1 100 8 1000$
2 120 9 1300$
3 60 6 800$
4 80 9 1100$
5 95 5 850$

房价是一个连续性的数值,不是0,1可以区分的类别数据,这就可以引出分类和回归的区别

  • 分类(classification):目标标记为类别型数据(category)
  • 回归(regression):目标标记为连续性数值(continuous numerical value)

在举例研究肿瘤良性,恶性与尺寸,颜色的关系问题,特征值:肿瘤尺寸、颜色,标记:良性/恶性,可以看出这是一个分类问题

上述的三个例子:是否享受运动,房价预测,肿瘤良性恶性预测都属于有类别标记的,第一个和第三个例子的标记都可以看做c(x)=0,1类型的,而第二个例子的标记可以看做c(x)=prediction,其中prediction是一个连续的数值,由此引出机器学习的分类

  • 有监督学习(supervised learning):训练集有类别标记(class label)
  • 无监督学习(unsupervised learning):训练集无类别标记(class label)
  • 半监督学习(semi-supervised learning):有类别标记的训练集 + 无类别标记的训练集

机器学习步骤

(可参考“是否享受运动”案例)

  1. 数据拆分为训练集和测试集
  2. 用训练集和训练集的特征向量来训练算法
  3. 用学习来的算法运用在测试集上来评估算法(可能要涉及到调整参数(parameter tunniing),用验证集(validation set))

你可能感兴趣的:(学习总结)