机器学习入门 笔记(二) 机器学习基础概念

第二章 机器学习基础概念

      • 1、机器的数据
      • 2、机器学习的主要任务
      • 3、监督学习和非监督学习
      • 4、批量、在线学习、参数、非参数学习
      • 5、哲学思考
      • 6、环境的搭建

1、机器的数据

机器学习入门 笔记(二) 机器学习基础概念_第1张图片
我们以鸢尾花的数据为例。收集大量鸢尾花的数据,花瓣的萼片长度、萼片宽度、花瓣长度、花瓣宽度,同时标记属于se、ve、vi三种鸢尾花之一。

  • 数据的整体叫做数据集
    我们收集的所有鸢尾花的数据就是一个数据集。

  • 每一行数据称为一个样本
    (萼片长度=5.1,萼片宽度=3.5,花瓣长度=1.4、花瓣宽度=0.2、花期=se(0)),这样一行记录,称之为一个样本。

  • 除最后一列,每一列表达样本的一个特征
    我们把萼片长度、萼片宽度、花瓣长度、花瓣宽度,叫做样本的特征。
    (萼片长度=5.1,萼片宽度=3.5,花瓣长度=1.4、花瓣宽度=0.2)称为一个样本的特征向量。赋予语义以后,通常用一个列向量表示。
    在这里插入图片描述

  • 最后一列,称之为标记
    根据花朵的所有特征以及采集时花朵的状态,我们可以对花朵的花朵的花期进行标记,标记为待开的se(0)、盛放的ve(1)、凋谢的vi(2)三种。

  • 用大写字母X表示特征矩阵,用小写字母表示y表示标记。第i个样本行写作

在这里插入图片描述
第i个样本第j个特征值
在这里插入图片描述
第i个样本的标记写作
在这里插入图片描述若我们只根据萼片的宽度和长度,把所有花朵映射到一张二维表上,横轴为萼片宽度,纵轴为萼片长度,可以清晰的看到样本主要集中在红蓝两处,样本则被简单的分类。我们把所有特征值组成的空间叫做特征空间,而分类任务本质就是对特征空间的划分。在多属性映射的高维空间同理。

机器学习入门 笔记(二) 机器学习基础概念_第2张图片

  • 特征可以很抽象
    特征可以很抽象,甚至没有语义。在图像中,每一个像素点都是特征,28x28的图像有784个特征,如果是彩色图像,特征更多。

2、机器学习的主要任务

本课程专注于机器学习中的监督学习。监督学习的基本任务是分类回归

分类

  • 二分类
    图像识别,判断一张图片是猫还是狗;根据病人各项数据,判断患者是良性肿瘤还是恶性肿瘤等。

  • 多分类
    手写数字识别,判断手写的数字是0~9中的哪个数字;市场风险评级;下围棋应该走那一步等。

  • 多标签分类
    例如图像识别中,一张女孩挥球拍的照片,标记女孩、球拍类型、动作等等。

因为是机器学习入门,主要学习二分类,部分多分类任务也能转化为二分类处理。

回归

  • 结果是一个连续的数字的值,而非一个类别
    一批数据给出房屋的面积、房屋的年龄、卧室数量、离地铁距离,提供房屋的价格等数据,来预测其他房屋的价格。价格是一个连续的值,而非一个类别。类似还有市场分析,预测学生的成绩分数等。
  • 有时回归任务可以转化为分类任务
    例如学生成绩,在回归任务中预测学生成绩分数,也可以转化为分类任务,对分数进行评级等。

3、监督学习和非监督学习

机器学习分类一:
监督学习

  • 给机器的训练数据拥有“标记”或“答案
    例如鸢尾花分类中,及提供的鸢尾花的特征,也标记了鸢尾花的类型。
    例如预测房价例子提供的数据中,除了提供房子的面积、卧室数量等信息,也提供了这些房子的售价价格。
    监督学习通常采用K临近、线性回归、多项式回归、逻辑回归、SVM决策树和随机森林算法。

非监督学习:

  • 给机器的训练数据没有任何“标记”或者“答案”

  • 对没有“标记”的数据进行分类——聚类分析
    电商网站中收集用户的消费行为,分类理智型消费者、冲动型消费者、性价比消费者等。

  • 对数据进行降维处理
    对采集的数据样本的特征进行提取或压缩
    特征提取:信用卡的信用评级和人的胖瘦无关?
    特征压缩:PCA算法处理,有时有的特征间关系很强,我们可以把多特征转化为特征间的映射关系从而减少特征数量,降维的好处也可以方便可视化。

  • 异常检测
    在二维的样本空间中,例如有异常点,它不具有表达样本特性的普遍性,可以去除。

半监督学习:

  • 一部分数据有“标记”或者“答案”,另一部分数据没有
  • 更常见:各种原因产生的标记缺失
    通常先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测。

增强学习:

  • 根据周围环境的情况,采取行动,根据采取行的的结果,学习行为方式。

监督学习半监督学习是机器学习的基础。

4、批量、在线学习、参数、非参数学习

机器学习分类二:

  • 批量学习(离线学习)
    先通过批量数据学习到模型,之后利用模型,向模型输入样例预测,模型不改变。
    优点:简单
    问题:如何适应环境变化?
    解决方案:定时重新批量学习,重新训练模型。
    缺点:每次重新批量学习,运算量巨大,在某些环境变化非常快情况下不可能实现。

  • 在线学习
    向学习得来的模型输入样例,得到预测结果,再于实时的正确结果对比,将正确结果放入算法中,继续修改模型。
    优点:新的数据带来不好的变化?例如竞争者扰乱市场,使收集的样本中出现过多异常特征值。
    解决:需要加强对数据进行监督----异常检测。
    当数据数据量巨大时,采用在线学习可使数据被分批处理。

  • 参数学习:
    我们对房屋的价格进行假设,假设为房屋价格:
    在这里插入图片描述
    则训练的主要任务就变成了找到参数a、b,一旦学习到了参数,就不再需要原有的数据集。

  • 非参数学习:
    不对模型过多的假设。
    非参数学习也有参数。

5、哲学思考

数据比算法重要?
2001年微软论文中,实验表明只要数据足够多,算法的准确性是相似的。这表明数据非常重要,预测结果依赖大量数据。
算法比数据更重要?
新版的阿尔法GO-zero在围棋比赛中打败阿尔法GO,阿尔法GO-zero具有超强学习算法,并不需要学习以往的棋谱数据,它完全凭借自身的能力,进行强化学习打败阿尔法GO。这说明算法也至关重要。
任意两个的算法,他们的期望性能是相同的。没有觉得的一个算法比另一个算法好,如果脱离具体问题,算法也没有意义。

6、环境的搭建

1、使用JupyterNotebook:
进入anaconda官网:下载3.7版本–>点击download–>windos–>python3.7,下载anaconda后安装,安装教程参考:link ,点击Anaconda Navigator,机器学习入门 笔记(二) 机器学习基础概念_第3张图片
安装JupyterNotebook,点击launch,机器学习入门 笔记(二) 机器学习基础概念_第4张图片
安装成功后会自动打开默认的浏览器,我使用的是文件是桌面上的test文件夹,所以点击Destktop->test,右上角点击new,python3,创建一个文件,会默认生成一个untitled的文件,点击文件名可以修改文件,保存后可以在桌面上的test文件夹下看到一个后缀名为.ipynb的文件。
2、有时会用到一些更方便的IDE环境,pycharm,下载地址:下载社区版 ,点击tools,pycharm,community,下载安装,安装教程网上也有很多。注意选择anaconda文件夹下的解析器。
关于JupyterNotebook和pycharm的使用网上有很多教程,这里就不细说了。

上一篇:机器学习入门 笔记(一) 机器学习准备

你可能感兴趣的:(机器学习)