西瓜书+南瓜书学习(1-2章)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 一、序言
  • 二、第一章 绪论
  • 三、第二章 模型评估与选择


前言

        这是我第一次学习周志华老师的《机器学习》,以前学习过很多版本的机器学习相关算法,如MOOC中吴飞老师讲的人工智能:模型与算法、B站UP主讲个较为离散的几个监督算法、数学建模竞赛需要学习的一些算法等。

        之前学习都有强目的性,大多数是因为要参加某项竞赛学习,或者是在进行某项竞赛时找一些特定的算法,比如说BP神经网络算法来学习。前几个月,有幸获得了燕山大学的推免,并顺利进入了中南大学,研究方向为智能选线,导师希望我如果感兴趣的话可以学人工智能之类的算法及知识图谱相关内容,以后从事该方面的研究,所以我打算系统的学习一遍需要学习的内容。周志华老师的《机器学习》就是我的起点。

        ​看了几天发现内容虽然非常好,但是好多公式看不大懂= = 、 所以参加了datawhale的组队学习,希望可以攻克它


提示:以下是本篇文章正文内容,下面案例可供参考

一、序言

        因为多多少少有一些基础,所以选择了从序言开始看。序言主要讲了机器学习的发展历史与主要研究方向,以及对周志华老师其进行了简单的介绍。

        首先机器学习是人工智能的一部分,他是专门研究计算机怎么模拟或实现人类的学习行为的科学。机器学习发展之初主流为符号学习,符号学习顾名思义,旨在学习单个符号的意义,之后整合理解全部含义。但是由于算力提升、大数据的出现,统计机器学习出现在了历史的舞台上,之前听一老师讲课说“只要有足够的案例,它可以拟合出所有的函数。”

二、第一章 绪论

1.引言

        首先用一个例子引出了人们的思考,我们在日常生活中判断一些事情靠的是“经验”(专家系统),如果经验内部有一定的联系,那我们能不能通过计算机进行模拟,进而推断出他们的结果,从而让计算机辅助我们进行判断呢?(回头一看引言,有点像知识图谱的研究初衷)

2.基本术语

  1. 数据集、样本、特征、特征值、属性空间、样本空间、特征向量、维数
  2. 学习(训练)、训练数据、训练样本、训练集、假设、学习器(模型)
  3. 标签 label、预测、拥有了label的信息称作样例、样本空间
  4. 如果我们预测是离散值,称为分类(classification);如果是连续值,称为回归(regression)
  5. 测试、测试样本、聚类、簇
  6. 监督学习(supervised learning)、无监督学习(unsupervised learning)
  7. 模型适用于新样本  叫做泛化能力
  8. 独立同分布
  9. 特化
  10. 归纳偏好
  11. 奥卡姆剃刀——若有多个假设与观察成立,取最简单的。

二、第二章 模型评估与选择

误差、欠拟合和过拟合

解决方法:对数据集进行处理

如:留出法(70%用于训练,30%用于测试。训练数据不能用于测试。)、交叉验证法、自助法等。

模型评估方法:

错误率和精度、代价敏感错误率与代价曲线等。

你可能感兴趣的:(学习,python)