还没写完,会持续更新~~
上个月看了周志华老师的机器学习视频课的前三章,但是后面中断了没看…(主要是懒)
于是打算这个月继续来学习西瓜书和南瓜书
Task01:概览西瓜书+南瓜书第1、2章 2天 截止时间 01月18日03:00
还是列出一些要点吧hhh
”算法”是从数据中学得“模型”的具体方法
模型是一个抽象的说法,可以理解为从数据里面产生出来的一个东西,可以是一个神经网络,甚至是一条规则
机器学习是关于学习算法(learning algorithm)的设计、分析和应用的学问。所以我们研究的核心是学习算法。
训练:我们拿到的数据用来建立这个模型,建立这个模型的过程就是训练
测试是把模型拿来用,而这个用 既可能是 考察模型好不好,也可能是 输入一个东西,让模型给结果
假设(hypothesis) 真相 (ground-truth)
模型
所谓的模型,其实是找到了某种规律。
比如现在要找到的是颜色是青绿色,耕地是蜷缩,敲起来声音很浑浊的这样的西瓜是一个好西瓜,就会得到了一个规则。这个规则假如我们把它当做一个模型,实际上它是揭示了 关于 什么是好西瓜 的一个规律。
模型揭示了关于我们要判断的结果的一个规律。
所以模型包含了一个规律。而模型找出来的这个规律不一定是正确的,所以它实际上是形成了一种假设。
当我们说 hypothesis 的时候,它其实就是在指我们学到的模型。对一个问题,我们可以形成很多的hypothesis,真的假设就是事实的真相(ground-truth)。
学得模型对应了关于数据的某种潜在规律,因此亦称"假设";这种潜在规律自身,则称为“真相”或“真实”
引导思考~
这本书上的向量写法的区分是什么?什么时候行向量,什么时候列向量?
为什么很多书上在没有指明的情况下,一般默认向量为列向量
经常问自己
在脑子里想一下属性张成空间
为什么要假设正类和负类是可交换的?
有哪些常见的监督学习和无监督学习任务?
为什么要假定数据独立同分布?
数据集 data set
学习/训练 learning/training
训练集 training set
测试集 testing set
模型/学习器 model/learner
监督学习 supervised learning
无监督学习 unsupervised learning
分布 distribution
i.i.d
)归纳(induction)
想想数学归纳法
演绎(deduction)
归纳学习有狭义与广义之分
广义:大体相当于从样例中学习
狭义:要求从训练数据中学得概念(concept) ,因此亦称为"概念学习"或"概念形成"
概念学习技术目前研究、应用都比较少,因为要学得 泛化性能好且语义明确的概念实在太困难了,现实常用的技术大多是产生"黑 箱"模型.然而,对概念学习有所了解,有助于理解机器学习的一些基础思想.
我们可以把学习过程看作一个在所有假设(hypothesis) 组成的空间中进行 搜索的过程,搜索目标是找到与训练集"匹配"(fit)的假设,即能够将训练集中 的瓜判断正确的假设