【一起啃书】西瓜书(一)

希望通过b站视频课【一起啃书】机器学习西瓜书白话解读来认真读西瓜书,以下是对视频中的重点记录,以及课后自己看书得到的感悟和记录

视频学习笔记

学习资源:b站李沐老师的论文精读 《西瓜书》 《南瓜书》 《机器学习实战》《深度学习入门》

公式推导:感性认识+参数+详细理论推导

线性模型
基本形式(简单)
线性回归
d个属性 m个样本 目标是学习规则 学习的方式就是通过均方差,求预测值和实际值的均方差的和的最小值 均方差就是目标函数
转化为矩阵形式
对w和b求导(此处需要推导)
多元线性回归(没听懂 需要看书)
公式法推导(用得不多,可以看看)
对数线性回归(用线性来表示非线性关系)
广义线性回归(反函数,这里有点不懂)

对数几率回归
对数几率函数 就是sigmoid函数
函数式(用线性回归的模型去逼近真实的对数几率 这里不太懂)
优点 不止得到类别 还能得到近似概率预测
机器学习实战第四章最后

线性判别分析
主要了解思想(公式可以看看)

多分类学习

类别不平衡

书中重点记录

第一章

概念总结

机器学习:研究如何通过计算的手段,利用经验来改善系统自身的性能。
模型:全局性结果 模式:局部性结果(模式识别?)
特征向量:每个样本在样本空间中的坐标向量
真相或真实(ground truth):数据的潜在规律
标记(label):数据的结果(这里证明标记与真实是不同的概念,做深度学习的这段时间,感觉都混为一谈了)
预测值为离散值:分类任务;预测值为连续值:回归任务;只涉及两个类别的分类:二分类任务;涉及多个类别的任务:多分类任务;在没有标记信息的前提下,将数据分成若干组:聚类任务
学习的模型适用于新样本的能力:泛化能力
假设样本空间中全体样本服从某个分布,我们获得的所有样本都是从这个分布上采样获得的,则称我们的样本为独立同分布(于全体样本)的,为了简便,通常省略括号中的文字
归纳与演绎,分别是泛化和特化的过程;由于机器学习本身是从样例中通过经验学习规则的过程,因此是一种“归纳学习
狭义的归纳学习要求从训练数据中学得概念,因此也成为“概念学习
假设:预测值或预测目标函数(自己的理解,可能不标准)
假设空间:所有属性取值的不同组合构成的空间(自己归纳的,书上没有明确写)
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(也称为归纳偏置,如平移等变性则为卷积神经网络的归纳偏置之一,归纳偏置更像是一种“潜规则”,是卷积自带的一种属性,而非通过学习和分析样本得到的)
奥卡姆剃刀原则:若有多个假设与观察一致,则选最简单的那个(应用了“相似的样本,得到的假设应该比较接近”这一归纳偏好)
没有免费的午餐定理:无论算法a有多聪明,算法b有多笨拙,它们的期望性能(算法在训练集外的样本上的总误差)相同(前提是,所有问题出现的机会相同,事实是,我们对不同问题的关注度是不同的)
机器学习发展历程:大致为推理期->知识期;具体来说,50年代到70年代,出现了很多机器学习的相关奠基理论;80年代,机器学习成为了一个独立的学科领域,出现了需要机器学习的研究分支,其中研究最多应用最广的是**“从样例中学习”;“从样例中学习”的一大主流是符号主义学习**,以决策树和基于逻辑的学习为代表,前者经过了历史的考验,到今天仍被广泛应用,后者则由于复杂度随着假设空间的增加而极度提高,慢慢陷入了研究低潮;慢慢的,“从样例中学习”的另一主流技术,基于神经网络的连接主义学习登场,发展出了BP算法,但因为依赖手工调参,限制了发展;90年代中期,统计学习占据主要舞台;21世纪初,连接主义卷土重来,掀起了”深度学习“热潮,大大降低了机器学习应用这的门槛,为机器学习技术走向工程实践带来了便利

例题
1.3 关于概念学习的小例子,是说通过穷举所有假设,构成假设空间(如下图,共65种)->使用某种策略对假设进行搜索(自上而下)->保留与训练集一致的假设,删除不一致的假设(同时符合样例①②且不符合样例③④)->与训练集一致的假设集合,即为版本空间(下图标记了红色大拇指的三条),这三条就是我们学习到的,可以用于判别好瓜坏瓜的规则


但是我认为保留和删除的标准不对,应该是满足①或②且不满足③④(因为满足①②中的任意一条都应该被看作正样例)

公式推导
1.4 这里的公式推导未看

你可能感兴趣的:(机器学习,机器学习,人工智能)