机器学习从零单排(青铜五)

机器学习从零单排(青铜五)

写在前面

这学期选了王杰老师的machine learning。与之前上过的人工智能等一些基础课不同,可以明显地感觉到王杰老师对于知识的细节、逻辑和数学能力的要求都上了一个档次,作业也是latex提交这种让我非常兴奋的形式。而且个人感觉无论是之前听过的网上的公开课还是自己看书学过的一点皮毛知识并不足以让我混过去。老师本人据说是搞理论的,看起来可以说是一门非常硬核的课。。。

以这种形式写下来,附带一些随手写的小代码和完成的作业。现在是在自己的电脑上写的,发到blog上的时候不知道仍是穿插在blog中好,还是以链接的形式好,这个之后再说咯。

假设十五周 十五节课大致能到黄金,中途自我感觉良好跳个段啥的也不是不可能。希望最后能到白金水平吧!

Lecture1 Introduction and PAC

第一节课没选上所以没去听,自己看一下PPT 感觉似乎没讲什么,不知道允不允许上传PPT。不过现在ML的课程随处都是,应该没有问题。

http://staff.ustc.edu.cn/~jwangx/classes/210709/slides/Lec01.pdf

Introduction

简介这一章没有说什么,主要是用分类的例子讲了一个hypothesis的问题。一言以蔽之就是在众多假设的分类中(集合定义为H)的每个h里,通过这些h和机器学习的算法最后能得到近似目标函数c的h* ,目标函数当然就是真实值了。

Probably Approximately Correct (PAC)

PAC这个概念字面理解就是可能近似正确,这是一种学习框架的定义?这里我对学习框架的定义还不是完全的确定。PAC的意义就在于它可以帮助我们确定,需要多少数据或者样本才能以一个较高的准确率来估计目标函数

Error definition

达成这个目的我们首先要明确,怎样去定义样本的误差呢?

虽然我没有听第一节课,但是我猜老师应该有提到测度的概念。这个是后话了,我对测度也没有很深的理解,(这一段PPT的图示很精彩懒得截图了参照PPT Error of a Hypothesis部分)

关于误差的定义:

h 对应于c 的错误率为,随机选取的实例落入h 和c 不一致区间(即它们的集合差)的概率。这个Pr是在实例分布D上计算概率

Training error: the fraction of training examples misclassified by h

但是true error是x在整个实例分布之上,而不是训练的实例!

PAC Learnability

那么怎样去表述这样的可学习性呢?那就是得到一个的函数当然这是几乎不可能的。

所以严格的定义就是考虑一个类别C定义在维度为n的实例集合X上,(这里中文版TM的书中dimension翻译是长度,但是更直观的理解是特征维度?)学习器L 使用假设空间H 对所有C。。。。
。。。。严格的定义实在太长了,这里找到了一篇博客写的非常好

https://blog.csdn.net/rongxiang20054209/article/details/77601091

有趣的是他也提到了测度这一概念。

晋级感言

第一节课没有去上,据说上完了第一节课退课了五十个人,我才能补选成功,感谢你们,希望能坚持,不能像当年计算机图形学一样半途而废。

你可能感兴趣的:(机器学习从零单排(青铜五))