没错啦,就是Coursera上吴恩达的课。什么,第一篇笔记为啥从第二周开始?不好意思啦,第一周都在笔记本上呢,还没开哈哈哈~
多变量回归
第二周V1-V2首先讲了Multiple feature的线性回归梯度下降方法,其实就是多变量函数,大概用到求偏导之类的简单推导即可得到通式,和单变量是一致的。
V3则是说明多feature的情况下,scaling类似非常重要,feature之间相对一致的scaling可以加快梯度下降的迭代速度。实现这一点只要做些normalization之类的统计处理即可,与气象上的变量标准化的思路是一样的,距平除以数据的range或者标准差。
V4首先介绍如何检测正在执行的梯度下降是有效的,很简单,把cost function的值在每轮iteration后拿出来看看就可以啦,在一定迭代次数后cost function收敛到某值即可。当然也可以使用automatic convergence test,就是看每轮梯度下降对cost function的减少是否低于某阈值。之后则是介绍如果发现cost function出现了随着迭代次数增加而发散或周期性振荡的情况,则需要调小learning rate(传说中的调参民工干的事情么)。这和气象模式积分不稳定的时候需要调小积分步长类似,有着一致的出发点和处理思路。当然,随之带来的则是计算量的显著提升。Andrew随后给出了实际应用中他所采取的方法,给一个等比数列的alpha,大概按3x增加,然后都来train一遍,最后选个收敛相对快且足够小的alpha即可。
V5讲了多feature的选择问题,这对建模是非常重要的,也说明背景领域知识的重要性。Andrew举了个具体的例子,比如在有了house长和宽两个指标的情况下,预测房价显然用长宽的乘积,也就是面积,作为新的feature是更合理的。同时,若feature和房价的关系更可能是多项式关系,三次回归显然比二次回归合理,因为二次回归抛物线性质会使得feature大的时候price反而减小,这是不合常识的。当然更合理的假设可能是下面的形式:
当然形式本身并不反映mechanism,我们的目标是凑出最有效的预测嘛。
多项式回归依然采用梯度下降处理(体现出梯度下降相比最小二乘的优势了吧),只是要注意scaling非常重要,因为feature的高次幂值域会显著扩大。
Normal Equation
好吧刚刚怼了最小二乘这里就介绍了。以一阶线性回归为例,求导,set=0,得到解析解。一般化的,对于theta0-n共n+1个feature,构建design matrix X,转置观测列向量并依观测放入X的每一行即可,即m观测行乘以n特征列矩阵:
y则是对应label的列向量。
然后Andrew直接给出了求theta的Normal Equation:
视频中没有给出推导过程,自己试着推导了一下,对cost function求导并set为0向量。还是需要用到一些矩阵运算的性质(好了,不要吐槽我autodraw的清奇画风):
用Normal equation的话不需要考虑scaling的问题, which is nice。Andrew对梯度下降和NE的优缺点做了个很好的对比:
划重点,由于NE的时间复杂度是O(n^3),n如果很大,也就是说feature很多的话,NE会很慢,n~10^6必然要使用GD啦,Andrew建议10^4以上采用GD。另外对于clustering类的问题,NE是无效的,GD无敌。
V2介绍NE的noninvertibility的问题。如果X'X是不可逆的话,比如是singular或者degenerate矩阵。Andrew没有讲具体数学细节,而是给出实际应用中出现这样情况的可能情形:
1. redundant features 存在冗余特征。
2. 观测样本太少,而feature太多。
Octave/Matlab Tutorial
来来来,一起复习下matlab语法与交互式操作
2==4
3~=4 注意不是!=
1 && 0 ; 3 || 3; xor (1,0)=1
预定义常量 pi
disp(sprintf('2 decimals: %0.2f', a))
v=1:0.1:2 % from 1 to 2, step 0.1
ones(2,3) % 2x3
zeros(); rand(); randn() % normalized distribution
生成高斯样本:
对角矩阵 eye(n)
size(ones(2,3))
2 3
A=[1 2; 3 4; 5 6]
load('xxx.dat')
who %返回目前内存中的变量
whos %列表化变量
clear A %删除变量
save hello.mat v; %保存目前的交互中使用的内存变量v
subset就不记录了。
append操作
A=[A, [22,33,44] %列向量append
[A B] %行拼接(横向)
[A B] %列拼接(纵向)
A' % transpose A
[val, ind] = max(A)
find(a<3)
sum(a); prod(a)
max(A,[],1) %max among each col
max(A,[],2) %max among each row
flipud(A) %上下翻转
pinv(A) %pseudo求逆
print -dpng 'test.png'
clf %clear all figures
imagesc(A) % gridfilling show the matrix
Vectorization:
当然要向量化操作啦~
所以update假设的向量化非常简单
quiz里注意一下,矩阵按位取平方与矩阵平方是不同概念
A^2 ~= A.^2
编程大作业就实现梯度下降求线性回归啦。submission system还是很牛的,提供邮箱和coursera的token就可以自动上传评分,没想到我这个audit还可以交作业,不错不错。
当然additional也要做得啦
不是总结的总结
第二周感觉还不算难,基本概念还是够用的,只是线性代数不少忘记了,matlab的函数也不太熟悉,向量化操作还要脑补半天矩阵图景。视频1.25x播放速度基本可以接受,讲程序的时候不需要subtitle,慢慢试着讲课也去掉subtitle吧,其实主要是一些符号的名词不熟悉,比如semicolon 什么的要反应半天。toggl记录的总用时如下:
五小时17分,基本都是在今天完成的啦。视频+笔记+编程作业,这个时间还算满意,再接再厉。