岭回归
L ( w ) = ∣ ∣ y ˆ − y ∣ ∣ 2 2 L(w)=∣∣yˆ−y∣∣_2^2 L(w)=∣∣yˆ−y∣∣22是经验风险,在经验风险的基础上加上表示模型复杂度的正则化项(regularization)或者惩罚项(penalty term),即结构风险。所以线性回归是经验风险最小化,岭回归是结构风险最小化。
岭回归其实就是在损失函数上加上了一个 L2 正则,使得每个变量的权重不会太大。当某些特征权重比较大的时候,自变量变化一点点,就会导致因变量变化很大,使得方差变大,有过拟合风险。
此时损失函数变为:
L ( w ) = ∣ ∣ y ˆ − y ∣ ∣ 2 2 + λ ∣ ∣ w ∣ ∣ 2 2 = ∣ ∣ X w − y ∣ ∣ 2 2 + λ ∣ ∣ w ∣ ∣ 2 2 = ( X w − y ) T ( X w − y ) + λ w T w = w T X T X w − y T X w − w T X T y − y T y + λ w T w \begin{aligned} L(w) &=∣∣yˆ−y∣∣_2^2 + λ∣∣w∣∣_2^2 \\ &=∣∣Xw−y∣∣_2^2 + λ∣∣w∣∣_2^2 \\ &=(Xw−y)^T(Xw−y) + λw^Tw \\ &=w^TX^TXw-y^TXw-w^TX^Ty-yTy+λw^Tw \end{aligned} L(w)=∣∣yˆ−y∣∣22+λ∣∣w∣∣22=∣∣Xw−y∣∣22+λ∣∣w∣∣22=(Xw−y)T(Xw−y)+λwTw=wTXTXw−yTXw−wTXTy−yTy+λwTw
令 ∂ L ( x ) ∂ w = 0 \frac{∂L(x)}{∂w} = 0 ∂w∂L(x)=0,得
∂ L ( w ) ∂ w = 2 X T X w − X T y + X T y + 2 λ w = 0 \frac{∂L(w)}{∂w} = 2X^TXw-X^Ty+X^Ty+2λw = 0 ∂w∂L(w)=2XTXw−XTy+XTy+2λw=0
x = ( X T X + λ I ) − 1 X T y . x=(X^TX+\lambda I)^{-1}X^Ty. x=(XTX+λI)−1XTy.
岭回归公式推导
矩阵求导参考:
d ( x T A x ) d x = ( A + A T ) x \frac{d(x^TAx)}{dx}=(A+A^T)x dxd(xTAx)=(A+AT)x
d ( A x ) d x = A T \frac{d(Ax)}{dx}=A^T dxd(Ax)=AT
d ( x T A ) d x = A \frac{d(x^TA)}{dx}=A dxd(xTA)=A
d x T x d x = 2 x \frac{dx^Tx}{dx}=2x dxdxTx=2x
1、参加多媒体技术主体会议,了解多媒体技术行业研究现状及前沿。为以后的研究方向积累经验,拓展思路。
2、参加大会邀请报告,了解在多媒体技术领域有经验的学者的思路,技术和经验,从中获取可以学习和借鉴的思路。
3、参加专题研讨会,着重关注和自己所做研究相关的图像处理领域,了解该领域的最新研究成果和进展,向相关领域的专家学者学习并交流经验,以便整理自己的研究思路。
提出几个问题:
1)什么样的机器是智能的?
2)什么叫做人工智能?
3)人工智能究竟该如何实现呢?
4)深度学习的逐级表示每一级都是什么?
答:
1)1950 年,图灵在他的著名论⽂《计算机器与智能》中提出了“机器是否可以思考”的问题,并相信这是有可能的。在他所描述的图灵测试(Turing test)中,如果⼀个⼈在使⽤⽂本交互时较难区分机器与⼈类的回复,那么机器可以被认为是智能的。
2)通俗地说,机器所展现出的智能叫做⼈⼯智能(artificial intelligence,简称AI)。
3)在⼈⼯智能发展的初期,许多⼈认为⼈类可以通过在计算机程序⾥设定⾜够多的规则使机器具备智能。这也促成了专家系统(expert system)的诞⽣。虽然专家系统对于涉及复杂推理的任务⾮常有效,但它却很难解决例如图像识别和语⾳识别这样对⼈类较简单的问题。⼈类还需要另⼀种通往⼈⼯智能的⼿段:机器学习(machine learning)。
4)深度学习可以逐级表⽰越来越抽象的概念或模式。以图⽚为例,它的输⼊是⼀堆原始像素值。深度学习模型中,图⽚的第⼀级的表⽰通常是在特定的位置和⻆度是否出现边缘。而第⼆级的表⽰通常能够将这些边缘组合出有趣的模式,例如花纹。在第三级的表⽰中,也许上⼀级的花纹能进⼀步汇合成对应物体特定部位的模式。这样逐级表⽰下去,最终,模型能够较容易根据最后⼀级的表⽰完成给定的任务,例如图⽚分类。值得⼀提的是,作为表征学习的⼀种,深度学习将⾃动找出每⼀级表⽰数据的合适⽅式。
参考
术语 | term | 详细解释 |
---|---|---|
机器学习 | machine learning | 假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。 |
监督学习 | supervised learning | 代表:分类和回归 |
无监督学习 | unsupervised learning | 代表:聚类 |
“泛化”能力 | generalization | 学得模型适用于新样本的能力 |
独立同分布 | independent and identically distributed, i.i.d. | 获得的每个样本都是独立从分布D上采样获得的 |
归纳 | induction | 从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律 |
演绎 | deduction | 从特殊到一般的“特化”过程,即从具体原理推演出具体状况 |
独立同分布 | independent and identically distributed, i.i.d. | 获得的每个样本都是独立从分布D上采样获得的 |
错误率 | error rate | E = a / m |
精度 | accuracy | 精度 = 1 - 错误率 |
过拟合 | overfitting | 当学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当做所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。这种现象在机器学习中成为“过拟合”。 |
监控视频事件描述:是指通过采用过一种规范化的视频事件定义语言(Video Event Definition Language,VEDL)来实现对监控场景中的事件的语义描述,包括对视频事件结构的定义和视频事件概念的定义。
理解:事件描述,用规范化的语言对视频中的事件进行定义,定义包括对事件的结构和概念的定义。
监控视频事件识别:是指通过分析和理解计算机视觉和视频分析方法(包括目标检测、识别和跟踪)所获得的的视频图像的底层和中层特征,并在此基础上分析和判断预先描述和定义的监控视频事件模型,最终完成对监控视频事件识别的过程。
理解:事件识别,首先通过目标检测、识别、跟踪获得视频事件的底层、中层特征,根据事件的定义对视频进行分析和判断.
监控视频事件的高层语义描述是获取安全专家知识的过程。值得一提的是,每个视频监控点对应的事件定义是不同的,需要根据监控点的物理位置、监控任务等定制,例如室内需要识别的事件显然与广场需要识别的事件不同。
**本体:**是共享概念模型的形式化规范说明。具体的说,某个领域的本体就是关于该领域的一个公认的概念集,其中的概念含有公认的语义,这些语义通过概念的关联来体现。
**监控视频特征:**分为底层像素/像素块特征、中层帧/帧序列特征、高层语法/语义特征。
其中,
参考:
提问:什么是无偏估计?
定义:设X1X2至Xn是总体的一个样本。
我的问题:不论总体服从什么分布,样本均值是总体均值的无偏估计量。这是书上的原话。这怎么可能?样本的均值不一定等于总体均值啊?大多数情况下就是不等啊?!
给你举个例子吧:
现在甲市有一万名小学三年级学生,他们进行了一次统考,考试成绩服从1~100的均匀分布:00001号学生得1分,00002号学生得1.01分……10000号学生得100分。那么他们的平均分是多少?(1+1.01+1.02+…+100)/10000=50.5,这个值叫做**总体平均数**。
现在假定你是教委的一个基层人员,教委主任给你一个早上时间,让你估算一下全市学生的平均成绩,你怎么办?把全市一万名学生都问一遍再计算时间显然是来不及了,因此在有限的时间里,你找到了一个聪明的办法:给全市的78所小学每一所学校打了一个电话,让他们随机选取一名学生的成绩报上来,这样你就得到了78个学生的成绩,这78个学生就是你的** 样本**。
你现在的任务很简单了,拿这78个学生的成绩相加并除以78,你就得到了** 样本平均数**。你把这个数报告给教委主任,这个数就是你估算出来的全市平均成绩。
这个样本平均数会不会等于总体平均数50.5?很显然这和你的“手气”有关——不过大多数情况下是不会相等的。
那么问题来了:既然样本平均数不等于总体平均数(也就是说你报给教委主任的平均分和实际的平均分非常有可能是不一样的),要它还有用吗?有!因为样本平均数是总体平均数的 无偏估计——也就是说只要你采用这种方法进行估算,估算的结果的期望值(你可以近似理解为很多次估算结果的平均数)既不会大于真实的平均数,也不会小于之。换句话说:你这种估算方法** 没有系统上的偏差**,而产生误差的原因只有一个:随机因素(也就是你的手气好坏造成的)。
无偏估计
无偏估计:估计量的均值等于真实值,即具体每一次估计值可能大于真实值,也可能小于真实值,而不能总是大于或小于真实值(这就产生了系统误差)。
估计量评价的标准:
(1)无偏性 如上述
(2)有效性 有效性是指估计量与总体参数的离散程度。如果两个估计量都是无偏的,那么离散程度较小的估计量相对而言是较为有效的。即虽然每次估计都会大于或小于真实值,但是偏离的程度都更小的估计更优。
(3)一致性又称相合性,是指随着样本容量的增大估计量愈来愈接近总体参数的真值。
参考:
https://www.cnblogs.com/notwice/p/8538539.html
结论: 这个问题本身概念混淆了。如果已知全部的数据,那么均值和方差可以直接求出。但是对一个随机变量 X X X,需要估计它的均值和方差,此时才用分母为 n − 1 n-1 n−1的公式来估计他的方差,因此分母是 n − 1 n-1 n−1才能使对方差的估计(而不是方差)是无偏的。因此,这个问题应该改为,为什么随机变量的方差的估计的分母是n-1?
如果我们已经知道了全部的数据,那就可以求出均值 μ μ μ,sigma,此时就是常规的分母为n的公式直接求,这并不是估计!
现在,对于一个随机变量X,我们要去估计它的期望和方差。
期望的估计就是样本的均值 x ˉ \bar{x} xˉ
现在,在估计的X的方差的时候,如果我们预先知道真实的期望μ,那么根据方差的定义:
E [ ( X i − μ ) 2 ] = σ 2 E[(X_i-\mu)^2] = \sigma^2 E[(Xi−μ)2]=σ2
E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] = σ 2 E[\frac {1} {n} \sum\limits_{i=1}^n(X_i-\mu)^2] = \sigma^2 E[n1i=1∑n(Xi−μ)2]=σ2
这时分母为n的估计是正确的,就是无偏估计!
但是,在实际估计随机变量X的方差的时候,我们是不知道它的真实期望的,而是用期望的估计值 x ˉ \bar{x} xˉ 去估计方差,那么:
1 n ∑ i = 1 n ( X i − X ˉ ) 2 = 1 n ∑ i = 1 n ( ( X i − μ ) + ( μ − X ˉ ) ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 + 2 n ∑ i = 1 n ( X i − μ ) ( μ − X ˉ ) + 1 n ∑ i = 1 n ( μ − X ˉ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 + 2 ( X ˉ − μ ) ( μ − X ˉ ) + ( μ − X ˉ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 − ( μ − X ˉ ) 2 \begin{aligned} \frac {1} {n} \sum\limits_{i=1}^n(X_i-\bar{X})^2 = &\frac {1} {n} \sum\limits_{i=1}^n((X_i-\mu)+(\mu-\bar{X}))^2\\ = &\frac {1} {n} \sum\limits_{i=1}^n(X_i-\mu)^2 + \frac {2} {n} \sum\limits_{i=1}^n(X_i-\mu)(\mu-\bar{X})+\frac {1} {n} \sum\limits_{i=1}^n(\mu-\bar{X})^2 \\ = &\frac {1} {n} \sum\limits_{i=1}^n(X_i-\mu)^2 + 2 (\bar{X}-\mu)(\mu-\bar{X})+(\mu-\bar{X})^2 \\ = &\frac {1} {n} \sum\limits_{i=1}^n(X_i-\mu)^2 - (\mu-\bar{X})^2 \end{aligned} n1i=1∑n(Xi−Xˉ)2====n1i=1∑n((Xi−μ)+(μ−Xˉ))2n1i=1∑n(Xi−μ)2+n2i=1∑n(Xi−μ)(μ−Xˉ)+n1i=1∑n(μ−Xˉ)2n1i=1∑n(Xi−μ)2+2(Xˉ−μ)(μ−Xˉ)+(μ−Xˉ)2n1i=1∑n(Xi−μ)2−(μ−Xˉ)2
换言之,除非正好 X ˉ = μ \bar{X} = \mu Xˉ=μ , 否则我们一定有
1 n ∑ i = 1 n ( X i − X ˉ ) 2 < 1 n ∑ i = 1 n ( X i − μ ) 2 \frac {1} {n} \sum\limits_{i=1}^n(X_i-\bar{X})^2 < \frac {1} {n} \sum\limits_{i=1}^n(X_i-\mu)^2 n1i=1∑n(Xi−Xˉ)2<n1i=1∑n(Xi−μ)2
所以把分母从n换成n-1,就是把对方差的估计稍微放大一点点。至于为什么是n-1,而不是n-2,n-3,…,有严格的数学证明。
无偏估计虽然在数学上更好,但是并不总是“最好”的估计,在实际中经常会使用具有其它重要性质的有偏估计。
https://blog.csdn.net/shenziheng1/article/details/52955687
协方差
通常,在提到协方差的时候,需要对其进一步区分。
(1)随机变量的协方差,跟数学期望、方差一样,是分布的一个总体参数。
(2)样本的协方差,是样本集的一个统计量,可作为联合分布总体参数的一个估计。在实际中计算的通常是样本的协方差。
样本的协方差
在实际中,通常我们手头会有一些样本,样本有多个属性,每个样本可以看成一个多维随机变量的样本点,我们需要分析两个维度之间的线性关系。协方差及相关系数是度量随机变量间线性关系的参数,由于不知道具体的分布,只能通过样本来进行估计。
设样本对应的多维随机变量为 X = [ X 1 , X 2 , X 3 , . . . , X n ] T X=[X_1,X_2,X_3,...,Xn]^T X=[X1,X2,X3,...,Xn]T,样本集合为{ x ⋅ j = [ x 1 j , x 2 j , . . . , x n j ] T ∣ 1 ⩽ j ⩽ m x⋅j=[x_{1j},x_{2j},...,x_{nj}]^T|1⩽j⩽m x⋅j=[x1j,x2j,...,xnj]T∣1⩽j⩽m}, m m m 为样本数量。与样本方差的计算相似, a a a和 b b b两个维度样本的协方差公式为,其中 1 ⩽ a ⩽ n 1⩽a⩽n 1⩽a⩽n, 1 ⩽ b ⩽ n 1⩽b⩽n 1⩽b⩽n, n n n为样本维度
q a b = ∑ j = 1 m ( x a j − x ˉ a ) ( x b j − x ˉ b ) m − 1 q_{ab}=\frac {\sum_{j=1}^m(x_{aj}-\bar{x}_a)(x_{bj}-\bar{x}_b)} {m−1} qab=m−1∑j=1m(xaj−xˉa)(xbj−xˉb)
这里分母为m−1是因为随机变量的数学期望未知,以样本均值代替,自由度减一。
标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子欢迎程度是否存在一些联系啊,协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
v a r ( X ) = ∑ i = 1 n ( X i − X ˉ ) ( X i − X ˉ ) n − 1 var(X) = \frac {\sum_{i=1}^n(X_i-\bar{X})(X_i-\bar{X})} {n-1} var(X)=n−1∑i=1n(Xi−Xˉ)(Xi−Xˉ)
来度量各个维度偏离其均值的程度,协方差可以这么来定义:
c o v ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) n − 1 cov(X, Y) = \frac {\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})} {n-1} cov(X,Y)=n−1∑i=1n(Xi−Xˉ)(Yi−Yˉ)
那么,协方差的结果有什么意义呢?如果结果为正值,则说明两个随机变量是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐就越受女孩子欢迎,嘿嘿,那必须的~结果为负值就说明负相关的,越猥琐女孩子越讨厌,可能吗?如果为0,也是就是统计上说的“相互独立”。
从协方差的定义上我们也可以看出一些显而易见的性质,如:
1. c o v ( X , X ) = v a r ( X ) 1. cov(X, X) = var(X) 1.cov(X,X)=var(X)
2. c o v ( X , Y ) = c o v ( Y , X ) 2. cov(X, Y) = cov(Y, X) 2.cov(X,Y)=cov(Y,X)
协方差矩阵的由来
好几十年前,鲁迅爷爷就说过,世界上本没有路,走的人多了也就有了路。协方差矩阵也是这样,好多协方差凑合到一起就形成了协方差矩阵。当然,数学的定义,不能如我这样随意。对于一个二维矩阵,每一个因子都可以视为两个不同随机变量的关系,这正好和协方差矩阵多少有点牵连,因此数学家们就把协方差矩阵引入到了二维矩阵中,衡量各个变量之间的紧密程度(就是关系度啦)。根据协方差的性质,我们可以类似的推出协方差矩阵的性质:
1.协方差矩阵一定是个对称的方阵
2.协方差矩阵对角线上的因子其实就是变量的方差: c o v ( X , X ) = v a r ( X ) cov(X,X)=var(X) cov(X,X)=var(X)
这个定义还是很容易理解的,我们可以举一个简单的三变量的例子,假设数据集有{ x , y , z x,y,z x,y,z}{ x , y , z x,y,z x,y,z}三个维度,则协方差矩阵为:
( c o v ( x , x ) c o v ( x , y ) c o v ( x , z ) c o v ( y , x ) c o v ( y , y ) c o v ( y , z ) c o v ( z , x ) c o v ( z , y ) c o v ( z , z ) ) %开始数学环境 \left( %左括号 \begin{array}{ccc} %该矩阵一共3列,每一列都居中放置 cov(x, x)& cov(x, y) & cov(x, z)\\ cov(y, x)& cov(y, y) & cov(y, z)\\ cov(z, x)& cov(z, y) & cov(z, z) \end{array} \right) %右括号 ⎝⎛cov(x,x)cov(y,x)cov(z,x)cov(x,y)cov(y,y)cov(z,y)cov(x,z)cov(y,z)cov(z,z)⎠⎞
再一次可以看出,协方差矩阵是一个对称的矩阵,而且对角线是各个变量上的方差。
理解协方差矩阵的关键就在于牢记它计算的是不同维度之间的协方差,而不是不同样本之间,拿到一个样本矩阵,我们最先要明确的就是一行是一个样本还是一个维度,心中明确这个整个计算过程就会顺流而下,这么一来就不会迷茫了。
其实还有一个更简单的容易记还不容易出错的方法:协方差矩阵一定是一个对称的方阵,一定是一个对称的方阵,一定是一个对称的方阵!!!记住就好啦~
向量的点乘:a * b
公式:$a * b = |a| * |b| * cosθ $
点乘又叫向量的内积、数量积,是一个向量和它在另一个向量上的投影的长度的乘积;是标量。
点乘反映着两个向量的“相似度”,两个向量越“相似”,它们的点乘越大。
References
[1] https://www.wikiwand.com/en/Scatter_matrix
x=[0.50,1.00,1.50,2.00,2.50,3.00];
y=[1.75,2.45,3.81,4.80,7.00,8.60];
p=polyfit(x,y,2);
x1=0.5:0.5:3.0;
y1=polyval(p,x1);
plot(x,y,'*r',x1,y1,'+b',x1,y1,'-k');