数据挖掘相关基础数学知识

函数可导的?

满足3个条件:
1)x点函数有值
2)x附近范围内函数是连续的
3)x的左(x减小一点点)、右(x增大一点点)导数是相同的

偏导数
partial derivative(直译部分导数),对多元方程求导,因为增加了自变量求导难度变大。为了简化求导,把除一个变量外的其他变量都看做常量求导。
已z=x^2+2xy+y^2为例,z关于x的偏导=2x+2y;z关于y的偏导=2y+2x。
几何意义,上例的方程是一个三维曲面,一个点在不同的角度有不同的变化率。偏导就是考察在x不变(或y不变)情况下变化率。即垂直于x轴切面曲线的导数。
p’Lp/p’w : p’表偏导数;Lp表函数;即综合起来是Lp关于w的偏导数。

梯度:

多元函数,各个参数的偏导数的向量表示,就是梯度。
就是在不同方向的变化率(貌似对上了!) 

凸函数:

二阶导函数>0,则该函数为凸函数。二阶导数是变化率的变化率,只要>0,则表示增加的速度是更快的。        
几何意义,f(x)在[a,b]上有定义,f(x1)+f(x2)>=2f((x+y)/2),即连线f(x1)、f(x2),函数的所有点在连线一下。

法线、法向量

法线:平面的垂直线;如果是曲线,则是曲线上点切线的垂直线。
法向量:法线上的向量。
向量:有大小、有方向的线段。最早在物理学里使用,表示速度、力等有大小和方向的,后引申到数学。与标量对应,标量只有大小。
复数:对实数的扩充,为了表示x^2=-1的解的标注。

||w||

范数,w数组值平方的开平方(标准差?)。

梯度下降法

&:梯度:就是函数某点的斜率,微分的概念。
梯度下降法的原理:就是不知道全局最优路线,但基于当前点选择最陡峭的方向(斜率)前进一步,然后在新点在迭代进行,知道函数值变化不大,说明已经到了一个至少局部极点。
y=x^2用梯度下降法求极值,初始点(1,1),步长0.4
y’=2x。
step1 1,1
step2 x2=1-0.4*(2*1)=0.2 (0.2,0.04)
step3 x3=0.2-0.4*(2*0.2)=0.04 (0.04,0.0008), 进阶0.04-0.0008=0.0392
step4 x4=0.04-0.4*(2*0.04)=0.008 (0.008,0.000064) 进阶0.0032-0.000064=0.003136
越逼近(0,0),变化越小,说明已经逼近极值。

凸优化问题?

&:凸优化问题:目标函数是凸函数。同时满足:值域连续、约束条件函数也是凸函数。
   凸函数:函数上的任意2点划线,直线都在函数之上。
   为什么是否是凸优化很重要:凸函数表示可以找到全局最优解,同时凸函数最优有很多成熟的方法。是凸优化,即意味着可以找到最优解。

拉格朗日乘数法?

&:用来求解有等式限定条件的最优问题。把函数和限定条件整合到一个函数,然后分别求偏导数。
   在极值点,任何偏导数=0。顾得到n个方程式,然后带入就可以求得极值。
   eg:一根绳子长4米,折成矩形,如何面积最大?
   函数f(x,y)=xy,等值限定x+y=2,转换成g(x,y)=x+y-2=0,
   合并函数,l(x)=xy+n(x+y-2)
   x'l(x)=y+n=0
   y'l(x)=x+n=0
   n'l(x)=x+y-2=0
   转换成3个方程组,解的n=-1,y=1,x=1。即maxf(x,y)=xy=1*1=1。

超平面

简单例子:在3维空间里,2个维就确定一个平面;平面中的直线、空间中的平面都是例子。
维度大于3才能成为超平面。      

你可能感兴趣的:(数据挖掘)