知识点:腾讯基础研究方向

编辑公式不方便,需要公式可自己上网查,这里只给形象的概念帮助记忆。

1. 数学问题:3sigma原理,T分布,特征根,特征值,最大似然估计,马尔科夫链。

(1)3sigma原理

在正态分布中σ代表标准差,μ代表均值x=μ即为图像的对称轴,三σ原则即为:

数值分布在(μ—σ,μ+σ)中的概率为0.6526

数值分布在(μ—2σ,μ+2σ)中的概率为0.9544

数值分布在(μ—3σ,μ+3σ)中的概率为0.9974 

工程中,当质量特性呈正态分布时(实际上,当样本足够大时,二项分布、泊松分布等均趋近于正态分布),3Sigma水平代表了99.73%的合格率(2700PPM);

(2)t-分布

在概率论和统计学中,学生t-分布(Student's t-distribution),可简称为t分布。应用在估计呈正态分布的母群体之平均数。它是对两个样本均值差异进行显著性测试的学生t检定的基础。学生t检定改进了Z检定(Z-test),因为Z检定以母体标准差已知为前提。虽然在样本数量大(超过30个)时,可以应用Z检定来求得近似值,但Z检定用在小样本会产生很大的误差,因此必须改用学生t检定以求准确。

t-检验近似于Z检验,通俗地说,是样本量小于45时用于减小误差的改进Z检验。改进原理就是抛弃母体标准差,而直接用样本点构造分布。

(3)特征根、特征值、特征向量、特征空间

设 A 是n阶方阵,如果存在数m和非零n维列向量 x,使得 Ax=λx 成立,则称 m 是A的一个特征值(characteristic value)或本征值(eigenvalue)。

非零n维列向量x称为矩阵A的属于(对应于)特征值m的特征向量或本征向量,简称A的特征向量。

特征根对应特征方程,是( A-λE)X=0的解。特征值对应矩阵及特征向量,是矩阵的属性。

λ是A的一个特征值,则一定是特征方程的根, 因此又称特征根。

特征空间:就是由所有有着相同特征值的特征向量组成的空间,还包括零向量,但要注意零向量本身不是特征向量。

那么特征值、特征向量究竟有什么用?链接(邵庆贤)

应用非常广泛:

图像处理中的PCA方法,选取特征值最高的k个特征向量来表示一个矩阵,从而达到降维分析+特征显示的方法。

还有图像压缩的K-L变换,以及很多人脸识别、数据流模式挖掘分析等方面。

在力学中,惯量的特征向量定义了刚体的主轴。惯量是决定刚体围绕质心转动的关键数据。 

在谱系图论中,一个图的特征值定义为图的邻接矩阵A的特征值,或者(更多的是)图的拉普拉斯算子矩阵, Google的PageRank算法就是一个例子。 

曾经有这么一句话:「有振动的地方就有特征值和特征向量」

只要你真正理解了线性空间的矩阵的意义,你就明白了,几乎无处不在。

网上还有一种更好理解的说法:

如果你把A*x=λ*x中的A看做一种变换或作用,那么那些在这种作用下,只改变长短不改变方向的那些向量x就是特征向量;而特征值就是λ,是伸缩系数,起能量增幅或者削减作用。

具体的说,求特征向量的关系,就是把矩阵A所代表的空间,进行正交分解,使得A的向量集合可以表示为每个向量a在各个特征向量上面的投影长度。

特征向量和特征值的几何意义

(4)极大似然估计

这一方法是基于这样的思想:我们所估计的模型参数,要使得产生这些给定样本的可能性最大。即:

找到最佳的模型参数,使得模型实现对样本的最大程度拟合,也就使样本集出现的可能性最大,从而用样本估计总体。。

举个例子:一个随机试验如有若干个可能的结果A,B,C,…。若在仅仅作一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。一般地,事件A发生的概率与参数theta相关,A发生的概率记为P(A,theta),则theta的估计应该使上述概率达到最大,这样的theta顾名思义称为极大似然估计。

求极大似然函数估计值的一般步骤:(1) 写出似然函数;(2) 对似然函数取对数,并整理;(3) 求导数 ;(4) 解似然方程 。

应用举例:在机器学习的异常检测中,根据模型(通过学习得来的)计算一个数据点出现的概率,如果这个概率小于某个我们事先设定的值,就把它判为异常。我们基于的是一个小事件的思想:如果一件可能性极小的事情竟然发生了,那么就极有可能是异常。举个例子,我这辈子跟奥巴马成为哥们的可能性几乎为零,如果哪一天我跟奥巴马在烧烤摊喝3块钱一瓶的啤酒,那么绝对叫异常。

极大似然估计

(5)马尔科夫链

基本思路:指数学中具有马尔可夫性质的离散事件随机过程。该过程中,在给定当前知识或信息的情况下,过去状态对于预测将来的状态是无作用的。

马尔科夫性质的方程(条件概率方程):

应用:隐马尔科夫模型,用于中文分词。

2. 待更新... 




你可能感兴趣的:(知识点:腾讯基础研究方向)