统计学和算法相关的基础知识(持续更新)

期望和平均值的区别:
平均值属于数理统计范围,期望属于概率论范围。
期望就是其中关于随机变量的一种总体性的描述,它是事件本质的一种表达。针对于大群体进行计算
平均值主要针对于小群体进行计算,针对既有的数值全部一个不落的加起来,叫做平均值。

线性回归:
what:确定两种或者两种以上变量之间相互依赖的定量关系的一种统计方法。单变量表达形式是y = bx+e 误差e服从均值为0的正态分布。它的基本思想就是用梯度下降法对最小二乘形式的误差函数进行优化。最终求出b

它的结果可以用R²来评估:
统计学和算法相关的基础知识(持续更新)_第1张图片
栗子:预测或者映射,完成一个模型之后,对于一个新增的X值,可以用这个模型预测出来一个Y值。
推导过程(重点):
统计学和算法相关的基础知识(持续更新)_第2张图片

最小二乘法:
利用最小二乘法可以简便的求得未知的数据,并且使这些求得的数据与实际数据之间误差的平方和最小。
用一元线性回归举栗的话,最小二乘法的原则是以残差平方和最小,确定直线的位置。
它的计算比较简便。得到的估计量具有优良特性。但是这种方法对异常值比较敏感。

逻辑回归:
what:逻辑回归是一种广义的线性回归分析模型,它是一个景点的二分类模型,将线性回归的模型映射到Sigmoid函数中,从而达到由值到概率的转换,Sigmoid函数的值域是0,1
当最后求解的值大于0.5的时候取1,小于0.5的时候取0 从而达到一个二分类的目的。
栗子:根据逻辑回归模型,预测在不同的自变量的情况下,发生某种疾病或者某种情况的概率有多大。

高斯分布:
what:高斯分布也是正态分布,曲线呈钟型,两头低中间高,左右对称。
在这里插入图片描述

一个3~原则:
统计学和算法相关的基础知识(持续更新)_第3张图片
栗子:生产与科学实验当中很多随机变量的概率分布都可以近似的用正态分布来表示:
在生产条件不变的情况下,产品的强力,抗压强度,口径,长度,同一种生物体的身长体重,同一种种子的重量啥的,还有一些常用的分布由它直接导出,比如对数正态分布,T分布,F分布,卡方分布。

极大似然估计:
what:是一种求估计量的方法,使用概率模型,寻找能够以较高概率发生观察数据的参数。也就是说,我们根据已知事件来寻找能够发生这类事件的最大的可能性。
主要原理:给定一个概率分布D,假定它的概率密度函数(连续分布)为f,以及一个分布参数a,我们可以从这个分布中抽出一个具有n个值的采样 x1,x2,x3… 通过利用f,可以计算出来概率。
P = (x1,x2…xn) = f(x1,x2,…xn|a)
但是我们还不知道a的值,我们就要用这些采样的数据来估计a。
一旦我们获得,我们就能从中找到一个关于a的估计,最大似然估计会寻找关于a的可能的值(也就是说,会在所有可能的a的取值中寻找一个值让这个采样的可能性最大化)
定义可能性 lik(a) = f(x1,x2,…xn|a)
并且在a的所有取值上面,使这个函数最大化。这个使可能性达到最大的值被称为a的最大似然估计。
why:目的就是根据已知事件来求出产生这种结果最有可能的条件。
栗子:求误差。

梯度下降:
what:梯度下降法就是沿着梯度下降的方向求解极小值(也可以沿着梯度上升的方向求解极大值)
why:在求解损失函数最小值的时候,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型的参数值,反过来如果我们需要求解损失函数的最大值,那么久需要梯度上升来迭代。
栗子:可以用来求解最小二乘问题。在求解机器学习算法的模型参数中,梯度下降也是最常采用的方法。

特征值和特征向量:
what:设A是n阶方阵,如果存在数值m和非零n维列向量x,使得Ax = mx成立,就说m是A的一个特征值,非零n维列向量x称为矩阵A的属于特征值m的特征向量。
why:可以用来求解特征向量 行列式=0
还是判断相似矩阵的必要条件。
统计学和算法相关的基础知识(持续更新)_第4张图片
还是判断矩阵可对角化的充要条件:
矩阵可对角化的两个充要条件:
1、矩阵有n个不同的特征向量
2、特征向量重根的重数等于基础解系的个数
特征值和特征向量的应用实例:主成分分析

随机抽样,分层抽样,整群抽样,系统抽样的区别:
随机抽样:等概率原则抽取,常用的办法就是抽签。
分层抽样:把总体分成互不相交的层,按照一定的比例,从各层独立抽取一定数量的个数,将各层取出的个体合在一起作为样本的方法。特点是层间差异大,层内差异小
整群抽样又称为聚类抽样:将总体各单位归并成若干个互不相交,不重合的集合,然后以群为抽样单位抽取样本。特点是群间差异小,群内差异大
系统抽样(机械抽样、等距抽样):将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样。

机器学习:
通过从数据里提取规则或者模式来把数据转换成信息,数据首先被预处理,形成特征,然后根据特征创建某种模型。机器学习算法分析收集到的数据,分配权重,阈值,和其他参数达到学习目的。

显著性水平的含义
what: 对于检验问题H0,H1 如果一个检验满足对任意的样本值属于H0 都有 这个样本值的势函数小于等于阿尔法, 这个检验是显著性水平为阿尔法的显著性检验,
why:这个要从第一类错误和第二类错误说起:当样本属于H0的时候,样本由于随机性落入了拒绝域,导致我们拒绝了H0,这是第一类错误,拒真错误。
当样本属于H1的时候,样本由于随机性落入了接受域,导致我们接受了H0 ,这是第二类错误,存伪错误。
以下引出势函数的概念:
样本观测会X落在拒绝域W内的概率称为该检验的势函数。
事实上,阿尔法和贝塔中一个减小一定会导致另一个增大,通常的做法是仅限制第一类错误的概率,就是显著性检验
提出显著性检验的概念就是要控制犯第一类错误的概率阿尔法,但是也不能是的阿尔法太小,因为怕贝塔太大。

P值的意义:
what:P值 在一个假设检验问题中,利用样本观测值能够做出拒绝原假设的最小显著性水平称为检验的P值。
由检验的P值与显著性水平阿尔法进行比较可以很容易做出检验的结论:
如果p<=阿尔法 在显著性水平为阿尔法下拒绝H0
反之 接受H0
why:由于显著性水平的不同得到的结果也会不同,因为显著性水平变小之后会导致检验的拒绝域变小,所以原来落在拒绝域中的观测值就可能落入接受域,这种情况在应用中会带来一些麻烦。所以出现了p值。
栗子:P值在实际中很有用,如今的统计软件中对检验问题一般都会给出检验的P值。
检验可以从两方面进行,第一是建立拒绝域,考察样本观测值是否落入拒绝域并且加以判断。
第二就是根据样本观测值计算检验的P值,通过将P值与事先设定的显著性水平阿尔法比较大小在作出判断。两者是等价的。
实际中,P很小的时候,比如p<=0.001就可以做出拒绝结论,P很大的时候 比如大于0.5 就可以接受,只有当P与阿尔法很接近的时候才需要做比较。

贝叶斯:
最大似然,贝叶斯方法,朴素贝叶斯分类
http://www.cnblogs.com/lesliexong/p/6907642.html
what:朴素贝叶斯就是在贝叶斯的基础上,加了一个强假设,这个强假设就是特征条件独立的假设
朴素贝叶斯与LR的区别?
简单来说:朴素贝叶斯是生成模型,根据已有样本进行贝叶斯估计学习出先验概率P(Y)和条件概率P(X|Y),进而求出联合分布概率P(XY),最后利用贝叶斯定理求解P(Y|X), 而LR是判别模型,根据极大化对数似然函数直接求出条件概率P(Y|X);朴素贝叶斯是基于很强的条件独立假设(在已知分类Y的条件下,各个特征变量取值是相互独立的),而LR则对此没有要求;朴素贝叶斯适用于数据集少的情景,而LR适用于大规模数据集。
2. 朴素贝叶斯“朴素”在哪里?
利用贝叶斯定理求解联合概率P(XY)时,需要计算条件概率P(X|Y)。在计算P(X|Y)时,朴素贝叶斯做了一个很强的条件独立假设(当Y确定时,X的各个分量取值之间相互独立),即P(X1=x1,X2=x2,…Xj=xj|Y=yk) = P(X1=x1|Y=yk)P(X2=x2|Y=yk)…*P(Xj=xj|Y=yk)。
3. 在估计条件概率P(X|Y)时出现概率为0的情况怎么办?
引入λ,当λ=1时称为拉普拉斯平滑。
4. 朴素贝叶斯的优缺点
优点:对小规模的数据表现很好,适合多分类任务,适合增量式训练。
缺点:对输入数据的表达形式很敏感(离散、连续,值极大极小之类的)。

可以举一个垃圾邮件的栗子

平均绝对误差和绝对误差的区别:
平均绝对误差:是所有单个观测值与算术平均值的偏差的绝对值的平均。
与平均误差相比,平均绝对误差由于离差被绝对值化,不会出现正负抵消的情况,因而,平均绝对误差可以更好的反应预测值误差的实际情况。
绝对误差是测量值(单一测量值或者多次测量值的均值)与真实值之差,测量结果大于真实值时,误差为正,反之为负,
相对误差是绝对误差与真实值的比值。
一般来说,相对误差更能反应测量的可信程度。
https://blog.csdn.net/Laru__/article/details/80756370

置信区间和置信度:
what:置信区间是指由样本统计量所构造的总体参数的估计区间,在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。
置信区间展示的是这个参数的真实值有一定概率落在测量结果的周围的程度,它给出的是被测量参数的测量值的可信程度。

置信度也叫置信水平,它是指特定个体对待特定命题真实性的相信程度
置信水平就是总体参数值落在样本统计值某一个区间内的概率。
而置信区间是指某一置信水平下 样本统计值与总体参数值之间的误差范围。置信区间越大置信水平越高。

https://blog.csdn.net/yimingsilence/article/details/78084810
how:如何构建置信区间?
置信区间求解步骤:
第一步:求一个样本的均值,
第二步:计算出来抽样误差,通常认为调查100个样本的抽样误差是±10%500个样本的抽样误差为±5%;1200个样本时的抽样误差为±3%。
第三步:用第一步求出来的样本均值相加减第二步的抽样误差,得出置信区间的两个端点。
如何理解95%置信区间:
意味着用同样的步骤,去选样本,计算置信区间,那么100次这样的独立过程,有95%的概率你计算出来的区间会包含真实参数值,就是大概有95个置信区间会包含真值。
而对于某一次计算得到的某一个置信区间,他包含的真值的概率,无法讨论。

偏态分布:https://baike.baidu.com/item/偏态分布/445413?fr=aladdin
what:偏态分布是与正态分布相对,分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种,可以通过峰度和偏度的计算,衡量偏态的程度。
分为正偏和负偏,(右偏,左偏)反映偏态分布的集中趋势往往用中位数。
偏离程度可以用偏度系数表示:
在正态分布条件下,由于均值等于中位数,所以偏度系数等于0。当偏度系数大于0时,则为正偏态;当偏度系数小于0时,则为负偏态

时间序列分析:
what:按照时间的顺序把随机事件变化发展的过程记录下来,就变成了一个时间序列,对于时间序列进行观察,研究,寻找它发展变化的规律,预测它将来的走势,就是时间序列分析。

特点:。反映某一现象的统计指标,是一组动态的数据
时间序列建模的基本步骤:
1 获取时间序列的动态数据。
2 根据动态数据作出相关图,进行相关分析 求出来自相关函数。
相关图能显示出变化的趋势和周期,发现跳点和拐点。
跳点就是与其他数据不一致的观测值,如果跳点是正确的观测值,在建模的时候应该考虑进去,如果是反常现象,应该把跳点调整到期望值。
拐点就是指时间序列从上升趋势突然转变为下降趋势的点,如果存在拐点,应该在建模的时候用不同的模型去分段拟合该时间序列。
3 辨识合适的随机模型,进行曲线拟合
用通用的随机模型去拟合时间序列的观测数据,对于短的或者简单的时间序列 可以用趋势模型和季节模型加上误差来进行拟合,对于平稳时间序列,可以用ARMA模型(自回归滑动平均模型) 及其特殊情况的自回归模型,滑动平均模型或者组合-ARMA模型等等来进行拟合,当观测值多于五十个的时候一般采用ARMA模型,对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序列,再用适当的模型去拟合这个差分序列。

栗子:时间序列分析是定量预测的方法之一,包括一般统计分析 比如自相关分析 统计模型的简历与推断,以及关于时间序列的最优预测 经典的统计分析都假定数据序列具有独立性,而时间序列分析侧重研究数据序列的互相依赖关系,后者实际上是对离散指标的随机过程的统计分析,所以又可以看做是随机过程统计的一个组成部分 比如记录某地区第一个月第二月。。第N月降雨量可以对未来各月的雨量进行预报,

时间序列的特征:
长期趋势变化:移动平均法,指数平滑法,模型拟合法
季节性周期变化:季节指数
循环变化:周期不固定的波动变化
随机性变化 由很多不确定因素引起的序列变化
时间序列分析主要有确定性变化和随机性变化分析,其中,确定性变化分析包括趋势变化分析,周期变化分析,循环变化分析,随机性变化分析 有AR MA ARMA 模型等。

数据平稳性与差分法
ARIMA
在进行预测之前,数据要有惯性 这样才能预测 这就是平稳性
平稳性要求序列的均值和方差不发生明显的变化。
严平稳:分布不随时间变化而改变
比如白噪声 期望0方差1 正态
弱平稳:期望与相关系数不变
未来某时刻的T值依赖于他过去的信息 所以需要依赖性。
大部分数据都是弱平稳

差分法:时间序列在t与t-1时刻的差值。
如果数据太不平稳 就先做一下差分

自相关
what:是一个信号与其自身在不同时间点的相互关联,非正式的说,它就是两次观察之间的相似度对它们之间的相似度对它们之间时间差的函数
在统计学中,自相关被定义为 两个随机过程中不同时刻的数值之间的皮尔森相关。
栗子:信号处理中,自相关可以提供关于重复事件的信息,例如音乐节拍,也可以用来估计乐音的音高。
自相关函数ACF
有序的随机变量序列与自身比较,自相关函数反映了同一序列在不同时序的取值之间的相关性。
统计学和算法相关的基础知识(持续更新)_第5张图片

P属于-1,1

偏自相关 PACF
对于一个平稳的AR模型,求出滞后K自相关系数P的时候,实际上得到的并不是xt 和xt-k
之间单纯的相关关系
ACF指的是包含了中间其他变量的影响,而偏自相关函数剔除了其他变量的影响。是严格上面这两个变量的相关性。

决策树:
what :是在已知各种情况发生概率的基础上,通过构成决策树来评价项目风险,判断它的可行性的决策分析方法。是直观运用概率分析的一种图解法。
决策树中每一个内部节点都表示一个属性上的测试。每一个分支代表一个测试的输出,每一个叶子节点代表一种类别。
叶子结点:最终的决策结果。
重要性的衡量标准:熵
熵是表示随机变量不确定性的度量(说白了就是物体内部的混乱程度)
在这里插入图片描述
因此需要对每个特征进行划分数据集,并且计算划分后的数据集信息熵,信息增益最多的特征就是最优特征
特征:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据
缺点:可能会产生过拟合。
使用的数据类型:数值型和标称型
下面的是连续值:
连续值 贪婪算法,二分法,分完左子树右子树

决策树剪枝策略:
为什么要剪枝:决策树过拟合风险很大,理论上可以完全分得开数据
就是 如果树足够庞大。那么每个叶子节点都会是一个数据
所以我们要有剪枝策略:分为预剪枝和后剪枝
预剪枝:一边建立决策树一边进行剪枝的操作。控制树的深度
限制深度,叶子节点个数,叶子节点样本数 信息增益量等等
后剪枝:当建立完决策树后来进行剪枝操作。
要通过一定的衡量标准 叶子节点越多 损失越大
在这里插入图片描述
普遍用预剪枝 复杂度降低 更实用 不浪费时间。

决策树的三个算法
https://blog.csdn.net/blank_tj/article/details/82081002

奇异值:
奇异值是矩阵里面的概念,一般通过奇异值分解定理求得
设A为MN矩阵 Q = min(m,n) AA的Q个非负特征值的算术平方根叫做A的奇异值。

相似度的计算:一般选择皮尔逊相关系数,
统计学和算法相关的基础知识(持续更新)_第6张图片
统计学和算法相关的基础知识(持续更新)_第7张图片

检验模型是否可以很好的拟合?
在回归模型中,我们需要判断模型是否很好地拟合实际数据,一般来讲会有以下方法:
R平方:表示Y变量中的方差有百分之多少是可以预测的,R平方越高,Y中的方差就预测得越准确,模型的拟合程度也就越高。
举个例子,R平方=10%,表示Y中有10%的方差是可以通过X预测出来的。

F检验(F - test):主要用以判断两个总体(Population)的平均值是否存在显著差异(Significantly different),因此我们可以判断预测值跟实际值两组“总体”数据的平均值是否存在显著差异,如果存在,则可以认为回归模型拟合得不够好。如果F - value大于F值的统计量,我们认为拒绝原假设(两组数据不相关),则x和y(预测值和实际值)是线性(或者非线性)相关的,反正就是两组数有关。

T检验(T - test):T检验相对F检验来说,更关注回归方程中每个变量的显著程度,可以说F检验是评价模型整体的拟合程度,而T检验是评价回归方程中每个特征x变量的系数的显著程度。在这里,系数是跟0比较的,如果T - value大于T值的统计量,我们认为该特征的系数显著大于0,因此不可以忽略,需要考虑该特征,回归方程中也要保留该特征,如果小于T值统计量,则接收原假设,认为该特征系数跟0没有显著区别,我们可以忽略该特征。

聚类以及
如何确定聚类算法中的聚类个数
what:聚类就是按照某个特定标准(比如距离准则)把一个数据集分割成不同的类或者簇
聚类的目标:同类对象相似度尽可能大,不同类对象相似度尽可能小。
首先要确定这堆三点最后聚成几类,然后挑选几个点作为初始中心点,然后再给数据点做迭代重置,直到最后到达目标效果。
它的计算量比较大,很适合发现中小规模的数据库中的球状簇。
主要算法K-means
how:1、随机选择K个对象,每个对象初始的代表了一个簇的中心。
2、对于剩余的每个对象,根据它与各簇中心的距离,把它赋给最近的簇
3、重新计算每个簇的平均值,更新为新的簇中心。
4、不断重复2,3知道准则函数收敛。
优点:对于大型数据集也是简单高效,时间复杂度,空间复杂度很低
缺点:最重要的是数据集大的时候结果容易局部最优,需要预先设定K值,对最先的K个点的选取很敏感。对噪声和离群值非常敏感。

主成分分析:
what:一种统计方法,通过正交变换将一组可能存在相关性的变量,转换成一组线性不相关的变量,转换后的这组变量叫主成分。
why:在用统计分析方法研究多变量的课题的时候,变量个数太多会增加课题的复杂性,人们希望变量个数比较少但是可以得到的信息更多。在很多情况下,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释成这两个变量反应的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,将重复的变量删去多余,简历尽可能少的新变量,使得这些变量是两两不想管的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量,尽可能多的反应原来变量的信息的统计方法,叫做主成分分析。是数学上用来降维的一种方法。
栗子:主成分分析可以降低数据空间的维度。
多维数据的一种图形表示方法。
由主成分分析法构造回归模型,就是把各主成分作为新的自变量代替原来的自变量x 做回归分析。
how:
主成分分析,是考察多个变量之间的相关性的一种多元统计方法。研究如何通过少数几个主成分来解释多个变量之间的内部结构,就是从原始变量中导出少数几个主成分,使他们尽可能多的保留原始变量的信息,而且彼此之间互不相关。

步骤:指标数据标准化,
指标之间的相关性判定,
确定主成分个数m
主成分Fi表达式
主成分Fi命名

各类距离公式:
闵可夫斯基距离 可以在曼哈顿距离 欧式距离 切比雪夫距离之间转换。所以严格意义上来讲,闵可夫斯基距离不是一种距离,而是一组距离的定义
统计学和算法相关的基础知识(持续更新)_第8张图片
统计学和算法相关的基础知识(持续更新)_第9张图片
统计学和算法相关的基础知识(持续更新)_第10张图片

你可能感兴趣的:(数学理论基础)