胖胖雕

应用统计学与R语言实现学习笔记（十一）——判别分析

Chapter 11 Discriminant Analysis

笔者最近任务繁重，断更了一顿时间，最近会开始慢慢把这个系列写完。本篇是第十一章，内容是判别分析。

Chapter 11 Discriminant Analysis
- - 判别分析应用
  - 判别分析方法
    - 1 距离判别法
    - 2 Fisher判别法
    - 3 Bayes判别法
  - 建立判别函数的方法
  - 判别分析的步骤及注意事项
  - R语言中判别分析实现

1 判别分析应用

判别分析（Discriminant Analysis）——判别分析的目的是对已知分类的数据建立由数值指标构成的分类规则，然后把这样的规则应用到未知分类的样本中去分类，以识别未知样本所属的类别。判别分析是多元数据分析的重要方法之一。通常解决被解释变量是非数值变量，解释变量是数值变量的情形。
事实上地学领域应用判别分析最多的是在哪里呢？其实是遥感影像的地物分类，通常遥感导论中无论Erdas或者ENVI在做完监督分类之后，其实就是用标注的样本去训练判别函数，然后用判别函数完成整幅影像的判别分析，就可以分出不同的地物类型，这种方法就是我们最普遍使用的极大似然法。而这里的被解释变量就是地物类型，解释变量（多元）就是遥感影像不同波段的DN值，或者是辐射率。

聚类分析和判别分析差异
在聚类分析中，人们一般事先并不知道应该分成几类及哪几类，全根据数据确定。
在判别分析中，至少有一个已经明确知道类别的“训练样本”，并利用该样本来建立判别准则，并通过预测变量来为未知类别的观测值进行判别。
通常实际问题中，可以先聚类以得知类型,再进行判别。
用机器学习的话来说，聚类分析是非监督学习，判别分析属于监督学习。

判别分析的数据结构

individuals	X 1	X 2	⋯	X l	…	X p	Y
1	28	1.0	⋯	114	⋯	0.15	1
2	29	2.0	⋯	117	⋯	0.20	1
⋯	⋯	⋯	⋯	⋯	⋯	⋯	⋯
i	x i1	x i2	⋯	x il	⋯	x ip	2
⋯	⋯	⋯	⋯	⋯	⋯	⋯	⋯
47	15	8	⋯	64	⋯	0.51	2
48	16	7.5	⋯	65	⋯	0.50	3
⋯	⋯	⋯	⋯	⋯	⋯	⋯	⋯
n	x n1	x n2	⋯	x nl	⋯	x np	3

对比聚类分析的数据结构，事实上就是多了最后一列的Y。

个体由 X 1 ,X 2 ,⋯,X p 变量描述。

有分类变量 Y 明确对个体分类。

问题：建立 Y与X 1 ,X 2 ,⋯,X p 变量间关系的函数。根据函数将新个体进行分类。

误判率
误判率的高低有下面两个因素决定：

主观因素：分界线的位置要正确。

客观因素：均值，方差——通过选择指标来控制：一般来说，维度高一点，可以使分辨率高一些，但在许多情况下，指标太多，不仅不能提高分辨率，还增加计算量（需要丰富的实际经验和试算）；在做判别分析前，要做假设检验。在两个总体的均值有显著差异的情况下，再做判别分析。

判别分析的假设

每一个判别变量（解释变量）不能是其他判别变量的线性组合——不符合该假设的话，无法估计判别函数，变量间高度相关或一变量与其他变量的线性组合高度相关时，参数估计的标准误差将很大。

判别变量之间具有多元正态分布——可精确的计算显著性检验值和归属概率。

如要采用线性判别函数，还要求各组协方差距阵相等——线性判别函数使用起来最方便、在实际中使用最广。

2 判别分析方法

2.1 距离判别法

两总体情况
假设有两个总体 G 1 和 G 2 ，如果能够定义点x到它们的距离d(x, G 1 )和d(x, G 2 )，则可用如下规则进行判别：

如果d(x, G 1   ) < d(x, G 2   )则 x∈G 1

如果d(x, G 2   ) < d(x, G 1   )则 x∈G 2

如果d(x, G 1   ) = d(x, G 2   )则待判。

距离常选用马氏距离——假设 μ 1 ,μ 2 ,Σ 1 ,Σ 2 分别为 G 1 和G 2 的均值向量和协方差阵，则点 x 到 G i 的马氏距离为

d 2 (x, G i) = (x - μ i)' (Σ i) - 1 (x - μ i)

马氏距离的好处是可以克服变量之间的相关性干扰，并且消除各变量量纲的影响。

Σ 1 =Σ 2 =Σ
定义：
$d 2 (x, G 1) - d 2 (x, G 2) = (x - μ 1)' Σ - 1 (x - μ 1) - (x - μ 2)' Σ - 1 (x - μ 2) = - 2 [x - (μ 1 + μ 2) / 2]' Σ - 1 (μ 1 - μ 2)$
令： μ ¯ =(μ 1 +μ 2 )/2,α=Σ −1 (μ 1 −μ 2 ),W(x)=(x−μ ¯ ) ′ α=α ′ (x−μ ¯ )
判别规则：
如果W(x)>0，d(x, G 1   ) < d(x, G 2   )则 x∈G 1
如果W(x)<0，d(x, G , 1 ) > d(x, G 2   )则 x∈G 2
如果W(x)=0，d(x, G 1   ) = d(x, G 2   )则待判。
称W(x)为判别函数(discriminant function)，α为判别系数。
当 μ 1 ,μ 2 ,Σ 未知时，可通过样本来估计。
x (i) 1 ,⋯,x (i) n i    为来自 G i   的样本(i=1,2)。
$μ^(i) = 1 n i \sum k = 1 n 2 x (i) k = x ¯ (i), Σ^= 1 n 1 + n 2 - 2 (S 1 + S 2),$
$S i = \sum t = 1 n i (x (i) t - x ¯ (i)) (x (i) t - x ¯ (i))', x ¯ = 1 2 (x ¯ (1) + x ¯ (2))$
判别函数为 W(x)=(x−x ¯ ) ′ Σ −1 (x ¯  (1) −x ¯  (2) )

Σ 1 ≠Σ 2
判别函数为二次函数
W(x)=d 2 (x,G 2 )−d 2 (x,G 1 )=(x−μ 2 ) ′ Σ −1 2 (x−μ 2 )−(x−μ 1 ) ′ Σ −1 2 (x−μ 1 )
按照距离最近原则，判别准则为：
如果W(x)>0即d(x, G 1   ) < d(x, G 2   )则 x∈G 1
如果W(x)<0即d(x, G , 1 ) > d(x, G 2   )则 x∈G 2
如果W(x)=0即d(x, G 1   ) = d(x, G 2   )则待判。

多总体情况

多总体情况：协方差相同
假设有k个总体 G 1 ,G 2 ,⋯,G k   ，它们的均值向量分别为 μ 1 ,μ 2 ,⋯,μ k   ,协方差阵为 Σ ，类似于两总体的讨论，判别函数为：
W ij (x)=[x−(μ 1 +μ 2 )/2] ′ Σ −1 (μ i −μ j ),i,j=1,⋯,k
判别规则：
如果存在i，对所有j≠i，有 W ij (x)>0 ，则 x∈G i   ，否则待判。
如果服从多元正态分布，且各组协方差相同
d 2 (x,G i ) =(x−μ i ) ′ Σ −1 (x−μ i )=x ′ Σ −1 x−2(x ′ Σ −1 μ i −μ ′ i Σ −1 μ i /2)=x ′ Σ −1 x−f i (x)
在所有的 f i (x) 中，哪个 f i (x) 的值大，x到相应的组i的马氏距离小，判 x∈G i

多总体情况：协方差不等
假设有k个总体 G 1 ,G 2 ,⋯,G k   ，它们的均值向量分别为 μ 1 ,μ 2 ,⋯,μ k   ,协方差阵为 Σ 1 ,Σ 2 ,⋯,Σ k   ，类似于两总体的讨论，判别函数为：
W(x)=(x−μ j ) ′ Σ −1 j (x−μ j )−(x−μ i ) ′ Σ −1 i (x−μ i ),i,j=1,⋯,k
判别规则：
如果存在i，对所有j≠i，有 W ij (x)>0 ，则 x∈G i   ，否则待判。
如果总体均值、协方差未知，用样本均值、协方差估计。

若总体不服从正态分布，直接从马氏距离来做判别分析，失去了概率意义，仅仅是一直观的经验判断而已，可能偏误较大。

2.2 Fisher判别法

Fisher判别法的思想就是投影，将k组p维数据投影到某一个方向，使得它们的投影组与组之间尽可能的分开。考虑只有两个(预测)变量的判别问题。假定只有两类。数据中的每个观测值是二维空间的一个点。这里只有两种已知类型的训练样本。一类有 38 个点 ( 用“o”表示)，另一类有44个点(用“*”表示)。按原来变量(横坐标和纵坐标)，很难将这两种点分开。

但是沿着图上的虚线方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出，如果向其他方向投影，判别效果不会比这个好。有了投影之后，再用前面讲到的距离远近的方法得到判别准则。这种先投影的判别方法就是Fisher判别法。
Fisher判别法

不要求总体分布类型；

工作原理就是对原数据系统进行坐标变换，寻求能够将总体尽可能分开的方向；

a为 R p 中的任一向量，点x在以a为法方向的投影为a’x;

各组数据的投影为：
$G i : a' x (i) 1 \dots a' x (i) n, i = 1, 2, \dots, k$

这些数据正好组成一元方差分析的数据。

将 G m 组中数据投影的均值记为 a ′ x ¯ (m) ,有：

a' x ¯ (m) = 1 n m \sum i = 1 n m a' x ¯ (m) i, m = 1, \dots, k

记k组数据投影的总均值为

a ′ x ¯ ，有：

a' x ¯ = 1 n \sum m = 1 k \sum i = 1 n m a' x ¯ (m) i

组间离差平方和为：

S S G = \sum m = 1 k n m (a' x ¯ (m) - a' x ¯) 2 = a' [\sum m = 1 k n m (x ¯ (m) - x ¯) (x ¯ (m) - x ¯)'] a = a' B a;

B = \sum m = 1 k n m [(x ¯ (m) - x ¯) (x ¯ (m) - x ¯)']

组内离差平方和为：

S S E = \sum m = 1 k \sum i = 1 n m (a' x ¯ (m) - a' x ¯) 2 = a' [\sum m = 1 k \sum i = 1 n m (x ¯ (m) - x ¯) (x ¯ (m) - x ¯)'] a = a' E a

E = \sum m = 1 k \sum i = 1 n m (x ¯ (m) - x ¯) (x ¯ (m) - x ¯)'

如果K组有显著差异，则

F = S S G / ( k - 1 ) S S E / ( n - k ) = n - k k - 1 a ' B a a ' E a

F应充分大，即希望找到a使得SSG尽可能大而SSE尽可能小。

Δ (a) = a ' B a a ' E a \to m a x

使

a ′ Baa ′ Ea 最大的值为方程

|B−λE|=0 的最大特征根

λ 1 。记方程

|B−λE|=0 的全部特征根为

λ 1 ≥⋯≥λ r >0 ，相应的特征向量为

v 1 ,⋯,v r 。

Δ(a) 的大小可以估计判别函数

y i (x)=v ′ i x(=a ′ x) 的效果。记

p i 为判别能力（效率），有：

p i = λ i \sum r h = 1 λ h

在有些问题中，仅用一个线性判别函数不能很好区别各个总体，可取第二个、第三个，以此类推。 m个判别函数的判别能力定义为：

\sum i = 1 m p i = \sum m i = 1 λ i \sum r h = 1 λ h

据此来确定选择多少判别函数。
判别准则
选择i使得：

v' 1 (x - μ i) + \dots + v' m (x - μ i)

的值最小
Fisher判别法实质

选几个新的综合性指标，代替原来的p个指标。

构成新的综合性指标的条件：
（1）不同类的均值差距尽可能大；
（2）各类中的方差尽可能小。

Fisher判别法的依据不是x属于哪个总体的概率的大小，而是类别之间具有最大的可分性，也没有考虑错判带来的损失大小（错报台风登陆vs.漏报台风登陆）。

2.3 Bayes判别法

不用判别式，而是比较新给样品属于各个总体的条件概率p(g|x)， g=1,⋯,k 的大小，将新样品判归为来自条件概率最大的总体。

先给出 k 个总体的先验概率 q 1 ,⋯,q k （实践中通常把频率作为先验概率）。如各总体密度为 f k (x) ，则后验概率为( g=1,⋯,k ): P(g|x)=q g f g (x)/Σ i q i f i (x) 。

当且仅当 P(h|x)=max g P(g|x) ，判x来自第h总体。

也可以用使错判的损失最小的准则来判别。

设( D 1 ,D 2 ,⋯,D K )是 R p 的一个完备的划分，当样品x属于 D i ,就判x来自 G i 。

记 p(j|i),c(j|i) 分别为来自i总体的个体被错判到第j总体的概率和损失。定义平均错判损失(ECM: expected cost of misclassification)为 ECM(D)=Σ i=1⋯k q i [Σ j=1⋯k p(j|i)c(j|i)]

Bayes判别法就是要选择划分D使得ECM(D)最小。

3 建立判别函数的方法

与多元回归类似，变量选择的好坏直接影响判别分析的效果。
常遇问题：（1）忽略最主要的指标；（2）引入太多指标，计算量既大又干扰分析。

全模型法(SPSS系统默认方法）

前向选择法
从没有变量的模型开始 每一部逐步把对判别函数贡献最大的变量加入模型，直到模型外没有一个变量
符合条件为止。当希望有较多变量进入判别函数时，选用此方法（在Syntax中实现）。选择使威尔克斯统计量最小且显著的变量加入。

后向选择法
从包含用户指定的所有变量的模型开始。每一部逐步把对判别函数贡献最小的变量从模型中剔除出去，直到留在模型中的变量都符合条件为止。当希望判别函数含有较少变量时，选用此方法。选择使威尔克斯统计量最大且不显著的变量剔除。

逐步选择法
前向选择和后向选择的结合。从没有变量的模型开始。每一部逐步把对判别函数贡献最大的变量加入模型，同时，对模型中的变量进行检验，把不符合条件的变量从模型中删除。是一种较好的方法。选择使威尔克斯统计量最小且显著的变量加入。选择使威尔克斯统计量最大且不显著的变量剔除。

4 判别分析的步骤及注意事项

判别分析的步骤

第1步：确定研究的问题与目的
判别分析适合将个体归类的问题，特别适合一个定性的被解释变量和多个定量的解释变量的情形。

第2步：判别分析研究设计
解释变量与被解释变量的选择：被解释变量的组数可以是两个或更多，但必须互斥和完备。
样本容量：判别分析对样本量与预测变量的比率敏感。
总样本量：建议比率为每个解释变量20个观测，最小的总样本量为每个变量5个观测。最小的组的大小必须超过解释变量的个数，建议每组至少有20个观测，还要注意组的相对大小（大的组有不相称的高的分类机会）。
样本分割：需要将样本分割为两个子样本，一个用于估计判别函数，另一个用于验证。随机分组，最常见的是随机分为两半。通常各组比率相同。

第3步：判别分析的假定
多元正态性，如不满足建议使用Logistic回归。Box’s Test 检验各组协方差阵是否相等，不等的协方差矩阵可能会负面影响分类过程，观测会被“过度归类”到大的协方差阵组中。解释变量的多重共线性。

第4步：估计判别模型和评估整体拟和统计显著性： Wilks’ Lambda， Hotelling迹和Pillai评估判别函数的判别效力的显著性。
评估整体拟和：计算每个观测的判别Z得分，检验各组在判别Z得分上的差异，评估组，关系的预测精度。

第5步：结果的解释
解释判别分析中每个解释变量的相对重要性。
标准化判别权重（判别系数）：如存在多重共线性时不合适，可能不稳定。
判别载荷，又称结构相关系数，是每个解释变量与判别函数的简单相关系数，也可能不稳定。
偏F值。
能力指数：当保留多个判别函数时。

第6步：结果的验证
分隔样本或交叉验证法。

判别分析注意事项

解释变量（判别变量）必须是可测量的。

每一个判别变量不能是其它判别变量的线性组合（不能提供新的信息，无法估计判别函数）。

判别变量不能高度相关，否则导致估计的标准误差很大。

训练样本中必须包含所有要判别的类型，分类必须清楚（在判别分析前最好应当做假设检验，确定各个类的有关变量的均值是显著不同的）。

要选择好可能用于判别的预测变量。判别分析是为了正确地分类，但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果作解释。

检验结果(在SPSS选项中选择Wilks’ Lambda、Rao’s V、 The Squared Mahalanobis Distance或The Sum of Unexplained Variations等检验的计算机输出)，以确定是否分类结果仅由于随机因素。

对于多个判别函数，要弄清各自的重要性。

注意训练样本的正确和错误分类率。研究被误分类的观测值，看是否能找出原因。

5 R语言中判别分析实现

正如上文提到的，我们以一个简单的地物分类的例子来进行实践。
原始的遥感影像如图所示(高分一号卫星16 m数据）。

高分一号卫星有四个波段，分别显示如下：

我们随机在区域内生成了55个样本点，并根据目视解译做了分类，由于所处研究区位于新城且仅作测试，用地类型仅选择了两类：建设用地/不透水面和植被。前面已经用4，3，2显示了原始影像，红色部分即为植被。植被为类型1，建设用地/不透水面为类型2。

另外我们随机在区域内还生成了10个样本点作为验证点。

接着下来我们读取数据并且利用三种不同的判别分析方法进行判别分析地物类别。
判别分析可以自己通过dist函数计算距离得到。现在已经有对应的包可以直接分析。
这里推荐两个包（WMDB和MASS）。
WMDB可以实现加权马氏距离判别分析和Bayes判别分析，MASS可以实现Fisher判别分析。
距离判别分析的函数为wmd。具体参数如下：

wmd(Trnx,TrnG,Tweight=NULL,Tstx=NULL,var.equal=F)

Trnx是训练样本数据。TrnG为分类结果，Tweight为指定权重，可以根据主成分贡献计算或者取相等（原始的判别分析法），Tstx为待测样本数据，var.equal指定协方差矩阵是否相等。
Fisher判别分析的函数为lda。具体参数如下：

lda(formula,data,……,subset,na.action)

formula形如groups~x1+x2+……的形式，data为数据集，subset指定训练样本，na.action指定有缺失值处理方式。
Bayes判别分析的函数为dbayes。具体参数如下：

dbayes(Trnx,TrnG,p=rep(1,length(levels(TrnG))),Tstx=NULL,var.equal=F)

Trnx是训练样本数据。TrnG为分类结果，p为指定先验概率的向量，Tstx为待测样本数据，var.equal指定协方差矩阵是否相等。
接下来就是基于高分影像的四个波段进行训练和判别分析。
距离判别分析结果。

Fisher判别分析结果。

列联表分析及判别准确率。

Bayes判别分析结果。

从样本数据来看，Fisher结果是最好的。
接下来即按照训练好的判别规则进行分类。这里发现WMDB包的两个函数并没有提供预测功能，这里选用了另一个包klaR来做贝叶斯分类（朴素贝叶斯）。
分类结果对比：

为了验证准确率，这里利用随机生成的10个验证点进行精度验证。

由于选取验证点较少，准确率都达到了100%。从实际影像对比来看，似乎Bayes方法将更多细小的植被提取出来了，但是也有一部分道路错分。Fisher方法少提取了一部分，但错分的部分几乎没有。
这部分的代码和数据后面会一起放出来。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
认识世界陈陈_19b4
9月16日，雨。阅读书目:《真相》。作者:瑞典统计学家和医学教授汉斯·罗斯林，他的儿子奥拉·罗斯林，google公共数据团队的负责人。汉斯·罗斯林还是一位全球知名的教育家，是世界健康组织和联合国儿童基金会的顾问。他与儿子儿媳共同创办了Gapminder基金会，开发了Trendalyzer软件，将国际统计数据转化成交互式的生动有趣的图表，帮助人们以事实为基础来观察世界，被称为“可视化数据之父”。图片
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
R语言标准普尔500指数Garch(1,1)模型 ronghuilin
一、例3.3标准普尔500指数的月超额收益率，从1926年开始，共792个观察值，如图所示。记rt为超额收益率，rt的样本ACF和rt2的样本PACF。在间隔为1，3时有少许序列相关性，但主要特征是平方序列显示的强烈线性相关性。例题建立garch(1,1)模型的过程：（1）应用arma(p,q)模型消除数据的线性依赖（2）在arma(p,q)模型基础上，建立garch(1,1)模型（3）改进g
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【Python・统计学】威尔科克森符号秩检验/Wilcoxon signed-rank test（原理及代码） TUTO_TUTO 统计学 python python 学习笔记
前言自学笔记，分享给对统计学原理不太清楚但需要在论文中用到的小伙伴，欢迎大佬们补充或绕道。ps：本文不涉及公式讲解（文科生小白友好体质）～（部分定义等来源于知乎百度等）本文重点：威尔科克森符号秩检验(英文名：Wilcoxonsigned-ranktest)【1.简单原理和步骤】【2.应用条件】【3.数据实例以及Python代码】1.简单原理和步骤威尔科克森符号秩检验是一种非参数检验的方法,需要数据
【Python・统计学】Kruskal-Wallis检验/H检验（原理及代码） TUTO_TUTO python 统计学 python 学习笔记
前言自学笔记，分享给对统计学原理不太清楚但需要在论文中用到的小伙伴，欢迎大佬们补充或绕道。ps：本文不涉及公式讲解（文科生小白友好体质）～（部分定义等来源于知乎百度等）本文重点：Kruskal-Wallis检验(Kruskal-Wallistest),也称H检验【1.定义和简单原理】【2.应用条件】【3.数据实例以及Python代码】【4.多重比较（例：Dunn检验）】1.定义和简单原理Krusk
【Python・统计学】单因素方差分析（简单原理及代码） TUTO_TUTO 统计学 python python 学习笔记
前言自学笔记，分享给对统计学原理不太清楚但需要在论文中用到的小伙伴，欢迎大佬们补充或绕道。ps：本文不涉及公式讲解（文科生小白友好体质）～本文重点：单因素方差分析（以下：方差分析）【1.方差分析简单原理和前提条件】【2.方差分析和t检验的区别】【3.方差分析代码（配对/独立+事后检验+效应量）】1.方差分析简单原理方差分析（ANOVA）又称“变异数分析”或“F检验”，是由罗纳德·费雪爵士发明的，用
【统计学】参数检验和非参数检验的区别和基本统计学 TUTO_TUTO 统计学 python python
前言自学笔记，分享给对统计学原理不太清楚但需要在论文中用到的小伙伴，欢迎大佬们补充或绕道。ps：本文不涉及公式讲解（文科生小白友好体质）～本文重点：参数检验和非参数检验的区别以及对应的常用统计学方法（这是需要根据自己的数据类型搞清楚用哪种统计学方法的关键）【1.参数检验】【2.非参数检验】【3.参数检验和非参数检验的区别】【4.常用统计学方法】1.什么是参数和参数检验参数(parameter)的概
学习小组Day4笔记--王英芳一万万万万
R语言基础准备工作电脑用户名需要是英文R基础，Rstudio人性化界面资源Rfordatasciencechapter1下载RandRstudio给自己一个全新的R语言环境R是什么一种变成语言，统计计算和绘图的环境，汇集了许多函数，强大分析功能。图形界面Rstudio开源集成开发环境IDE4个板块，脚本编辑器，控制台（脚本运行，结果显示），environment（对象/变量列表）history，文
R语言基础笔记 waterHBO r语言笔记开发语言
起因:今天不知道要写什么。把之前的笔记复制一下。代码开头，导入:#清除系统变量rm(list=ls())#隐藏警告信息:options(warn=-1)#把当前目录，设置为工作目录。library(rstudioapi)current_folder_path0.0&ideology<10.0)分组聚合，类似groupby()df2<-aggregate(df1KaTeXparseerror:Exp
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
看《碟中谍6》之前你不得不知道的天花 Mingo布克
8月31日《碟中谍6》再中国上映，鸣哥提前一天买了下午的票，准备看阿汤哥如何全面瓦解。图片发自App在这里就不剧透了，但是要说一个事情，在看电影之前各位不得不知道的事，关于天花。因为电影中，反派在克什米尔地区散步天花，造成了大量妇女和儿童死亡。OK，以下内容和电影再没关系了。2018年高考全国I卷作文题“战机防护”，“统计学家沃德坚持加强对飞机上弹痕少的地方的防护，而不是哪里弹痕多修复哪里，因为弹
日记2021-3-8 思考z
今天开课第一天，对于今天的目标完成的还不错早上起床赖了一下，下午去图书馆呆了2个多小时，晚自习看了概率论与统计学，单词：talent天赋，才能，thick厚的，obstacleto对……障碍，introduce介绍，传入，thin瘦的，稀薄的，thorough彻底的，完全的，occurredto想到，invent发明，throat喉咙，ofcourse当然，thunder雷，雷声，tide潮汐，o
生态位宽度计算&可视化展示（R语言）光疏介质 r语言
生态位宽度是指物种（或其它生物单位）在群落中所利用的各种不同资源的总和。物种的生态位越宽，该物种的特化程度就越小，倾向于泛化种（generalistspecies）；物种的生态位越窄，倾向于是一个特化种（specialistsspecies）。本篇所使用为生态位宽度指数即**Levins的生态位宽度指数。**（除此之外也有用shannon指数）#安装并加载必要的包if(!requireNamesp
R语言多项逻辑回归-因变量是无序多分类医学和生信笔记医学统计学 r语言医学统计学
因变量是无序多分类资料（＞2）时，可使用多分类逻辑回归（multinomiallogisticregression）。使用课本例16-5的数据，课本电子版及数据已上传到QQ群，自行下载即可。某研究人员欲了解不同社区和性别之间居民获取健康知识的途径是否相同，对2个社区的314名成人进行了调查，其中X1是社区，社区1用0表示，社区2用1表示；X2是性别，0是男，1是女，Y是获取健康知识途径，1是传统大
PDF和CDF 薛定谔的猫_大雪概率论
在概率论和统计学中，PDF和CDF是两种描述随机变量分布的重要函数：ProbabilityDensityFunction(PDF)：概率密度函数是用来描述连续随机变量可能取值的概率分布的函数。对于一个连续型随机变量X，其PDFf(x)定义为在某个取值x处的概率密度，即X在该值附近出现的概率密度。PDF的积分可以得到概率，即在某个区间内随机变量出现的概率。CumulativeDensityFunct
Protocol Buffer编译器安装雪域迷影
本文翻译自ProtocolBufferCompilerInstallationProtocolBufferCompilerInstallation如何安装protocolbuffer编译器尽管不是强制性的，但gRPC应用程序通常利用ProtocolBuufer来进行服务定义和数据序列化。该站点上的大多数示例代码都使用protocolbuffer语言（proto3）的版本3。protocolbuff
R语言自学笔记-2内置数据集实验室长工
#b站视频——R语言入门与数据分析#内置数据集#固定格式的数据（矩阵、数据框或一个时间序列等）#统计建模、回归分析等试验需要找合适的数据集#R内置数据集，存储在，通过help(package="datasets")#通过data函数访问这些数据集data()#得到新窗口前面：数据集名字后面：内容#包含R所有用到的数据类型，包括：向量、矩阵、列表、因子、数据框以及时间序列等#直接输入数据集的名字就可
几何分布的期望和方差公式推导_算法数学基础-统计学最基础之均值、方差、协方差、矩... weixin_39848097 几何分布的期望和方差公式推导均值定理六个公式概率论方差公式
我们天天都可以接触很多随机现象，比如每天的天气不一样气温是我们最直接的感受，我们很难预测明天的精确问题，但是这些随机现象又体现出了一定的规律性。比如上海7月份平均35度左右，冬天的平均温度在5度左右。所以35、5这些数字体现了某种稳定性。所以除了前面几章中讲到的分布律和概率密度函数可以表征随机变量外，还可以用一组数字来表达随机变量的一般特性。这就是我们今天要讲到的随机变量的数字特征。通过对数字特征
数据分析面试【概率论与统计学】总结之-----统计学常见面试题整理天阑的芋头 #数据分析—统计学知识数据分析统计学数据分析面试
阅读之前看这里：博主是正在学习数据分析的一员，博客记录的是在学习过程中一些总结，也希望和大家一起进步，在记录之时，未免存在很多疏漏和不全，如有问题，还请私聊博主指正。博客地址：天阑之蓝的博客，学习过程中不免有困难和迷茫，希望大家都能在这学习的过程中肯定自己，超越自己，最终创造自己。目录1.用简洁的话语阐述随机变量的含义2.划分连续型随机变量和离散型随机变量的依据3.常见的分布函数/概率密度函数，以
每日小计划小糊涂神
活到老学到老到，学习永无止境，我坚持每天学习，我的学习计划如下：1.每天学习五个英语单词，和正在学习英语的儿子共同进步，方便辅导他。2.学习一节统计学或者一节线性代数课程，在此基础上进一步学习数据的处理软件。3.每天微信步数达到1万步，每天饭后过一下二人世界，不到沟通感情，而且还能强身健体！4.学习两节税务师课件，中级会计师已经通过，距离考高级还有几年，空档期考取税务师，充实自己的专业知识。5.坚
最大熵模型（Maximum entropy model） Fang Suk 机器学习最大熵模型最大熵最大熵原理指数族分布
最大熵模型（Maximumentropymodel）本文你将知道：什么是最大熵原理，最大熵模型最大熵模型的推导（约束最优化问题求解）最大熵模型的含义与优缺点1最大熵原理最大熵原理：在满足已知约束条件的模型集合中，选择熵最大的模型。熵最大，对应着随机性最大。最大熵首先要满足已知事实，对于其他未知的情况，不做任何的假设，认为他们是等可能性的，此时随机性最大。2最大熵模型最大熵原理是统计学习的一般原理，
在TCGA上下载数据并且进行处理 Red Red 生信小技巧 r语言数据库
浏览器搜索TCGAGDC进入网站在TCGA数据库主页选择“Repository”模式根据所需要的选项在侧边栏选择数据清空购物车！！第一次登陆可忽略将刚刚选择好的数据加入购物车，并且在购物车里下载Metadata和Cart数据，下载到同一个文件夹下。使用R语言脚本对数据进行处理，将其提取为genesymbol和样本的数据，推荐看一下该博主处理数据！！真的非常详细！他R语言脚本在这个链接里
R语言-非结构化数据-文本数据读入 pdc31czy R r语言数据分析
#2.2.2非结构化数据-文本数据读入rm(list=ls())#清空工作空间##1.读入简单文本数据###假如数据包含大量经过结构化的文本数据#只需按照读入csv等标准式数据的方法读入#例：novel=read.csv("novel.csv",fileEncoding="UTF-8")head(novel)##2.用readtable读入文本###文本数据普通读法test=read.table(
Coding and Paper Letter（十四） G小调的Qing歌
资源整理。1Coding:1.R语言包ungeviz，ggplot2的拓展包，专门用来作不确定性的可视化。ungeviz2.计算机图形学相关开源项目。计算机图形学光线追踪开源项目C++源码。computergraphicsraytracing计算机图形学格网开源项目C++源码。computergraphicsmeshes计算机图形学介绍开源项目。computergraphics3.R语言包GLMM
r语言做绘制精美pcoa图_R语言高级绘图 — ggplot2 weixin_39560002 r语言做绘制精美pcoa图
2)PCA的作图PCA主成分分析，可以将高维数据进行降维处理。我们的OTU表格就是典型的高维数据，可以对其进行降维处理得到主成分PC1和PC2，然后将所有样品都分解到这两个成分方向，进行散点绘图，可以直观的看出样品间的差异。首先需要一系列的统计处理，然后用ggplot2进行绘图，过程如下：#加载需要的三个包(需要先下载，再加载)>library(ade4)>library(ggplot2)>lib
【统计学习方法读书笔记】（四）朴素贝叶斯法 Y.G Bingo 统计学习方法人工智能统计学习概率概率论
终于到了贝叶斯估计这章了，贝叶斯估计在我心中一直是很重要的地位，不过发现书中只用了不到10页介绍这一章，深度内容后，发现贝叶斯估计的基础公式确实不多，但是由于正态分布在生活中的普遍性，贝叶斯估计才应用的非常多吧！默认输入变量用XXX表示，输出变量用YYY表示概率公式描述：P(X=x)P(X=x)P(X=x)：表示当X=xX=xX=x时的概率P(X=x∣Y=ck)P(X=x|Y=c_k)P(X=x∣
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，