胡牧之.

数学建模笔记（十五）：多元统计分析及R语言建模（判别分析、聚类分析、主成分分析、因子分析，含数据代码注释，均可供运行）

文章目录

一、多元数据的数学表达
- 1.多元分析资料的一般格式与矩阵化表示
- 2.数据特征（一元数据与多元数据的均值和方差）
二、R软件基本使用
- 1.向量创建（c函数）
- 2.行列合并（rbind，cbind）
- 3.矩阵创建与维数查询（注意行列优先，正态随机生成）
- 4.矩阵转置
- 5.矩阵的标量运算
- 6.矩阵运算（加减、乘法、点积点除）
- - （一）加减
  - （二）乘
  - （三）点积点除
- 7.对角矩阵（diag函数介绍）
- 8.逆矩阵生成（solve函数）
- 9.矩阵的特征值与特征向量
- 10.矩阵行列求和、求均值，求方差
- - （一）方法一（row**/col**）
  - （二）方法二：apply（可求方差，也可自定义函数）
- 11.协方差矩阵与相关系数矩阵
- 12.文件读取
三、判别分析及R使用
- 1.概念
- 2.方法
- 3.线性判别分析（LDA）
- - （一）步骤一：求 $F i s h er$ 线性判别函数
  - （二）步骤二：计算判别界值
  - （三）步骤三：建立判别标准
  - （四）例题：晴雨判断
- 4.距离判别
- - （一）两总体距离判别——等差方阵(协方差矩阵相同)，直线判别(LDA)
  - （二）两总体距离判别——异差方阵(不同)，二次判别(QDA)
  - （三）例题：销售预测——两总体
  - （四）多总体距离判别
  - （五）例题：销售预测——多总体
- 5.Bayes判别法(概率性判别)
- - （一）判别准则
  - （二）例题：销售预测——概率判别
- 6.小结
四、聚类分析及R使用
- 1.概念
- 2.方法
- 3.聚类统计量（聚类原则）
- 4.系统聚类法
- - （一）基本思想
  - （二）类间距离计算方法
  - （三）基本步骤
  - （四）代码
  - （五）例题：区域消费类型划分
- 5.kmeans聚类法
- - （一）概念与原理
  - （二）例题：对正态数据进行聚类
- 6.小结
五、主成分分析及R使用
- 1.基本思想与目的
- 2.数学表达与推导(如何确定主成分)
- 3.基本步骤
- 4.例题：区域消费类型划分——主成分分析法
- 5.小结
六、因子分析及R使用
- 1.与“主成分分析”的区别与联系
- 2.特点与用途
- 3.基本思想
- 4.因子分析模型（引入因子载荷矩阵）
- 5.基本步骤
- 6.因子载荷矩阵估计——主成分法（主因子法）
- 7.例题：公司业绩因子模型——两种方法估计因子载荷
- - （一）原始评价指标
  - （二）数据展示
  - （三）代码展示
- 8.因子旋转
- - (一)目的
  - (二)方法
  - (三)旋转前后对照
- 9.因子得分
- - （一）目的
  - （二）方法与结果对照
  - （三）综合得分计算

一、多元数据的数学表达

1.多元分析资料的一般格式与矩阵化表示

数据类型

分类数据：是只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，是用文字来描述的，如男女；
顺序数据：是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别，但这些类别是有序的，如一等、二等；
数值数据：是按数字尺度测量的观察值，其结果表现为具体的数值。现实中所处理的大多数都是数值型数据；

2.数据特征（一元数据与多元数据的均值和方差）

二、R软件基本使用

1.向量创建（c函数）

c函数，可以把多个元素或向量组合成一个向量

如：

2.行列合并（rbind，cbind）

3.矩阵创建与维数查询（注意行列优先，正态随机生成）

默认为列优先，可添加参数调至行优先
正态分布随机生成矩阵:rnorm()

4.矩阵转置

5.矩阵的标量运算

6.矩阵运算（加减、乘法、点积点除）

（一）加减

（二）乘

（三）点积点除

7.对角矩阵（diag函数介绍）

8.逆矩阵生成（solve函数）

9.矩阵的特征值与特征向量

10.矩阵行列求和、求均值，求方差

（一）方法一（row/col）

（二）方法二：apply（可求方差，也可自定义函数）

1表示求行，2表示求列

11.协方差矩阵与相关系数矩阵

12.文件读取

三、判别分析及R使用

1.概念

2.方法

3.线性判别分析（LDA）

只能线性划分，而且要求协方差阵要相同，有局限性

（一）步骤一：求 $F i s h er$ 线性判别函数

思想为降维投影，找到一种合理的数据划分方式，也就是一个投影方向 $\vec{a}$ 使得两均值 $\overline{Y_1}=a^{'} \overline{x_1}$ 与 $\overline{Y_2}=a^{'} \overline{x_2}$ 的标准化距离达到最大，换句话说就是令投影上同类样例的投影点尽可能靠近，异类样例的投影点尽可能远离。

下图中的 $\sum$ 表示协方差矩阵，目标就是 $(\frac{d}{S_d})^2$ 最大

（二）步骤二：计算判别界值

（三）步骤三：建立判别标准

（四）例题：晴雨判断

数据（可供复制）

G	x1	x2
1	-1.9	3.2
1	-6.9	0.4
1	5.2	2
1	5	2.5
1	7.3	0
1	6.8	12.7
1	0.9	-5.4
1	-12.5	-2.5
1	1.5	1.3
1	3.8	6.8
2	0.2	6.2
2	-0.1	7.5
2	0.4	14.6
2	2.7	8.3
2	2.1	0.8
2	-4.6	4.3
2	-1.7	10.9
2	-2.6	13.1
2	2.6	12.8
2	-2.8	10

代码（可供运行）

直接套用内部方法即可

d6.1=read.table("clipboard",header=T)#从剪切板读取，所以要先复制到剪切版
#header=T表示第一行为标题，避免错误处理
attach(d6.1)#绑定数据,如果未绑定路径索引，可能导致数据读取错误
plot(x1,x2)
text(x1,x2,G,adj=-0.5)#表示点所属类别，adj用于指定文本相对于给定坐标的对齐方式
library(MASS)#载入package MASS
(ld=lda(G~x1+x2))#lda即线性判别分析，此处直接建立判别函数,G为类别，~后为参数
Z=predict(ld)#对已有数据进行预测
newG=Z$class
cbind(G,Z$x,newG)#显示结果
(tab=table(G,newG))#建立混淆矩阵，直接看出有多少错判，对角线上的数据才是正确判定      
sum(diag(prop.table(tab)))
#prop.table函数：频率统计函数
#prop.table(data)：将data转换为百分比
#先转为百分比再对其对角线数据进行求和
predict(ld,data.frame(x1=8.1,x2=2.0))#对给定数据进行预测，注意要编为数据框
abline(1.2028/0.2248,0.1035/0.2248,col=2)#线性划分图示

4.距离判别

此处所说的距离不是指一般的欧式距离，而是采用马氏距离，可以避免不同量纲的影响
马氏距离

$D(X,G_i)$ 表示的是样本 $X$ 与总体 $G_i$ 的距离
$\mu_i$ 表示总体 $G_i$ 的均值
$\sum_i$ 表示总体 $G_i$ 的协方差矩阵
$()^{'}$ 表示转置

如果协方差矩阵为单位矩阵，那么马氏距离就简化为欧氏距离，如果协方差矩阵为对角阵，则其也可称为正规化的欧氏距离。

（一）两总体距离判别——等差方阵(协方差矩阵相同)，直线判别(LDA)

式子有误，更正为: $W(X)=2[X-\frac{(\mu_1+\mu_2)}{2}]^{'}\sum^{-1}(\mu_1-\mu_2)$

所得结果为关于 $X$ 的线性函数，故称其为直线判别

（二）两总体距离判别——异差方阵(不同)，二次判别(QDA)

（三）例题：销售预测——两总体

数据（可供复制）

Q	C	P	G1
8.3	4	29	1
9.5	7	68	1
8	5	39	1
7.4	7	50	1
8.8	6.5	55	1
9	7.5	58	1
7	6	75	1
9.2	8	82	1
8	7	67	1
7.6	9	90	1
7.2	8.5	86	1
6.4	7	53	1
7.3	5	48	1
6	2	20	2
6.4	4	39	2
6.8	5	48	2
5.2	3	29	2
5.8	3.5	32	2
5.5	4	34	2
6	4.5	36	2

代码（可供运行）

d6.2=read.table("clipboard",header=T)
d6.2
attach(d6.2)
par(mar=c(4,4,2,1),cex=0.75) 
plot(Q,C);text(Q,C,G1,adj=-0.5)
plot(Q,P);text(Q,P,G1,adj=-0.5)
plot(C,P);text(C,P,G1,adj=-0.5)

library(MASS)
qd=qda(G1~Q+C+P);qd
cbind(G1,newG=predict(qd)$class)
predict(qd,data.frame(Q=8,C=7.5,P=65))

ld=lda(G1~Q+C+P);ld
W=predict(ld)
cbind(G1,Wx=W$x,newG=W$class)
predict(ld,data.frame(Q=8,C=7.5,P=65))
options(digits=3)#设置有效数字位数

（四）多总体距离判别

由于协方差矩阵相同，所以在下式中，可以将 $(X^{'}\sum^{-1}X)$ 视为常量，又因为负号的存在，所以实际上是根据 $Z_i$ 来判断距离

$Z_i$ 越大，就意味着马氏距离越小

（五）例题：销售预测——多总体

数据（可供复制）

Q	C	P	G2
8.3	4	29	1
9.5	7	68	1
8	5	39	1
7.4	7	50	1
8.8	6.5	55	1
9	7.5	58	2
7	6	75	2
9.2	8	82	2
8	7	67	2
7.6	9	90	2
7.2	8.5	86	2
6.4	7	53	2
7.3	5	48	2
6	2	20	3
6.4	4	39	3
6.8	5	48	3
5.2	3	29	3
5.8	3.5	32	3
5.5	4	34	3
6	4.5	36	3

代码（可供运行）

d6.3=read.table("clipboard",header=T)
attach(d6.3)
plot(Q,C);text(Q,C,G2,adj=-0.5,cex=0.75)
#adj，调整每个字符串的阅读方向(0=左对齐或下对齐，1=右对齐 或上对齐)
#cex，相对默认大小缩放倍数的数值
plot(Q,P);text(Q,P,G2,adj=-0.5,cex=0.75)     
plot(C,P);text(C,P,G2,adj=-0.5,cex=0.75)        
library(MASS)

ld=lda(G2~Q+C+P); ld
Z=predict(ld)
newG=Z$class
#Z中：class类别，posterior各类后验概率，x在各自映射向量上的映射值
cbind(G2,round(Z$x,3),newG)#round为四舍五入，此处表示对Z$x的数据保留3位小数
(tab=table(G2,newG))#混淆矩阵
diag(prop.table(tab,1))
sum(diag(prop.table(tab)))
plot(Z$x)
text(Z$x[,1],Z$x[,2],G2,adj=-0.8,cex=0.75)
predict(ld,data.frame(Q=8,C=7.5,P=65))

qd=qda(G2~Q+C+P); qd
Z=predict(qd)
newG=Z$class
cbind(G2,newG)
(tab=table(G2,newG))
sum(diag(prop.table(tab)))
predict(qd,data.frame(Q=8,C=7.5,P=65))

在线性判别中，有 $n$ 个总体就需要 $n - 1$ 个判别函数(投影方向)才可以分开

5.Bayes判别法(概率性判别)

（一）判别准则

概率判别
考虑在样本x出现后，x所属总体的后验概率

损失判别

（二）例题：销售预测——概率判别

以上方多总体例题为例

数据（可供复制）

Q	C	P	G2
8.3	4	29	1
9.5	7	68	1
8	5	39	1
7.4	7	50	1
8.8	6.5	55	1
9	7.5	58	2
7	6	75	2
9.2	8	82	2
8	7	67	2
7.6	9	90	2
7.2	8.5	86	2
6.4	7	53	2
7.3	5	48	2
6	2	20	3
6.4	4	39	3
6.8	5	48	3
5.2	3	29	3
5.8	3.5	32	3
5.5	4	34	3
6	4.5	36	3

代码（可供运行）

d6.3=read.table("clipboard",header=T)
attach(d6.3)
library(MASS)


(ld1=lda(G2~Q+C+P,prior=c(1,1,1)/3))#prior,先验概率，此时表示3个总体先验概率相等
(ld2=lda(G2~Q+C+P,prior=c(5,8,7)/20))#此时表示三个总体的先验概率不相等（根据个数）      
Z1=predict(ld1)    
cbind(G2,round(Z1$x,3),newG=Z1$class)
Z2=predict(ld2)
cbind(G2,round(Z2$x,3),newG=Z2$class)
table(G2,Z1$class)
table(G2,Z2$class)
#根据混淆矩阵结果，发现无差异，侧面说明先验概率差异对结果影响不大
#不过根据后验概率结果，采用比例分配先验概率可能更好一些
round(Z1$post,3)
round(Z2$post,3)
predict(ld1,data.frame(Q=8,C=7.5,P=65))
predict(ld2,data.frame(Q=8,C=7.5,P=65))

6.小结

四、聚类分析及R使用

1.概念

判别分析中给定了具体的类，也就是所谓的Y值，所以我们也管这种分析称为有监督的学习；
聚类分析没有给定Y值，所以我们将这种分析称为无监督的学习

2.方法

大数据采用Kmeans方法

3.聚类统计量（聚类原则）

对于样本，主要使用距离作为聚类统计量；
对于变量，经常使用相似系数作为聚类统计量

几类距离的介绍

一般明氏距离会带绝对值，所以式子写为： $d_{ij}(q)=[\sum_{k=1}^{P}|x_{ik}-x_{jk}|^{q}]^{\frac{1}{q}}$

以上的计算方法分别表示欧几里得距离、切比雪夫距离、绝对值距离（曼哈顿距离）、兰式距离、二进制距离、米科夫斯基距离（需交代 $p$ 值）

数据矩阵 $X$ 的格式为每行作为一个样品

$d i s t (X)$ 默认使用欧式距离，且由于信息重复和对角线无意义所以只需标出矩阵一半的信息
通过调整参数 $d ia g$ 与 $u pp er$ ，可以将这一部分信息显示出来

几类相似系数的介绍

4.系统聚类法

（一）基本思想

难点：重新计算类与类之间的距离

（二）类间距离计算方法

最短距离法以两个类中样本间最短距离作为两个类的距离
最长距离法以两个类中样本间最长距离作为两个类的距离
类平均法计算每个类的均值，以两个均值之间的距离作为两个类的距离
重心法找到每个类的重心，以两个重心之间的距离作为两个类的距离

（三）基本步骤

hclust参数解释

print(cbind(hc$merge,hc$height))

可以展示出分类的过程，关于上图的解释是先向4与5合并，再将1并入该类，再并入2，最后并入3

通过作图可以更加清晰表明合并顺序，每次合并都将消除一个类，如果想得知划分为特定类数的划分方式，只需根据合并次数
比如初始为 $n$ 个样本，欲划分为 $3$ 类，只需看在第 $n - 3$ 次合并后的结果

（四）代码

x1=c(5,7,3,6,6)
x2=c(7,1,2,5,6)
plot(x1,x2)
text(x1,x2,c(1:5),adj=-0.5) 
X=cbind(x1,x2)#按列结合，结果为5个样品，每个样品有两个指标
dist(X)
dist(X,diag=TRUE)
dist(X,method="manhattan")
dist(X,method="minkowski",p=1)
dist(X,upper=TRUE)
dist(X,method="minkowski",p=2)
hc=hclust(dist(X),"single")
print(cbind(hc$merge,hc$height))
plot(hc)
hc<-hclust(dist(X),"complete")
print(cbind(hc$merge,hc$height))
plot(hc)
hc<-hclust(dist(X),"average")
print(cbind(hc$merge,hc$height))
plot(hc)
hc<-hclust(dist(X),"ward") 
print(cbind(hc$merge,hc$height))
plot(hc)

（五）例题：区域消费类型划分

数据（可供复制）

	X1	X2	X3	X4	X5	X6	X7	X8
北京	4934.05	1512.88	981.13	1294.07	2328.51	2383.96	1246.19	649.66
天津	4249.31	1024.15	760.56	1163.98	1309.94	1639.83	1417.45	463.64
河北	2789.85	975.94	546.75	833.51	1010.51	895.06	917.19	266.16
山西	2600.37	1064.61	477.74	640.22	1027.99	1054.05	991.77	245.07
内蒙古	2824.89	1396.86	561.71	719.13	1123.82	1245.09	941.79	468.17
辽宁	3560.21	1017.65	439.28	879.08	1033.36	1052.94	1047.04	400.16
吉林	2842.68	1127.09	407.35	854.8	873.88	997.75	1062.46	394.29
黑龙江	2633.18	1021.45	355.67	729.55	746.03	938.21	784.51	310.67
上海	6125.45	1330.05	959.49	857.11	3153.72	2653.67	1412.1	763.8
江苏	3928.71	990.03	707.31	689.37	1303.02	1699.26	1020.09	377.37
浙江	4892.58	1406.2	666.02	859.06	2473.4	2158.32	1168.08	467.52
安徽	3384.38	906.47	465.68	554.44	891.38	1169.99	850.24	309.3
福建	4296.22	940.72	645.4	502.41	1606.9	1426.34	1261.18	375.98
江西	3192.61	915.09	587.4	385.91	732.97	973.38	728.76	294.6
山东	3180.64	1238.34	661.03	708.58	1333.63	1191.18	1027.58	325.64
河南	2707.44	1053.13	549.14	626.55	858.33	936.55	795.39	300.19
湖北	3455.98	1046.62	550.16	525.32	903.02	1120.29	856.97	242.82
湖南	3243.88	1017.59	603.18	668.53	986.89	1285.24	869.59	315.82
广东	5056.68	814.57	853.18	752.52	2966.08	1994.86	1444.91	454.09
广西	3398.09	656.69	491.03	542.07	932.87	1050.04	803.04	277.43
海南	3546.67	452.85	519.99	503.78	1401.89	837.83	819.02	210.85
重庆	3674.28	1171.15	706.77	749.51	1118.79	1237.35	968.45	264.01
四川	3580.14	949.74	562.02	511.78	1074.91	1031.81	690.27	291.32
贵州	3122.46	910.3	463.56	354.52	895.04	1035.96	718.65	258.21
云南	3562.33	859.65	280.62	631.7	1034.71	705.51	673.07	174.23
西藏	3836.51	880.1	271.29	272.81	866.33	441.02	628.35	335.66
陕西	3063.69	910.29	513.08	678.38	866.76	1230.74	831.27	332.84
甘肃	2824.42	939.89	505.16	564.25	861.47	1058.66	768.28	353.65
青海	2803.45	898.54	484.71	613.24	785.27	953.87	641.93	331.38
宁夏	2760.74	994.47	480.84	645.98	859.04	863.36	910.68	302.17
新疆	2760.69	1183.69	475.23	598.78	890.3	896.79	736.99	331.8

由于版本更新过快导致不同版本间命令的不兼容，高版本中无法导入 $m v s t a t s$ 包

#适用于低版本
d7.2=read.table("clipboard",header=T) 
plot(d7.2)
library(mvstats)#高版本下无法运行，由于版本更新过快导致不同版本间命令的不兼容
H.clust(d7.2,"euclidean","single",plot=T)
H.clust(d7.2,"euclidean","complete",plot=T)
H.clust(d7.2,"euclidean","median",plot=T)
H.clust(d7.2,"euclidean","average",plot=T)      
H.clust(d7.2,"euclidean","centroid",plot=T)     
H.clust(d7.2,"euclidean","ward",plot=T)

将函数替换即可，直接使用hclust方法

#适用于高版本
d7.2=read.table("clipboard",header=T)
plot(d7.2)
#library(mvstats) 高版本下无法运行，由于版本更新过快导致不同版本间命令的不兼容
#hclust同样可以实现
plot(hclust(dist(d7.2),method = "single"),hang=-1)#最短距离法
plot(hclust(dist(d7.2),method = "complete"),hang=-1)#最长距离法
plot(hclust(dist(d7.2),method = "median"),hang=-1)#中间距离法
plot(hclust(dist(d7.2),method = "average"),hang=-1)#类平均法
plot(hclust(dist(d7.2),method = "centroid"),hang=-1)#重心法
plot(hclust(dist(d7.2),method = "ward"),hang=-1)#Ward法

5.kmeans聚类法

（一）概念与原理

$n$ 个对象要分为 $k$ 类
优点是适合对大型数据集进行分类
缺点是对k取值比较敏感

（二）例题：对正态数据进行聚类

直接调用内部方法

代码（可供运行）

x1=matrix(rnorm(1000,mean=0,sd=0.3),ncol=10)#共100个样品，每个样品有10个指标
x2=matrix(rnorm(1000,mean=1,sd=0.3),ncol=10) 
x=rbind(x1,x2)
cl=kmeans(x,2)#，给定了k值（聚类个数）
pch1=rep("1",100)
pch2=rep("2",100)
plot(x,col=cl$cluster,pch=c(pch1,pch2),cex=0.7)
points(cl$centers,col=3,pch="*",cex=3)
#-------------------------------------------------
#增加数据量
x1=matrix(rnorm(10000,mean=0,sd=0.3),ncol=10)
x2=matrix(rnorm(10000,mean=1,sd=0.3),ncol=10) 
x=rbind(x1,x2)
cl=kmeans(x,2)
pch1=rep("1",1000)
pch2=rep("2",1000)
plot(x,col=cl$cluster,pch=c(pch1,pch2),cex=0.7)
#col指定颜色，pch指定不同散点情况，cex指定大小
#此处以类别号作为颜色序号
#关于pch1中1000的由来，其实这个表示的是样品数目
points(cl$centers,col=3,pch ="*",cex=3)
#cl$centers表示类的重心

6.小结

五、主成分分析及R使用

1.基本思想与目的

要求是原始指标之间要具备一定的相关性，然后用原始指标构造出相互无关的综合指标作为新的指标

2.数学表达与推导(如何确定主成分)

成分个数与变量个数一致


假设 $\sum$ 为 $X$ 的协方差阵
$u_1^{'}$ 为 $u_1$ 的转置

在一维情况下， $c$ 为常数： $var(cx)=c^2var(x)$
在 $p$ 维情况下， $a$ 为矩阵： $var(a^{'} x)=a^{'}var(x)a=a^{'}\sum a$
目标是令上式中 $y_1$ 具有最大的方差，首先要给定一定条件的限制，否则不存在最大的情况，所以不妨再假设 $u_1^{'}u_1$ 结果为单位矩阵（不唯一）
此时就得到 $var(y_1)=var(u_1^{'}x)=u_1^{'} \sum u_1$

条件极值问题——一般方法：拉格朗日乘数法
$L(u_1,\lambda)=u_1^{'}\sum u_1-\lambda(u_1^{'}u_1-1)$

最终结果，求的第一主成分就是特征根 $\lambda$ ，那么 $u_1$ 就是最大特征根对应的单位特征向量

如果第一主成分不足以代表原来的 $P$ 个指标，就还需要求出第二主成分，为了有效反映原来信息，第一主成分所包含的信息不需要在第二主成分中出现，要求 $COV(y_1,y_2)=u_1^{'}\sum u_2=0$ ，以此类推求出其余主成分

3.基本步骤

标准化，消除量纲的影响

4.例题：区域消费类型划分——主成分分析法

目标是确定主成分，然后依照主成分进行排名并作图

数据（可供复制）

	X1	X2	X3	X4	X5	X6	X7	X8
北京	4934.05	1512.88	981.13	1294.07	2328.51	2383.96	1246.19	649.66
天津	4249.31	1024.15	760.56	1163.98	1309.94	1639.83	1417.45	463.64
河北	2789.85	975.94	546.75	833.51	1010.51	895.06	917.19	266.16
山西	2600.37	1064.61	477.74	640.22	1027.99	1054.05	991.77	245.07
内蒙古	2824.89	1396.86	561.71	719.13	1123.82	1245.09	941.79	468.17
辽宁	3560.21	1017.65	439.28	879.08	1033.36	1052.94	1047.04	400.16
吉林	2842.68	1127.09	407.35	854.8	873.88	997.75	1062.46	394.29
黑龙江	2633.18	1021.45	355.67	729.55	746.03	938.21	784.51	310.67
上海	6125.45	1330.05	959.49	857.11	3153.72	2653.67	1412.1	763.8
江苏	3928.71	990.03	707.31	689.37	1303.02	1699.26	1020.09	377.37
浙江	4892.58	1406.2	666.02	859.06	2473.4	2158.32	1168.08	467.52
安徽	3384.38	906.47	465.68	554.44	891.38	1169.99	850.24	309.3
福建	4296.22	940.72	645.4	502.41	1606.9	1426.34	1261.18	375.98
江西	3192.61	915.09	587.4	385.91	732.97	973.38	728.76	294.6
山东	3180.64	1238.34	661.03	708.58	1333.63	1191.18	1027.58	325.64
河南	2707.44	1053.13	549.14	626.55	858.33	936.55	795.39	300.19
湖北	3455.98	1046.62	550.16	525.32	903.02	1120.29	856.97	242.82
湖南	3243.88	1017.59	603.18	668.53	986.89	1285.24	869.59	315.82
广东	5056.68	814.57	853.18	752.52	2966.08	1994.86	1444.91	454.09
广西	3398.09	656.69	491.03	542.07	932.87	1050.04	803.04	277.43
海南	3546.67	452.85	519.99	503.78	1401.89	837.83	819.02	210.85
重庆	3674.28	1171.15	706.77	749.51	1118.79	1237.35	968.45	264.01
四川	3580.14	949.74	562.02	511.78	1074.91	1031.81	690.27	291.32
贵州	3122.46	910.3	463.56	354.52	895.04	1035.96	718.65	258.21
云南	3562.33	859.65	280.62	631.7	1034.71	705.51	673.07	174.23
西藏	3836.51	880.1	271.29	272.81	866.33	441.02	628.35	335.66
陕西	3063.69	910.29	513.08	678.38	866.76	1230.74	831.27	332.84
甘肃	2824.42	939.89	505.16	564.25	861.47	1058.66	768.28	353.65
青海	2803.45	898.54	484.71	613.24	785.27	953.87	641.93	331.38
宁夏	2760.74	994.47	480.84	645.98	859.04	863.36	910.68	302.17
新疆	2760.69	1183.69	475.23	598.78	890.3	896.79	736.99	331.8

基础安装包里有princomp()函数可以做主成分分析，factanal()函数可以做因子分析

par（）函数介绍：调整默认绘图参数

碎石图介绍
碎石图是将特征根以图示形式展示，主要用于辅助判断因子个数。如果不确定提取多少个因子，此时可以参考碎石图结果判断因子个数。

代码（可供运行，含手动实现代码替代导入包）

X=read.table("clipboard",header=T)
cor(X)#相关系数矩阵，默认数据之间的皮埃尔相关系数
PCA=princomp(X,cor=T)#主成分分析，且使用的是相关矩阵
#主成分分析可以使用协方差矩阵也可以使用相关矩阵，函数标明即可，结果可能有差异
#相关系数是协方差标准化的结果，所以此时用cor无需标准化，但使用协方差需要进行标准化
PCA#特征值开根号结果
options(digits=3)#修改有效位数
summary(PCA)#从数据中获取描述性统计量，此处包括标准差、方差比例、累计占比
PCA$loadings#主成分载荷，也就是主成分与原始变量之间的相关系数
#SS loadings包含与主成分相关联的特征值，指的是与特定主成分相关联的标准化后的方差值
par(mar=c(4,4,2,1),cex=0.75)#par函数作用是调整默认的绘图参数
#mar，设置图形空白边界行数，默认为mar=c(5.1,4.1,4.1,2.1)
#cex，设置文本和符合的尺度，默认为cex=1

screeplot(PCA,type="lines")#碎石图选定因子个数  
eig=eigen(cor(X));eig#另外一种方法是选出特征根大于1的因子，依然是前两个

PCA$scores[,1:2]#主成分得分，根据碎石图选定了前两个因子，再加权求出各自的值

#不使用包，手动计算进行排名并排序
comp1=PCA$scores[,1]
comp2=PCA$scores[,2]
c=eig$values[1]/(eig$values[1]+eig$values[2])*comp1+eig$values[2]/(eig$values[1]+eig$values[2])*comp2
rank=rank(c)
sort=cbind(comp1,comp2,c,rank)
sort=sort[order(sort[,4]),]
View(sort)
#------以下内容高版本不兼容，用于主成分排名----------
library(mvstats)
princomp.rank(PCA,m=2)#主成分排名，总得分是根据特征值进行加权平均计算，然后依次进行排名 
princomp.rank(PCA,m=2,plot=T)#主成分排名作图

5.小结

六、因子分析及R使用

Factor Analysis

1.与“主成分分析”的区别与联系

2.特点与用途

3.基本思想

4.因子分析模型（引入因子载荷矩阵）

$X$ 为原始变量， $E (x) = 0$ 说明可能已经经过了标准化，所以得到的协方差矩阵与相关矩阵相同
$F$ 为公共因子，不可观测， $co v (F) = 1$ 说明公共因子之间是不相关的
$\varepsilon$ 为特殊因子

$A$ ，也就是所谓的因子载荷矩阵

5.基本步骤

6.因子载荷矩阵估计——主成分法（主因子法）

主成分法求解因子载荷矩阵
根据矩阵表示，有 $X=AF+\varepsilon$
由于 $A F$ 与 $\varepsilon$ 不相关，所以对式子两边同时取协方差矩阵：
$cov(X)=cov(AF)+cov(\varepsilon)$
$\Downarrow$
$R=AA^{'}+D$ （ $R$ 为x相关矩阵， $D$ 为 $\varepsilon$ 协方差阵，一个对角阵）
$\Downarrow$
$A=(\sqrt{\lambda_1}l_1,\sqrt{\lambda_2}l_2……\sqrt{\lambda_m}l_m)$

7.例题：公司业绩因子模型——两种方法估计因子载荷

（一）原始评价指标

（二）数据展示

	x1	x2	x3	x4	x5	x6
冀东水泥	33.8	34.75	0.67	59.77	15.49	16.35
大同水泥	27.54	28.04	2.36	35.29	-20.96	-46.45
四川双马	22.86	23.47	0.61	42.83	5.48	-49.22
牡丹江  	19.05	19.95	1	48.51	-12.32	-65.99
西水股份	20.84	21.17	1.08	48.45	65.09	54.81
狮头股份	28.14	28.84	2.51	24.52	-6.43	-15.94
太行股份	30.45	31.13	1.02	46.14	6.57	-16.59
海螺水泥	36.29	36.96	0.27	58.31	70.85	117.59
尖峰集团	16.94	17.26	0.61	52.04	9.03	-94.05
四川金顶	28.74	29.4	0.6	65.46	-33.97	-55.02
祁连山  	33.31	34.3	1.17	45.8	12.18	39.46
华新水泥	25.08	26.12	0.64	69.35	22.38	-10.2
福建水泥	34.51	35.44	0.38	61.61	23.91	-163.99
天鹅股份	25.52	26.73	1.1	47.02	-4.51	-68.79

（三）代码展示

X=read.table("clipboard",header=T)
cor(X)
screeplot(princomp(X,cor=T),type="lines")#主成分分析确定因子个数
(FA0=factanal(X,3,rot="none"))#基于极大似然方法求解
#输入
#factanal(X,factors,scores=c("none", "regression","Bartlett"),rotation="varimax", ...)
#X是用于因子分析的数据，可以为矩阵或数据框
#factors表示要生成的因子的个数，建议先用主成分分析法确定个数
#scores表示计算得分的方式：回归方法、最小二乘法
#rotation表示因子旋转的方式，默认使用varimax最大化方差旋转

#输出
#loading即因子载荷
#Cumulative Var累计方差，可以看出已满足要求

(Fa1=factanal(X,3,rot="varimax"))#加上因子旋转，对比效果

Fa1=factanal(X,3,scores="regression")
Fa1$scores

factanal.rank(Fa1,plot=T)#因子综合得分作图与排名，计算方式与主成分方法一致


#不使用包，手动计算进行排名并排序
#值得注意的是，求综合评价的方法不唯一
#只要是涉及定性分析的方法需要人为地确定一些因素，或多或少都带有点主观性
comp1=Fa1$scores[,1]
comp2=Fa1$scores[,2]
comp3=Fa1$scores[,3]
c=(0.333*comp1+0.3*comp2+0.228*comp3)/0.861
rank=rank(c)
sort=cbind(comp1,comp2,comp3,c,rank)
sort=sort[order(sort[,5]),]
View(sort)

biplot(Fa1$scores,Fa1$loadings)
#双标图

library(mvstats)
#factpc=function(X,m=2,scores=c("none","regression"),rotation="varimax")
#factpc()在mvstats包中
(Fac=factpc(X,3))
Fac1=factpc(X,3,scores="regression")
Fac1$scores

8.因子旋转

(一)目的

载荷绝对值大的变大，小的变小

(二)方法

(三)旋转前后对照

个人理解：通过旋转增强了因子的实际意义，以便于进行专业角度的分析

9.因子得分

（一）目的

（二）方法与结果对照

factpc()函数在mvstats包中，高版本无法运行

（三）综合得分计算

值得注意的是，求综合评价的方法不唯一
只要是涉及定性分析的方法需要人为地确定一些因素，或多或少都带有点主观性
所以在上方代码中，借助factanal.rank()计算与手动计算的结果有差异

手动计算的思路是以旋转后的方差进行加权平均计算

你可能感兴趣的:(数学建模笔记,判别分析,聚类分析,主成分分析,因子分析,R语言)

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
解决Obsidian写笔记中的＜img＞标签无法显示图片的问题全能全知者笔记
Obsidian中写md笔记如果使用标签会显示不出图案，后来才知道因为Obsidian的问题导致只能用绝对路径定位。所以我本人写了一个py插件，将md笔记里的img标签批量替换成Obsidian能够读取的形式。安装FixObsImgDpy:pipinstallFixObsImgDpy安装完成后在需要修复的md文件的父目录下运行命令:FixObsImgDpy就会自动修复父目录以下的全部md文件仓库
2021年周总结 03 Ruby之家
这周的生活过得也是比较快，因为暂时住的离公司有点距离，所以通勤时间相对较长一点，而在地铁上的一个半小时如何充分利用起来，则是我最近一直在思考的问题，2021年想让自己的生活都运行在计划中。(有时候自己想干一件事情就总是给自己找很多借口，想着以后怎么怎么样？然而哪有那么多的以后，能够方便当下的工作生活就立马执行就OK，这仅仅只是我此时想到背的很重的老人机笔记本电脑，也算是陪伴我快8年的—当时买的时候
2021-12-11 人生导演
今天读到佛学书籍的一段话：初学者很难直接体验到无我，但可以经常提醒自己：一切事物都是无我的。不断强化这个观念，也会相当有帮助。比如生病了我们一般会说：“我不舒服！我很痛！我很惨！”这时候如果我们提醒自己：没有我，只是这个肉体的某些部分、某些功能出了问题，不舒服、疼痛也只是一时的感受，而感受随时在变化。仅仅是知道没有一个实存的我在生病、在受苦。然后把“一切事物都是无我的”这句话，记到笔记上，并且朗读
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

数学建模笔记（十五）：多元统计分析及R语言建模（判别分析、聚类分析、主成分分析、因子分析，含数据代码注释，均可供运行）

文章目录

一、多元数据的数学表达

1.多元分析资料的一般格式与矩阵化表示

2.数据特征（一元数据与多元数据的均值和方差）

二、R软件基本使用

1.向量创建（c函数）

2.行列合并（rbind，cbind）

3.矩阵创建与维数查询（注意行列优先，正态随机生成）

4.矩阵转置

5.矩阵的标量运算

6.矩阵运算（加减、乘法、点积点除）

（一）加减

（二）乘

（三）点积点除

7.对角矩阵（diag函数介绍）

8.逆矩阵生成（solve函数）

9.矩阵的特征值与特征向量

10.矩阵行列求和、求均值，求方差

（一）方法一（row**/col**）

（二）方法二：apply（可求方差，也可自定义函数）

11.协方差矩阵与相关系数矩阵

12.文件读取

三、判别分析及R使用

1.概念

2.方法

3.线性判别分析（LDA）

（一）步骤一：求 F i s h e r Fisher Fisher线性判别函数

（二）步骤二：计算判别界值

（三）步骤三：建立判别标准

（四）例题：晴雨判断

4.距离判别

（一）两总体距离判别——等差方阵(协方差矩阵相同)，直线判别(LDA)

（二）两总体距离判别——异差方阵(不同)，二次判别(QDA)

（三）例题：销售预测——两总体

（四）多总体距离判别

（五）例题：销售预测——多总体

5.Bayes判别法(概率性判别)

（一）判别准则

（二）例题：销售预测——概率判别

6.小结

四、聚类分析及R使用

1.概念

2.方法

3.聚类统计量（聚类原则）

4.系统聚类法

（一）基本思想

（二）类间距离计算方法

（三）基本步骤

（四）代码

（五）例题：区域消费类型划分

5.kmeans聚类法

（一）概念与原理

（二）例题：对正态数据进行聚类

6.小结

五、主成分分析及R使用

1.基本思想与目的

2.数学表达与推导(如何确定主成分)

3.基本步骤

4.例题：区域消费类型划分——主成分分析法

5.小结

六、因子分析及R使用

1.与“主成分分析”的区别与联系

2.特点与用途

3.基本思想

4.因子分析模型（引入因子载荷矩阵）

5.基本步骤

6.因子载荷矩阵估计——主成分法（主因子法）

7.例题：公司业绩因子模型——两种方法估计因子载荷

（一）原始评价指标

（二）数据展示

（三）代码展示

8.因子旋转

(一)目的

(二)方法

(三)旋转前后对照

9.因子得分

（一）目的

（二）方法与结果对照

（三）综合得分计算

（一）方法一（row/col）

（一）步骤一：求 $F i s h er$ 线性判别函数