落痕的寒假

[R语言] R语言PCA分析教程 Principal Component Methods in R

R语言PCA分析教程 Principal Component Methods in R(代码下载)

主成分分析Principal Component Methods（PCA）允许我们总结和可视化包含由多个相互关联的定量变量描述的个体/观察的数据集中的信息。每个变量都可以视为不同的维度。如果数据集中包含3个以上的变量，那么可视化多维超空间可能非常困难。
主成分分析用于从多变量数据表中提取重要信息，并将此信息表示为一组称为主成分的新变量。这些新变量对应于原件的线性组合。主成分的数量小于或等于原始变量的数量。PCA的目标是识别数据变化最大的方向（或主成分）。换句话说，PCA将多变量数据的维度降低到两个或三个主要成分，这些成分可以图形化可视化，同时信息损失最小。PCA属于机器学习降维方法质之一，但是仅仅对线性数据有用，非线性数据建议使用TSNE。
本文描述了PCA的基本概念，并演示了如何使用R软件计算和可视化PCA。此外，我们将展示如何揭示解释数据集变化的最重要变量。主要内容如下：

基础
计算
实例
总结

1. 基础

基础概念
计算过程

1.1 基础概念

了解PCA的细节需要线性代数的知识。在这里，我们将仅通过简单的数据图形表示来解释基础知识。
在下图1A中，数据在XY坐标系中表示。通过识别数据变化的主要方向（称为主成分）来实现降维。PCA假设方差最大的方向是最“重要的”（即最主要的方向）。
在下图1A中，PC1轴是样本显示最大变化的第一个主方向。PC2轴是第二个最重要的方向，它与PC1轴正交。通过将每个样本投影到第一个主成分上，我们的二维数据的维数可以减少到一个维度（图1B）。

从技术上讲，每个主成分保留的方差量是通过所谓的特征值来测量的。请注意，当数据集中的变量高度相关时，PCA方法特别有用。相关性表明数据存在冗余。由于这种冗余，PCA可用于将原始变量减少为较少数量的新变量（= 主成分），解释原始变量的大部分方差。

总的来说，主成分分析的主要目的是：

识别数据集中的隐藏模式；
通过消除数据中的噪声和冗余来降低数据的维度；
识别相关变量。

1.2 计算过程

目前很多书籍讲PCA并不那么通俗易懂。PCA是用来降低数据维度的，维度降低后的主成分和原来的变量不是一个东西。如果想获得原来数据中重要的变量，删除无关变量，请参考特征工程。PCA计算过程很简单，具体如下：

（1）数据处理
假设我们有这样的2维数据：

其中行代表了样例，列代表特征，这里有10个样例可以认为有10辆汽车，x是千米/小时的速度，y是英里/小时的速度。

通常x,y都是不同的变量，如果要放到一起来比较，一般都要进行数据标准化使得各个变量数据能够放到一块比较。这里简单一点，只减去平均值。分别求x和y的平均值，然后对于所有的样例，都减去对应的均值。这里x的均值是1.81，y的均值是1.91，那么一个样例减去均值后即为（0.69,0.49），得到

(2) 计算特征值
在现实情况下，我们需要通过计算数值矩阵的相关系数矩阵或者协方差矩阵来求得特征值和特征向量，进而获得主要成分。相关系数矩阵和协方差矩阵能够变量间相关性，主成分分析会删除和其他变量相关性强的变量，留下更具有代表性的变量。相关系数矩阵相当于消除量纲的表示变量间相关性的一个矩阵，协方差系数矩阵是没有消除量纲的表示变量间相关性的矩阵。相关系数矩阵是协方差系数矩阵的特例，通常在PCA中，如果数据量很少用相关系数矩阵，很多用协方差系数矩阵。
这里主要计算协方差系数矩阵，因为协方差系数更具有实际代表意义。主要计算过程网上都有。那么我们能够获得矩阵的特征值和特征向量（这部分是线性代数的内容)。如下所示：

这里特征值0.049对应特征向量为 $0.735,0.677)^T$ ;特征值1.284对应特征向量为 $0.677,-0.735)^T$ 。

主成分分析降维的意思就是根据特征值的大小挑选主成分变量，比如这里我们要把二维数据降为一维，就选取最大特征值1.284对应的特征向量计算主成分得分。计算公式如下：
$PC1= DataAdjust×特征向量(-0.677, -0.735)^T$
PC1就是我们说的主成分得分，特征向量(-0.677, -0.735)就是我们说得主成分系数。我们所获得降维后的一维变量就是通过这个公式对每行数据通过上面公式获得的。结果如下：

(3) 可视化描述
上述过程可以简单用图来描述，我们有一个经过归一化的数据，这个数据各个样本点都是分散的，无规律的。

如果我们将原数据降为二维（这里实际维度没有变化，一维不好表示）。那么结果如下：

可以看到现在各个样本点分布像一条直线，与x轴平行。样本点的x坐标就是第一主成分，第二主成分就是y坐标。
其中贡献率是表示投影后信息的保留程度的变量，计算公式就是前K个特征值除以总的特征值之和。计算公公式如下：
$\frac{\sum_{i=0}^{K} \lambda_{i}}{\sum_{i=0}^{m} \lambda_{i}}$
比如本文例子有两个特征值1.284和0.049，如果我们降为一维主成分，那么第一主成分贡献率为 $1.284 / (1.284 + 0.049) = 0.963$ 。

PCA详细原理说明见：https://blog.csdn.net/LuohenYJ/article/details/78355954

2. 计算

R包
R代码

2.1 R包

用于计算PCA 的R软件中提供了来自不同软件包的多个函数：

prcomp()和princomp() [内置]，
PCA() [ FactoMineR包]，
dudi.pca() [ ade4包]，
epPCA() [ ExPosition包]

无论您决定使用什么功能，您都可以使用factoextraR包中提供的R功能轻松提取和可视化PCA的结果。
通过install.packages(“FactoMineR”, “factoextra”)安装所使用的包。

# 调用R包
library("FactoMineR");
library("factoextra");

Warning message:
"package 'FactoMineR' was built under R version 3.6.1"Loading required package: ggplot2
Welcome! Related Books: `Practical Guide To Cluster Analysis in R` at https://goo.gl/13EFCZ

我们将使用演示数据集decathlon2从factoextra包，数据集如下：

data(decathlon2)
head(decathlon2)

A data.frame: 6 × 13
	X100m	Long.jump	Shot.put	High.jump	X400m	X110m.hurdle	Discus	Pole.vault	Javeline	X1500m	Rank	Points	Competition

SEBRLE	11.04	7.58	14.83	2.07	49.81	14.69	43.75	5.02	63.19	291.7	1	8217	Decastar
CLAY	10.76	7.40	14.26	1.86	49.37	14.05	50.72	4.92	60.15	301.5	2	8122	Decastar
BERNARD	11.02	7.23	14.25	1.92	48.93	14.99	40.87	5.32	62.77	280.1	4	8067	Decastar
YURKOV	11.34	7.09	15.19	2.10	50.42	15.31	46.26	4.72	63.44	276.4	5	8036	Decastar
ZSIVOCZKY	11.13	7.30	13.48	2.01	48.62	14.17	45.67	4.42	55.37	268.0	7	8004	Decastar
McMULLEN	10.83	7.31	13.76	2.13	49.91	14.38	44.41	4.42	56.37	285.1	8	7995	Decastar

但我们只选择部分数据进行计算，处理如下：

decathlon2.active <- decathlon2[1:23, 1:10]
head(decathlon2.active[, 1:6], 4)

A data.frame: 4 × 6
	X100m	Long.jump	Shot.put	High.jump	X400m	X110m.hurdle

SEBRLE	11.04	7.58	14.83	2.07	49.81	14.69
CLAY	10.76	7.40	14.26	1.86	49.37	14.05
BERNARD	11.02	7.23	14.25	1.92	48.93	14.99
YURKOV	11.34	7.09	15.19	2.10	50.42	15.31

在主成分分析中，变量通常被缩放（即标准化）。当变量以不同的尺度（例如：千克，千米，厘米…）测量时，尤其建议这样做; 否则，获得的PCA输出将受到严重影响。目标是使变量具有可比性。通常，变量被缩放为具有标准偏差1和平均值为零。数据标准化是在PCA和聚类分析之前广泛用于基因表达数据分析的方法。当变量的平均值和/或标准偏差大不相同时，我们可能还希望缩放数据。缩放变量时，数据转换公式如下：
$\frac{x_{i}-\operatorname{mean}(x)}{s d(x)}$
这种方法是计算相关系数矩阵，默认是计算相关系数矩阵而不是协方差系数矩阵。请注意，默认情况下在FactoMineR 中，PCA之前会自动标准化数据; 所以你不需要在PCA之前进行这种转换。

2.2 R代码

本部分主要介绍R语言FactoMineR进行PCA的常用代码，具体实例见下一章。

PCA(X, scale.unit = TRUE, ncp = 5, graph = TRUE)

X：数据框。行是个体，列是数字变量
scale.unit：一个逻辑值。如果为TRUE，则在分析之前将数据缩放为单位方差。这种相同规模的标准化避免了一些变量因其较大的测量单位而成为主导。它使变量具有可比性。
ncp：最终结果中保留的维数。
graph：一个逻辑值。如果为TRUE，则显示图表。

我们将使用factoextra R包来帮助解释PCA。无论你决定使用什么函数，你都可以轻松地提取和可视化PCA的结果使用factoextra R包中提供的R函数。这些功能包括：

get_eigenvalue(res.pca)：提取主成分的特征值/方差
fviz_eig(res.pca)：可视化特征值
get_pca_ind(res.pca)，get_pca_var(res.pca)：分别提取个体和变量的结果。
fviz_pca_ind(res.pca)，fviz_pca_var(res.pca)：分别可视化结果个体和变量。
fviz_pca_biplot(res.pca)：制作主成分分析散点图biplot图。

我们检查特征值以确定考虑的主成分的数量。可以使用函数get_eigenvalue提取主成分保留的特征值和方差（即信息）的比例。
eig.val <- get_eigenvalue(res.pca)
eig.val
一般打印结果如下：

##        eigenvalue variance.percent cumulative.variance.percent
## Dim.1       4.124            41.24                        41.2
## Dim.2       1.839            18.39                        59.6
## Dim.3       1.239            12.39                        72.0
## Dim.4       0.819             8.19                        80.2
## Dim.5       0.702             7.02                        87.2
## Dim.6       0.423             4.23                        91.5
## Dim.7       0.303             3.03                        94.5
## Dim.8       0.274             2.74                        97.2
## Dim.9       0.155             1.55                        98.8
## Dim.10      0.122             1.22                       100.0

每个特征值解释的变化比例在第二列中给出。例如，4.124除以10等于0.4124，或者，通过该第一特征值解释约41.24％的变化。解释的累积百分比是通过将所解释的变化的连续比例相加以获得运行总计来获得的。例如，41.242％加上18.385％等于59.627％，依此类推。因此，大约59.627％的变化由前两个特征值一起解释

可以使用函数fviz_eig()或fviz_screeplot() 生成scree图。结果如下：

scree图能够表示各个主成分贡献率，进而决定选择多少主成分。目前没有广为接受的客观方法来决定有多少主成分就足够了，这取决于具体的应用领域和具体的数据集。通过可以将主成分数量限制为占总方差的比例。例如上图，数据中包含的87％的信息（差异）由前五个主要组成部分保留，我们就选择前五个主成分。

3. 实例

变量分析
观测值分析
图表定制

3.1 变量分析

变量也就是样本的属性，在R语言中每列就是样本集的单个属性值。

3.1.1 变量基础作图

# 获得数据
library("FactoMineR")
library("factoextra")
data(decathlon2)
decathlon2.active <- decathlon2[1:23, 1:10]

# PCA计算
res.pca <- PCA(decathlon2.active, graph = FALSE)
# 提取变量的分析结果
var <- get_pca_var(res.pca)
var

Principal Component Analysis Results for variables
 ===================================================
  Name       Description                                    
1 "$coord"   "Coordinates for the variables"                
2 "$cor"     "Correlations between variables and dimensions"
3 "$cos2"    "Cos2 for the variables"                       
4 "$contrib" "contributions of the variables"

factoextra包自带了提取变量的分析结果get_pca_var函数，其中：

coord表示用于创建散点图的变量坐标。coord实际上就是成分载荷，指观测变量与主成分的相关系数
cor表示相关系数
cos2表示因子质量，var.cos2 = var.coord * var.coord
contrib表示包含变量对主成分的贡献(百分比)

接下来我们将介绍如何可视化这些变量并得出有关其相关性的结论。

相关曲线作图
一个变量和一个主成分之间的关系的代表着在PC坐标系里面该变量的坐标，对变量作图我们可以用fviz_pca_var函数。
这张图也可以称为变量相关图，它展示了变量组内包括和主成分之间的关系，正相关的变量是彼此靠近的，负相关的变量师南辕北辙的，而从中心点到变量的长度则代表着变量在这个维度所占的比例（也可以理解为质量，quality）。这个图根据coord获得。

# Coordinates of variables
head(var$coord, 4)
# col.var设定线条颜色
fviz_pca_var(res.pca, col.var = "black")

A matrix: 4 × 5 of type dbl
	Dim.1	Dim.2	Dim.3	Dim.4	Dim.5
X100m	-0.8506257	-0.17939806	0.3015564	0.0335732	-0.1944440
Long.jump	0.7941806	0.28085695	-0.1905465	-0.1153896	0.2331567
Shot.put	0.7339127	0.08540412	0.5175978	0.1284684	-0.2488129
High.jump	0.6100840	-0.46521415	0.3300852	0.1445501	0.4027002

代表质量作图
变量在PCA结果里面的质量（quality）称为cos2，可以使用corrplot包在所有维度上可视化变量的cos2。或者使用factoextra包的fviz_cos2()可视化，只是显示效果相比前种方法弱。

head(var$cos2)
library("corrplot")
# is.corr表示输入的矩阵不是相关系数矩阵
corrplot(var$cos2, is.corr=FALSE)

A matrix: 6 × 5 of type dbl
	Dim.1	Dim.2	Dim.3	Dim.4	Dim.5
X100m	0.7235641	0.0321836641	0.09093628	0.0011271597	0.03780845
Long.jump	0.6307229	0.0788806285	0.03630798	0.0133147506	0.05436203
Shot.put	0.5386279	0.0072938636	0.26790749	0.0165041211	0.06190783
High.jump	0.3722025	0.2164242070	0.10895622	0.0208947375	0.16216747
X400m	0.4922473	0.0842034209	0.08039091	0.1856106269	0.01079698
X110m.hurdle	0.5838873	0.0006121077	0.20149984	0.0002854712	0.05027463

corrplot 0.84 loaded

# Total cos2 of variables on Dim.1 and Dim.2
# 在第一第二主成分是显示结果（通过值的叠加显示）
fviz_cos2(res.pca, choice = "var", axes = 1:2)

一个较高的cos2值代表着这个变量对该主成分有较大的贡献值，这种情况下变量位于相关曲线图里面的靠近圆的边缘。
一个较低的cos2值代表着这个变量并没有很好的被主成分所代表，变量在相关曲线图里面就靠近圆心。
cos2值就是为了衡量一个变量的有用程度，越高就代表着这个变量在主成分分析里面越重要。
对于给定变量，所有主成分上的cos2之和等于1。

可以使用参数通过cos2值对变量进行着色col.var = “cos2”。这会产生渐变色。在这种情况下，参数gradient.cols可用于提供自定义颜色。例如，gradient.cols = c(“white”, “blue”, “red”)意味着：

具有低cos2值的变量将以“白色”着色
具有中等cos2值的变量将以“蓝色”着色
具有高cos2值的变量将以红色着色

# Color by cos2 values: quality on the factor map
fviz_pca_var(res.pca, col.var = "cos2",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), 
             repel = TRUE # Avoid text overlapping
             )

当然，我们也可以通过改变变量的透明度 alpha.var来说明其重要性：

# Change the transparency by cos2 values
fviz_pca_var(res.pca, alpha.var = "cos2")

变量对主成分的贡献作图
变量在计算给定主成分变异性时的贡献以百分比表示。与PC1（即Dim.1）和PC2（即Dim.2）相关的变量在解释数据集的可变性时是最重要的。
与任何PCA无关或与最后维度相关的变量是具有低贡献的变量，可能会被删除以简化整体分析。贡献值越大，变量对主成分的贡献越大。可以使用函数corrplot()[corrplot package]突出显示每个维度的最大贡献变量：

head(var$contrib, 4)
library("corrplot")
corrplot(var$contrib, is.corr=FALSE)

A matrix: 4 × 5 of type dbl
	Dim.1	Dim.2	Dim.3	Dim.4	Dim.5
X100m	17.544293	1.7505098	7.338659	0.1375524	5.389252
Long.jump	15.293168	4.2904162	2.930094	1.6248594	7.748815
Shot.put	13.060137	0.3967224	21.620432	2.0140727	8.824401
High.jump	9.024811	11.7715838	8.792888	2.5498795	23.115504

函数fviz_contrib()[factoextra包]可用于绘制可变贡献的条形图。如果您的数据包含许多变量，则可以决定仅显示最常见的变量。下面的R代码显示了主要组件的前10个变量：

# Contributions of variables to PC1
# 各变量对第一主成分的贡献
fviz_contrib(res.pca, choice = "var", axes = 1, top = 10)
# Contributions of variables to PC2
# 各变量对第二主成分的贡献
fviz_contrib(res.pca, choice = "var", axes = 2, top = 10)

使用以下R代码获得对PC1和PC2的总贡献。其中axes指示坐标，top指示画前多少个变量，红色虚线代表着平均贡献，高于平均值的可以被认为算是重要变量。如果变量的贡献是均匀的，则预期值将是1 /长度（变量）= 1/10 = 10％。对于给定的组件，贡献大于此截止值的变量可以被认为对组件的贡献很重要。

fviz_contrib(res.pca, choice = "var", axes = 1:2, top = 10)

但是注意给定变量的总贡献解释由两个主成分保留的变化，比如PC1和PC2不是简单的贡献率叠加，需要通过该公式计算得到contrib = [（C1 * Eig1）+（C2 * Eig2）] /（Eig1 + Eig2）。其中：

C1和C2分别是变量在PC1和PC2上的贡献
Eig1和Eig2分别是PC1和PC2的特征值。回想一下，特征值测量每个主成分保留的变化量。

在这种情况下，预期平均贡献（截止）计算如下：如上所述，如果10个变量的贡献是均匀的，则给定PC上的预期平均贡献将是1/10 = 10％。PC1和PC2变量的预期平均贡献为：[（10 * Eig1）+（10 * Eig2）] /（Eig1 + Eig2）。可以看出，变量 X100m，Long.jump和Pole.vault 对第一主成分和第二主成分2的贡献最大。
类似于cos2的显示，最重要的（或贡献的）变量可以在相关图中突出显示如下：

fviz_pca_var(res.pca, col.var = "contrib",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07")
             )

请注意，还可以使用选项根据其contrib值更改变量的透明度alpha.var = “contrib”。例如，键入以下内容：

# Change the transparency by contrib values
fviz_pca_var(res.pca, alpha.var = "contrib")

3.1.2 变量自定义作图

由自定义连续变量着色
在前面的部分中，我们展示了如何根据贡献和cos2对变量进行着色。请注意，可以通过任何自定义连续变量为变量着色。着色变量的长度应与PCA中的活动变量数相同（此处n = 10）。例如，键入以下内容：

# Create a random continuous variable of length 10
# 生成随机数
set.seed(123)
my.cont.var <- rnorm(10)
# Color variables by the continuous variable
# col.var设置颜色
# gradient.cols设置颜色渐变范围
fviz_pca_var(res.pca, col.var = my.cont.var,
             gradient.cols = c("blue", "yellow", "red"),
             legend.title = "Cont.Var")

按组确定颜色
也可以通过定性/分类变量定义的组来更改变量的颜色，也可以factor在R术语中调用。由于我们的数据集中没有任何分组变量用于分类变量，我们将创建它。在下面的演示示例中，我们首先使用kmeans聚类算法将变量分为3组。接下来，我们使用kmeans算法返回的聚类来着色变量.请注意，要更改组的颜色，应使用参数调色板。要更改渐变颜色，应使用参数gradient.cols。

# Create a grouping variable using kmeans
# Create 3 groups of variables (centers = 3)
set.seed(123)
# 进行聚类
# center聚类数量
res.km <- kmeans(var$coord, centers = 3, nstart = 25)
# 将向量编码为因子
grp <- as.factor(res.km$cluster)
# Color variables by groups
fviz_pca_var(res.pca, col.var = grp, 
             palette = c("#0073C2FF", "#EFC000FF", "#868686FF"),
             legend.title = "Cluster")

维度说明
对于维度描述可以通过dimdesc(函数[在FactoMineR中]用于标识具有给定主成分的最显着关联变量。在输出中，quant表示定量变量的结果。请注意，变量按相关性的p值排序。它可以用如下：

#proba用于表征维度的显着性阈值，
res.desc <- dimdesc(res.pca, axes = c(1,2), proba = 0.05)
# Description of dimension 1 第一主成分
res.desc$Dim.1

$quanti =

A matrix: 8 × 2 of type dbl correlationp.value Long.jump 0.79418066.059893e-06 Discus 0.74320904.842563e-05 Shot.put 0.73391276.723102e-05 High.jump 0.61008401.993677e-03 Javeline 0.42822664.149192e-02 X400m-0.70160341.910387e-04 X110m.hurdle-0.76412522.195812e-05 X100m-0.85062572.727129e-07

# 第二主成分
res.desc$Dim.2

$quanti =

A matrix: 3 × 2 of type dbl correlationp.value Pole.vault 0.80745113.205016e-06 X1500m 0.78448029.384747e-06 High.jump-0.46521422.529390e-02

3.2 观测值分析

观测值指的是样本集中单个样本数据，R语言中数据每一行代表一个样本

3.2.1 观测值基础作图

可以使用函数get_pca_ind()[ factoextra package] 提取个体的结果。与此类似get_pca_var()，该函数get_pca_ind()提供了一个包含个体所有结果的矩阵列表（坐标，相关性，cos2和贡献率）

ind <- get_pca_ind(res.pca)
ind

Principal Component Analysis Results for individuals
 ===================================================
  Name       Description                       
1 "$coord"   "Coordinates for the individuals" 
2 "$cos2"    "Cos2 for the individuals"        
3 "$contrib" "contributions of the individuals"

fviz_pca_ind()用于产生观测值的曲线图。要创建简单的图，请键入：

fviz_pca_ind(res.pca)

与变量一样，也可以通过cos2值为观测值着色：

# Quality of individuals
head(ind$cos2)
# repel=TRUE能够避免部分重合的点重叠
fviz_pca_ind(res.pca, col.ind = "cos2", 
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE # Avoid text overlapping (slow if many points)
             )

A matrix: 6 × 5 of type dbl
	Dim.1	Dim.2	Dim.3	Dim.4	Dim.5
SEBRLE	0.007530179	0.49747323	0.081325232	0.001386688	0.2689026575
CLAY	0.048701249	0.45701660	0.143628117	0.125791741	0.0507850580
BERNARD	0.197199804	0.28996555	0.004294015	0.411819183	0.0007567259
YURKOV	0.096109800	0.02382571	0.778230322	0.061812637	0.0202279796
ZSIVOCZKY	0.001574385	0.57641944	0.239754152	0.001388216	0.0054654972
McMULLEN	0.002175437	0.15219499	0.110137872	0.266486530	0.3892621478

你还可以通过pointsize和gradient.cols改变点的大小和颜色

fviz_pca_ind(res.pca, col.ind = "cos2", pointsize = "cos2",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE # Avoid text overlapping (slow if many points)
             )

要在图上创建观测量表示cos2的条形图，您可以使用fviz_cos2()前面描述的变量函数，通过choice选择类型，变量是var，观测量是ind

fviz_cos2(res.pca, choice = "ind")

要想描绘观测量对前两个主要组成部分的贡献，请键入：

# Total contribution on PC1 and PC2
fviz_contrib(res.pca, choice = "ind", axes = 1:2)

3.2.2 观测值自定义作图

在这里，我们描述了如何按组对观测量进行着色。此外，我们将展示如何按组添加浓度椭圆和置信椭圆。为此，我们将使iris数据作为演示数据集。iris数据集如下所示：

head(iris, 3)

A data.frame: 3 × 5
Sepal.Length	Sepal.Width	Petal.Length	Petal.Width	Species

5.1	3.5	1.4	0.2	setosa
4.9	3.0	1.4	0.2	setosa
4.7	3.2	1.3	0.2	setosa

iris数据集包含150个数据样本，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。“Species”列将用作分组变量。我们首先计算主成分分析如下：

# The variable Species (index = 5) is removed before PCA analysis
# 第5列不进行PCA运算
iris.pca <- PCA(iris[,-5], graph = FALSE)

在下面的R代码中：参数habillage或col.ind可用于指定因子变量以按组着色个体。要在每个组周围添加集中椭圆，请指定参数addEllipses = TRUE。该参数palette可用于更改组颜色。要删除组平均点（组的重心），请指定参数mean.point = FALSE。如果你想要置信椭圆而不是集中椭圆，请使用ellipse.type =“confidence”。置信椭圆是对置信区域的描述，浓度椭圆是对点分布的描述。置信椭圆的算法复杂，背后有很多繁杂的数学原理。置信椭圆的长短半轴，分别表示二维位置坐标分量的标准差（如经度的σλ和纬度的σφ）。一倍标准差（1σ）的概率值是68.3%，二倍标准差（2σ）的概率值为95.5%；三倍标准差（3σ）的概率值是99.7%。

fviz_pca_ind(iris.pca,
             # show points only (nbut not "text") 只显示点而不显示文本，默认都显示
             geom.ind = "point", 
             # 设定分类种类
             col.ind = iris$Species,
             # 设定颜色
             palette = c("#00AFBB", "#E7B800", "#FC4E07"),
             # 添加椭圆 Concentration ellipses
             addEllipses = TRUE,
             legend.title = "Groups",
             )

请注意，调色板的允许值包括：

灰色调色板的“grey”;
brewer调色板例如“RdBu”，“Blues”，…; 要查看全部，请在R：中键入RColorBrewer::display.brewer.all()。
自定义调色板，例如c（“蓝色”，“红色”）;
科学期刊调色板（来自ggsci R package），例如：“npg”，“aaas”，“lancet”，“jco”，“ucscgb”，“uchicago”，“simpsons”和“rickandmorty”。这些"npg"，"jco"都是杂志或者出版集团的缩写，具体搜索就行。

例如，要使用jco（临床肿瘤学杂志）调色板，请输入以下内容：

fviz_pca_ind(iris.pca,
             label = "none", # hide individual labels
             habillage = iris$Species, # color by groups
             addEllipses = TRUE, # Concentration ellipses
             palette = "jco"
             )

3.3 图表定制

注意，fviz_pca_ind()和fviz_pca_var()相关的函数是核心函数的包装fviz()[在factoextra ]。fviz（）是函数ggscatter()[在ggpubr]中的包装器。因此，可以在fviz_pca_ind（）和fviz_pca_var（）中指定要传递给函数fviz（）和ggscatter（）的其他参数。在这里，我们提供了一些额外的参数来定制变量和观测量的PCA图。

3.3.1 基础要素

维度
默认情况下，变量/观测量在主成分1和2上表示。例如，如果要在主成分2和3上可视化它们，则应指定参数axes = c(2, 3)。

# Variables on dimensions 2 and 3
fviz_pca_var(res.pca, axes = c(2, 3))
# Individuals on dimensions 2 and 3
fviz_pca_ind(res.pca, axes = c(2, 3))

绘图元素：点，文本，箭头
参数geom（对于几何）和导数用于指定要用于绘图的几何元素或图形元素。

geom.var：一个文本，指定用于绘制变量的几何参数。允许值是c（“点”，“箭头”，“文本”）的组合。
- 使用geom.var = “point”，仅显示点；
- 用于geom.var = "text"仅显示文本标签；
- 使用geom.var = c(“point”, “text”)同时显示点和文字标签；
- 使用geom.var = c(“arrow”, “text”)显示箭头和标签（默认）。

例如，键入以下内容：

# Show variable points and text labels
fviz_pca_var(res.pca, geom.var = c("point", "text"))

geom.ind：一个文本，指定用于绘制观测值的几何体。允许值是c(“point”, “text”)的组合。
- 使用geom.ind = “point”，仅显示点;
- 用于geom.ind = "text"仅显示文本标签;
- 使用geom.ind = c(“point”, “text”)同时显示点和文本标签（默认)。

例如，键入以下内容：

# Show individuals text labels only
fviz_pca_ind(res.pca, geom.ind =  "text")

绘图元素的大小和形状

labelsize：文本标签的字体大小，例如：labelsize = 4。
pointsize：点的大小，例如：pointsize = 1.5。
arrowsize：箭头的大小。控制箭头的粗细，例如：arrowsize = 0.5。
pointshape：点的形状，pointshape = 21。键入ggpubr::show_point_shapes()以查看可用的点形。

具体例子如下：

# Change the size of arrows an labels
fviz_pca_var(res.pca, arrowsize = 1, labelsize = 5, 
             repel = TRUE)
# Change points size, shape and fill color
# Change labelsize
fviz_pca_ind(res.pca, 
             pointsize = 3, pointshape = 21, fill = "lightblue",
             labelsize = 5, repel = TRUE)

椭圆的添加
正如我们在上一节中所描述的，当按组着色观测值时，可以使用参数添加点集中椭圆addEllipses = TRUE。请注意，该参数ellipse.type可用于更改省略号的类型。可能的值是：

“convex”：绘制一组凸包。
“confidence”：将组平均点周围的置信椭圆作为函数coord.ellipse()[在FactoMineR中]。
“t”：假设多变量t分布。
“norm”：假设多元正态分布。
“euclid”：绘制一个半径等于水平的圆圈，表示距离中心的欧氏距离。除非coord_fixed()应用，否则此椭圆可能不会显示为圆形。

该参数ellipse.level也可用于以正常概率改变浓集中椭圆的大小。例如，指定ellipse.level = 0.95或ellipse.level = 0.66。具体例子如下：

# Add confidence ellipses
fviz_pca_ind(iris.pca, geom.ind = "point", 
             # 使用iris数据集
             col.ind = iris$Species, # color by groups
             palette = c("#00AFBB", "#E7B800", "#FC4E07"),
             addEllipses = TRUE, ellipse.type = "confidence",
             legend.title = "Groups"
             )
# Convex hull
fviz_pca_ind(iris.pca, geom.ind = "point",
             col.ind = iris$Species, # color by groups
             palette = c("#00AFBB", "#E7B800", "#FC4E07"),
             # 用凸包多边形代替椭圆
             addEllipses = TRUE, ellipse.type = "convex",
             legend.title = "Groups"
             )

轴线
该参数axes.linetype可用于指定轴的线型。默认为“虚线”。允许的值包括“blank”,“solid”, “dotted”等。要查看所有可能的值，请ggpubr::show_line_types()在R中键入。要删除轴线，请使用axes.linetype =“blank”.具体使用如下：

fviz_pca_var(res.pca, axes.linetype = "dotted")

图形参数
要轻松更改任何ggplots的图形，可以使用函数ggpar[ggpubr package]。可以使用ggpar（）更改的图形参数包括：

主要标题，轴标签和图例标题
标题位置。可能的值：“top”，“bottom”，“left”，“right”，“none”。
调色板。
主题。允许的值包括：theme_gray（），theme_bw（），theme_minimal（），theme_classic（），theme_void（）。

具体使用如下：

ind.p <- fviz_pca_ind(iris.pca, geom = "point", col.ind = iris$Species)
ggpubr::ggpar(ind.p,
              title = "Principal Component Analysis",
              # 下标题
              subtitle = "Iris data set",
              # 说明
              caption = "Source: factoextra",
              # x,y轴标题
              xlab = "PC1", ylab = "PC2",
              # 标题名字位置
              legend.title = "Species", legend.position = "top",
              # 主题和配设
              ggtheme = theme_gray(), palette = "jco"
              )

Biplot
Biplot为主成分分析双标图。注意biplot图可能仅在数据集中存在少量变量和观测量时才有用; 否则最终的情节将无法辨认。另请注意，观察值和变量的坐标不是在同一空间上构建的。因此，在biplot图中，您应该主要关注变量的方向，而不是它们在图上的绝对位置。粗略地说：biplot展示了两方面内容：

根据前两个主成分，每个观测的得分；
根据前两个主成分，每个变量的载荷。

其具体说明意义如下：

向量在横坐标的投影就是对主成分2的载荷（系数），在纵坐标的投影就是对主成分1的载荷。（具体轴对应哪个变量看轴名）。但是这些都是近似，因为坐标轴有所不同；
点代表的是观测值，点之间的距离，反映它们对应的样本之间的差异大小，两点相距较远，对应样本差异大；两点相距较近，对应样本差异小，存在相似性；
两向量余弦值的绝对值大小反映两向量间的相关性大小，值越大表明两个向量对应的属性之间相关性越高。当两个向量近似垂直时，两个属性之间相关性很弱，几乎互不影响。

详细解释见：

https://stats.stackexchange.com/questions/2038/interpretation-of-biplots-in-principal-components-analysis
https://blog.bioturing.com/2018/06/18/how-to-read-pca-biplots-and-scree-plots/

要制作观测量和变量的biplot.请键入：

fviz_pca_biplot(res.pca, repel = TRUE,
                col.var = "#2E9FDF", # Variables color
                col.ind = "#696969"  # Individuals color
                )

现在，使用iris.pca输出，让我们：

制作观测量和变量的双重图
按组更改观测量颜色：col.ind = iris $ Species
仅显示变量的标签：label = "var"或使用geom.ind = “point”

fviz_pca_biplot(iris.pca, 
                # 观测量颜色
                col.ind = iris$Species, palette = "jco", 
                # 添加椭圆
                addEllipses = TRUE, label = "var",
                # 线条颜色
                col.var = "black", repel = TRUE,
                legend.title = "Species")

在下面的示例中，我们希望按组为观测量和变量着色。诀窍是对各个观测点使用pointshape = 21。可以使用参数fill.ind通过颜色填充此特定点形状。使用 col.inds设置各个点的边框线颜色设置为“black”。使用参数col.var按组对变量着色。要自定义个体和变量颜色，我们使用辅助函数fill_palette()和color_palette()[在ggpubr包中]

fviz_pca_biplot(iris.pca, 
                # Fill individuals by groups
                geom.ind = "point",
                # 点的形状
                pointshape = 21,
                # 点的大小
                pointsize = 2.5,
                # 按照组类特定形状
                fill.ind = iris$Species,
                col.ind = "black",
                # Color variable by groups
                # 颜色
                col.var = factor(c("sepal", "sepal", "petal", "petal")),
                # 标题
                legend.title = list(fill = "Species", color = "Clusters"),
                repel = TRUE        # Avoid label overplotting
             )+
  ggpubr::fill_palette("jco")+      # Indiviual fill color
  ggpubr::color_palette("npg")      # Variable colors

另一个复杂的例子是按组（离散颜色）和变量对主要成分（渐变颜色）的贡献对个体进行着色。另外，我们将使用参数alpha.var通过贡献率来改变变量的透明度。

fviz_pca_biplot(iris.pca, 
                # Individuals
                geom.ind = "point",
                fill.ind = iris$Species, col.ind = "black",
                pointshape = 21, pointsize = 2,
                palette = "jco",
                addEllipses = TRUE,
                # Variables
                alpha.var ="contrib", col.var = "contrib",
                gradient.cols = "RdYlBu",
                
                legend.title = list(fill = "Species", color = "Contrib",
                                    alpha = "Contrib")
                )

过滤结果
如果您有许多个体/变量，则可以使用参数select.ind和select.var仅显示其中一些观测量/变量。select.ind, select.var:选择要绘制的个体/变量。允许的值为NULL或包含参数name，cos2或contrib 的列表：

name：是一个包含要绘制的个体/变量名称的字符向量；
cos2：如果cos2在[0,1]中，例如：0.6，则绘制cos2> 0.6的观测量/变量；
if cos2 > 1，例如：5，然后绘制具有最高cos2的前5个活动观测量/变量；
contrib：如果contrib> 1，例如：5，则绘制具有最高贡献的前5个观测量/变量。

具体使用如下：

# Visualize variable with cos2 >= 0.6
# 可视化cos2>0.6
fviz_pca_var(res.pca, select.var = list(cos2 = 0.6))

# Select by names
# 根据名字显示
name <- list(name = c("Long.jump", "High.jump", "X100m"))
fviz_pca_var(res.pca, select.var = name)

# 根据前五贡献
# top 5 contributing individuals and variable
fviz_pca_biplot(res.pca, select.ind = list(contrib = 5), 
               select.var = list(contrib = 5),
               ggtheme = theme_minimal())

3.3.2 导出结果

将图表导出为PDF / PNG文件
该factoextra包生成基于ggplot2的图形。要保存任何ggplots，标准R代码如下：

pdf("myplot.pdf")
print(myplot)
dev.off()

在以下示例中，我们将向您展示如何将不同的图表保存为pdf或png文件。

创建您想要的图作为R对象：

# Scree plot
scree.plot <- fviz_eig(res.pca)
# Plot of individuals
ind.plot <- fviz_pca_ind(res.pca)
# Plot of variables
var.plot <- fviz_pca_var(res.pca)

将这些图导出为单个pdf文件，放入同一个pdf文件：

# Create a new pdf device 创建新的pdf文件
pdf("PCA.pdf") 
print(scree.plot)
print(ind.plot)
print(var.plot)
# Close the pdf device 关闭文件
dev.off()

要将每个绘图打印到特定的png文件，R代码如下所示：

# Scree plot
scree.plot <- fviz_eig(res.pca)
# Plot of individuals
ind.plot <- fviz_pca_ind(res.pca)
# Plot of variables
var.plot <- fviz_pca_var(res.pca)

将结果导出到txt / csv文件
PCA的所有输出（个体/变量坐标，贡献等）可以使用函数write.infile()[在FactoMineR ]包中一次导出到TXT / CSV文件中：

# Export into a TXT file
write.infile(res.pca, "pca.txt", sep = "\t")
# Export into a CSV file
write.infile(res.pca, "pca.csv", sep = ";")

4. 总结

本文我们描述了如何执行和解释主成分分析（PCA）。我们使用PCA（）函数[FactoMineR] 计算PCA 。接下来，我们使用factoextra R包来生成基于ggplot2的PCA结果可视化。无论你决定使用什么函数，在上面的列表中，factoextra包可以处理输出以创建漂亮的图，类似于我们在FactoMineR的前面部分中描述的三个函数：

fviz_eig(res.pca)     # Scree plot
fviz_pca_ind(res.pca) # Graph of individuals
fviz_pca_var(res.pca) # Graph of variables

当然R语言还有其他PCA函数具体见：

PCA使用prcomp和princomp
PCA使用ade4和factoextr

本文主要参考文档有：

http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide/112-pca-principal-component-analysis-essentials
https://blog.csdn.net/u012845311/article/details/69943793#t3
https://blog.csdn.net/LuohenYJ/article/details/78355954

你可能感兴趣的:(R,常用工具,数据分析与可视化)

joint_info smpl AI算法网奇 python基础计算机视觉人工智能
生成代码：出处：https://github.com/DART-Lab-LLUI/Metrabs_PoseEstimationdefget_joint_info():joint_names_smpl=('pelv,lhip,rhip,bell,lkne,rkne,spin,lank,rank,thor,ltoe,rtoe,neck,lcla,rcla,head,lsho,''rsho,lelb,r
商城项目秒杀通过Redisson设置信号量和秒杀随机码的设计保证秒杀业务稳定-----商城项目旧约Alatus 电商项目 #Spring-Boot框架 #Spring-Cloud框架 spring boot 分布式 spring spring cloud 后端微服务 jvm
packagecom.alatus.mall.seckill.service.impl;importcom.alatus.common.utils.R;importcom.alatus.mall.seckill.constant.SecKillConstants;importcom.alatus.mall.seckill.feign.CouponFeignService;importcom.ala
【大语言模型_3】ollama本地加载deepseek模型后回答混乱问题解决没枕头我咋睡觉大语言模型语言模型人工智能自然语言处理
背景：本地下载了DeepSeek-R1-Distill-Qwen-7B模型后，通过ollamacreateDeepSeek-R1-Distill-Qwen-7B-fds7b.mf加载模型启动后回答混乱，无法使用。解决方法重新下载模型，选择了DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf重新编写ds7b.mf文件，文件内容如下：FROM/root/zml/DeepSe
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
OpenAI揭示o3的推理过程，以弥合与DeepSeek-R1的差距 c++服务器开发人工智能 deepseek
生成式人工智能开发商OpenAI公司首席执行官SamAltman最近在RedditAMA问答活动中承认，该公司在开源软件研究方面站在了“历史错误的一边”。尽管OpenAI公司尚未发布其开源模型，但已经迈出了提高透明度的第一步。正如该公司在其X帐号上所宣布的那样，其最新的推理模型o3-mini现在展示了其思维链（CoT）跟踪的更详细版本。此前，OpenAI公司的推理模型仅展示了CoT的高级概述，这使
教你本地复现Deep Research：DeepSeek R1+ LangChain+Milvus 大模型入门教程 langchain 人工智能大模型学习大模型 DeepSeek AI大模型大模型教程
金融机构、律所、科研党的福音来了！不久前，OpenAI新推出了一项名叫DeepResearch（深度研究）的功能，迅速风靡全球。我们可以将其理解为大模型+超级搜索+研究助理的三合一。在这项功能里，用户输入查询问题后，只需要选择DeepResearch选项，OpenAIo3就能自动查找分析数百优质在线资源，并对其进行综合整理并加工，为用户生成一份具备专业分析师水准的综合报告。不仅内容生成更加详实，而
windows系统不弹出用户控制中心今天吃了嘛o windows
解决电脑频繁弹出用户账户控制的方法！是不是每次打开电脑都看到那个烦人的用户账户控制弹窗？1️⃣首先，按下Win+R键，打开运行窗口，输入“msconfig”并按下回车。2️⃣接下来，切换到“工具”选项卡，找到“更改UAC设置”，然后点击“启动”。3️⃣在弹出的用户账户控制设置对话框中，选择“为从不通知”，然后点击确定。
uni.request 发起网络请求3种回调结果调用治金的blog 前端 uni-app
第一种标题：{{item.title}}内容：{{item.body}}import{ref}from'vue';letarrs=ref([]);//uni.request请求的三种方式functionrequest(){uni.request({url:"https://jsonplaceholder.typicode.com/posts",success:res=>{console.log(r
一文读懂MUSIC算法DOA估计的数学原理并仿真迎风打盹儿阵列信号处理 MUSIC算法 DOA估计阵列信号处理信号子空间噪声子空间
一文读懂MUSIC算法DOA估计的数学原理并仿真文章目录前言一、DOA估计基本原理二、MATLAB仿真总结前言MUSIC（MultipleSignalClassification）算法于1979年由R.O.Schmidt提出，是阵列信号处理中广泛应用的经典DOA（DirectionofArrival）估计算法，凭借其超分辨的估计性能受到广泛关注。本文将从数学公式推导的角度出发系统阐述MUSIC算法
Docker 部署AnythingLLM 炫爱小七 docker 容器 ai
两个指令搞定1.下载镜像dockerpullmintplexlabs/anythingllm2.运行容器exportSTORAGE_LOCATION=$HOME/anythingllmmkdir-p$STORAGE_LOCATIONchmod-R777$STORAGE_LOCATIONtouch"$STORAGE_LOCATION/.env"dockerrun-d-p3001:3001\--cap
华为昇腾服务器部署DeepSeek模型实战 gzroy 人工智能语言模型
在华为的昇腾服务器上部署了DeepSeekR1的模型进行验证测试，记录一下相关的过程。服务器是配置了8块910B3的显卡，每块显卡有64GB显存，根据DeepSeekR1各个模型的参数计算，如果部署R1的Qwen14B版本，需要1张显卡，如果是32B版本，需要2张，Llama70B的模型需要4张显卡。如果是R1全参数版本，则需要32张显卡，也就是4台满配的昇腾服务器。这里先选择32B的模型进行部署
34、深度学习-自学之路-深入理解-NLP自然语言处理-RNN一个简单的程序，可以从程序中理解RNN的基本思想。小宇爱深度学习-自学之路深度学习自然语言处理 rnn
importsys,random,mathfromcollectionsimportCounterimportnumpyasnpf=open('tasks_1-20_v1/en/qa1_single-supporting-fact_train.txt','r')raw=f.readlines()f.close()tokens=list()forlineinraw[0:1000]:tokens.ap
DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清... 雪停时偶遇一叶春流程图
合集-人工智能(5)1.如何改进AI模型在特定环境中的知识检索2024-09-242.深度学习与统计学中的时间序列预测2024-10-033.《使用coze搭建一个会搜索、写ppt、思维导图的Agent》2024-10-294.深入浅出：Agent如何调用工具——从OpenAIFunctionCall到CrewAI框架01-145.DeepSeek-R1技术全景解析：从原理到实践的“炼金术配方”—
centos操作系统安装R包单细胞拟时序分析CytoTRACE2 探序基因 centos linux 运维
探序基因肿瘤研究院整理作者操作系统为centosstream8，R版本为4.3.3devtools::install_github("digitalcytometry/cytotrace2",subdir="cytotrace2_r")中途出现错误：*installing*source*package‘RcppGSL’...**成功将‘RcppGSL’程序包解包并MD5和检查**usingstag
2025年2月9日（数据分析_2） Mason Lin Python学习数据分析数据挖掘
散点图frommatplotlibimportpyplotaspltfrommatplotlibimportfont_manager#字体相关#字体font_path=r"C:\Windows\Fonts\msyh.ttc"my_font=font_manager.FontProperties(fname=font_path)x=list(range(31))x2=list(range(31,62
Ubuntu终端常用快捷键总结机器人那些事儿开发环境 ubuntu
基本导航快捷键：Ctrl+A：将光标移到行首Ctrl+E：将光标移到行尾Ctrl+U：删除光标前的所有字符Ctrl+K：删除光标后的所有字符Ctrl+L：清屏（相当于执行clear命令）编辑命令行：Ctrl+W：删除光标前的一个单词Ctrl+Y：粘贴之前使用Ctrl+U或Ctrl+K删除的文本Ctrl+_：撤销上一步的操作历史命令：Ctrl+R：逆向搜索历史命令Ctrl+G：退出历史命令搜索模式C
Python数据分析与可视化程序媛小果 python python 数据分析开发语言
Python数据分析与可视化在数据驱动的商业世界中，数据分析和可视化成为了理解复杂数据集、做出明智决策的关键工具。Python，作为一种功能强大且易于学习的编程语言，提供了丰富的库和框架，使得数据分析和可视化变得简单高效。本文将探讨Python在数据分析和可视化中的应用，包括数据预处理、分析、以及如何通过可视化工具将数据洞察转化为可操作的策略。1.数据分析的重要性数据分析是提取数据中有用信息的过程
【数据分析】通过个体和遗址层面的遗传相关性网络分析生信学习者1 数据分析数据分析数据挖掘 r语言数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍原理应用场景加载R包数据下载函数个体层面的遗传相关性网络分析导入数据数据预处理构建遗传相关性的个体网络对个体网络Nij进行可视化评估和选择最佳模型评估和选择最佳模型最佳模型进行总结拟合优度检验遗址层面的遗传相关性网络分析导入数据数据预处理构建遗址之间的遗传相关性网络可视化图条件边预测与模型评估总结系统信息介绍个
大模型（含deepseek r1）本地部署利器ollama的API操作指南人工智能llm
ollama介绍：Ollama是一个开源的大型语言模型（LLM）平台，旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。它支持多种预训练的大型语言模型（如LLaMA2、Mistral、Gemma、DeepSeek等），并提供了一个简单高效的方式来加载和使用这些模型。出现Error:somethingwentwrong,pleaseseetheollamaserverlogsfordet
【系统设计】忘记MySQL密码，应该如何重置红烧白开水。 mysql 数据库开发语言数据关系型数据库密码重置
如果在电脑上安装的MySQL数据库忘记了密码，可以通过以下步骤重置密码。具体操作因操作系统和MySQL版本略有不同，但总体流程类似：步骤1：停止MySQL服务首先需要停止正在运行的MySQL服务。Linux/macOSsudosystemctlstopmysql#或sudoservicemysqlstopWindows按Win+R，输入services.msc并回车。找到MySQL服务，右键选择停
《DeepSeek-R1 vs ChatGPT-4：AI大模型“王座争夺战”的终极拆解报告》 Athena-H LLM 人工智能 gpt chatgpt ai
引言：大模型时代的双雄博弈在生成式AI爆发式迭代的今天，DeepSeek-R1与ChatGPT-4分别以“中国智造新锐”与“全球标杆王者”的身份，掀起技术路线与应用生态的激烈碰撞。本文从架构设计、场景适配、性能极限三大维度，揭示两大模型的真实战力图谱。一、核心技术架构：差异化路线对决对比维度DeepSeek-R1ChatGPT-4模型架构多模态混合专家模型（MoE+Transformer）纯Dec
文件与目录操作函数详解归零 dddd c语言 linux 算法
在编程中，文件和目录操作是常见的任务。本文将详细讲解常用的文件操作函数和目录操作函数，包括其功能、参数、使用方法，并通过示例代码展示如何用这些函数实现常见的操作。文件操作函数1.1fopen()函数功能：打开或创建文件。参数：constchar*pathname：文件名。constchar*mode：文件操作模式。常见的模式有："r"：只读模式，文件必须存在。"w"：只写模式，文件不存在则创建，存
idea快捷键 yiqi_perss 日常 intellij-idea java ide
idea快捷键ctrl+`可以切换界面CTRL快捷键介绍Ctrl+`切换界面Ctrl+E打开最近访问的文件Ctrl+shift+e打开你最近编辑的文本Ctrl+R在当前文件进行文本替换（必备）Ctrl+F在当前文件进行文本查找（必备）Ctrl+Z撤销（必备）Ctrl+Y删除光标所在行或删除选中的行（必备）Ctrl+X剪切光标所在行或剪切选择内容Ctrl+C复制光标所在行或复制选择内容Ctrl+D复
1002:方便记忆的电话号码努力的小Qin
1002:方便记忆的电话号总时间限制:2000ms内存限制:65536kB描述英文字母（除Q和Z外）和电话号码存在着对应关系，如下所示：A,B,C->2D,E,F->3G,H,I->4J,K,L->5M,N,O->6P,R,S->7T,U,V->8W,X,Y->9标准的电话号码格式是xxx-xxxx，其中x表示0-9中的一个数字。有时为了方便记忆电话号码，我们会将电话号码的数字转变为英文字母，如把
vue3+vite 自动引入export default的包大橙子- vue.js 前端
importautoImportfrom'unplugin-auto-import/vite';exportdefaultdefineConfig({plugins:[vue(),vueJsx(),autoImport({imports:['vue','vue-router','pinia',{//相当于importuseRouterStackStorefrom'@/store/modules/r
零基础学Python图片处理：用Pillow库轻松玩转修图小彭爱学习 python python pillow python处理图片
零基础学Python图片处理：用Pillow库轻松玩转修图一、初识Pillow：你的第一张数码暗房安装准备（只需要1分钟）打开电脑的命令行（Windows按Win+R输入cmd，Mac打开终端），输入：pipinstallpillow看到「SuccessfullyinstalledPillow-x.x.x」就安装成功啦！图片处理四步走打开图片：像打开文件柜一样找到图片修改图片：裁剪、调色、加特效查
ansible部署ceph 时空无限 ceph ansible ceph linux
前言：ceph的官网有坑。按照官网部署，不会一蹴而就。会遇到各种各样的问题，ceph文档有待改进。环境操作系统cat/etc/redhat-releaseCentOSLinuxrelease8.5.2111uname-r4.18.0-80.el8.x86_64主机名三台主机，其中node-01为部署机器和ceph的其中一个节点。node-01node-02node-03网卡和ip每台主机双网卡en
本地运行 DeepSeek-R1 的成本究竟多高？前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读本地运行DeepSeek-R1的成本究竟多高？DeepSeek让人们对大规模生成式模型的追求更进一步，甚至有人想在本地跑下规模高达671B参数的版本。但要在家里开这种“巨无霸”，可不是闹着玩的：光是推理就对硬件提出了非常高的要求。这篇文章将大致拆解一下，如果真想在个人电脑上运行DeepSeek-R1，可能需
R语言中的函数32：seq_along() zoujiahui_2018 #R语言中的函数 r语言开发语言
介绍seq_along函数在R语言中用于生成一个整数序列，其长度与给定对象的长度相同。这个函数特别有用，当你想要创建一个索引序列来遍历一个向量或列表时。用法seq_along(x)参数x:任何R对象（如向量、列表等）。返回值:返回一个从1到x的长度的整数序列。示例#创建一个向量vec<-c("a","b","c")#使用seq_along生成索引indices<-seq_along(vec)pri
IPoIB 接收数据流程分析 109702008 编程 #C语言网络人工智能 linux 网络
1.引言IPoIB（InfiniBandoverIP）是一种将InfiniBand协议封装在IP网络中的技术，允许通过标准的以太网基础设施传输InfiniBand数据。本文将详细分析IPoIB驱动程序中接收数据的处理流程，重点关注关键函数的实现和数据处理的关键步骤。2.网络设备操作结构体staticconststructnet_device_opsipoib_netdev_default_pf_r
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那