xia ge tou lia

多元统计分析——数据降维——因子分析（FA）

一、因子分析简介

1、定义

1904年，英国心理学家CharlesSpearman研究了33名学生在古典语、法语和英语三门成绩，三门成绩的相关性系数如下：

三门成绩的高度相关会不会是由于它们三个成绩的背后有一个共同的因素，来决定这三门成绩的？比如语言能力？

对于个原始变量 $Y_{1},...,Y_{p}$ 来说，那些高度相关的变量很可能会遵循一个共同的潜在结构——或可称之为公共因子 (Common factor） 。简单的说就是：公共因子是用一个共同的因素来刻画几个高度相关的变量。

然而，这些“公共因子”通常是无法观测的，故称为潜变量 (latentvariables)。这在心理学、社会学及行为科学等学科中非常常见，比如
“智力”和“社会阶层”。

因子分析（Factor analysis）旨在提出因子模型（Factor model）来研究如何用几个公共因子，记作 $F_{1},...,F_{m}$ ，通常，来刻画原始变量之间的相关性。

2、正交因子模型

Charles Spearman基于学生3门语言成绩的数据提出了单因子模型（Single factor model）：

$Y_{1}=l_{1}F+\varepsilon _{1}$

$Y_{2}=l_{2}F+\varepsilon _{2}$

$Y_{3}=l_{3}F+\varepsilon _{3}$

其中代表公共因子（Common factor）， $\varepsilon _{j}$ 代表特殊因子（Specific factor），即代表 $Y_{j}$ 的特殊部分； $l_{j}$ 代表系数/载荷（Loading），即来说明公共因子对 $Y_{j}$ 的解释力。

当然，大多数时候一个公共因子是不够的，错综复杂的变量可能需要多个公共因子刻画，这就是我们将要学习的正交因子模型（Orthogonal factor model）

假设可观测随机向量 $y=(Y_1,...,Y_{p})'$ 的均值为 $\mu$ ，协方差矩阵为 $\Sigma$ 。正交因子模型假定线性依赖于个不可观测公共因子 $f=(F_{1},...,F_{m})'$ 和个不可观测的特殊因子 (specific factors) $\varepsilon =(\varepsilon _{1},...,\varepsilon _{p})'$ ，通常：

$Y_{1}-\mu _{1}=l_{11}F_{1}+l_{12}F_{2}+..+l_{1m}F_{m}+\varepsilon _{1}$

$Y_{2}-\mu _{2}=l_{21}F_{1}+l_{22}F_{2}+..+l_{2m}F_{m}+\varepsilon _{2}$

$Y_{p}-\mu _{p}=l_{p1}F_{1}+l_{p2}F_{2}+..+l_{pm}F_{m}+\varepsilon _{p}$

系数 $l_{jk}$ 称为第个变量在第个因子上的载荷(loading)，体现了该公共因子对此变量的解释力。

使用矩阵记号，上述模型可写为

$y_{p\times 1}-\mu _{p\times 1}=L_{p\times m}f_{m\times 1}+\varepsilon _{p\times 1}$ ，其中 $L_{p\times m}$ 即称作载荷矩阵(loading matrix)。

我们知道公共因子是虚拟的，不可观测的，所以理论上，我们可以给其任意的假设，为了分析方便，我们给它一种最简单的假设，其中和 $\varepsilon$ 假设满足：

① $E(f)=0_{m\times 1},COV(f)=E(ff')=I_{m\times m}$ （单位阵，即假设是正交的， $F_{j}$ 的方差假设为1， $F_{j}$ 和 $F_{k}(j\neq k)$ 之间假设是不相关的)

② $E(\varepsilon )=0_{p\times 1},COV(\varepsilon )=E(\varepsilon \varepsilon ')=\Psi _{p\times p}=\begin{bmatrix} \Psi _{1} & 0 & ... & 0\\ 0 & \Psi _{1} & ... & 0\\ . & . & & .\\ . &. & &. \\ 0& 0 & 0 & \Psi _{p} \end{bmatrix}$ （对角阵）

③而且和 $\varepsilon$ 是无关的： $COV(\varepsilon ,f)=0_{p\times m}$

有了这些假设，我们就可以回头来看，载荷矩阵到底是如何解释原始变量和公共因子的关系的？

已知模型如下：

矩阵形式模型： $y-\mu=Lf+\varepsilon$

元素形式模型： $Y_{j}-\mu _{j}=l_{j1}F_{1}+l_{j2}F_{2}+..+l_{jm}F_{m}+\varepsilon _{j},j=1,...,p$

我们可以计算原始变量和公共因子的协方差矩阵：

综上，我们得到结论：，即刻画的是和之间的协方差，因此载荷 $l_{jk}$ 测度了第个变量与第个公共因子之间的关联 $cov(Y_{j},F_{k})=l_{jk}$ 。

原始变量的协方差矩阵

其中 $\Sigma$ 中每一个对角线元素

$\begin{align}\sigma _{jj}=var(Y_{j}) &=var(l_{j1}F_{1}+l_{j2}F_{2}+..+l_{jm}F_{m}+\varepsilon _{j})\\&=var(l_{j1}F_{1})+var(l_{j2}F_{2})+..+var(l_{jm}F_{m})+var(\varepsilon _{j})\\&=l_{j1}^{2}+...+l_{jm}^{2}+\Psi _{j}\\&=h_{j}^{2}+\Psi _{j} \end{align}$

其中 $h_{j}^{2}=l_{j1}^{2}+...+l_{jm}^{2}$

$h_{j}^{2}$ 体现了共同性(communality)，指由个公共因子贡献的方差。

$\Psi _{j}$ 称为唯一性(uniqueness)或个体方差(specific variance)，指无法由公共因子贡献的方差部分。

我们也可以看 $Y_{j}$ 和 $Y_{k}$ 之间的关系： $\sigma _{jk}=cov(Y_{j},Y_{k})=l_{j1}l_{k1}+..+l_{jm}l_{km},j\neq k$ 。

3、因子分析的计算过程

估计因子载荷矩阵
进行因子旋转
估计公共因子（因子得分）

二、载荷矩阵的估计方法

1、主成分法

1.1、基本方法

已知矩阵形式模型： $y-\mu=Lf+\varepsilon$

如何估计载荷矩阵？

上面得到的因子模型的协方差矩阵分解： $\Sigma =L_{p\times m}L_{p\times m}'+\Psi$

基于 $\Sigma$ 的谱分解： $\Sigma =\sum ^{p}_{j=1}\lambda _{j}e_{j}e'_{j}=\Lambda_{p\times p} \Lambda_{p\times p} '$ 其中 $\Lambda =(\sqrt{\lambda _{1}}e_{1},...,\sqrt{\lambda _{p}}e_{p})$ ，而 $\sqrt{\lambda _{j}}e_{j}$ 是 $\Sigma$ 的特征值-特征向量。

对比以下两个式子：

$\Sigma =L_{p\times m}L_{p\times m}'+\Psi$

$\Sigma =\sum ^{p}_{j=1}\lambda _{j}e_{j}e'_{j}=\Lambda_{p\times p} \Lambda_{p\times p} '$

当最后个特征值很小的时候，我们可以忽略掉 $\Psi$ ，此时： $\Sigma\approx L_{p\times m}L_{p\times m}'$ ，此时我们定义： $L_{p\times m} =(\sqrt{\lambda _{1}}e_{1},...,\sqrt{\lambda _{m}}e_{m})$ ，即为 $\Lambda_{p\times p}$ 的前列；得到了 $L_{p\times m}$ ，我们就可以算出 $\Psi$ ： $\Psi=diag(\Psi _{1},...,\Psi _{p}),\Psi _{j}=\sigma _{jj}-\sum _{k=1}^{m}l^{2}_{jk},j=1,...,p$ ，即理解为： $\Psi$ 对角阵的每一个元素就是的方差没有被 $L_{p\times m}$ 刻画的部分。

在样本层面， $\Sigma$ 可用样本协方差矩阵代替。这种估计方法称为主成分法 (Principal component method)，或主成分解（Principal component solution）

定理（主成分解）

$(\widehat{\lambda} _{j},\widehat{e}_{j}),j=1,...,p$ 为样本协方差矩阵的特征值-标准化特征向量，其中 $\widehat{\lambda} _{1}\geq ...\geq \widehat{\lambda} _{p}$ 。记为公共因子的数目。那么因子载荷矩阵估计的主成分解为 $\widehat{L} =(\sqrt{\widehat{\lambda} _{1}}\widehat{e}_{1},...,\sqrt{\widehat{\lambda} _{m}}\widehat{e}_{m})$ 。估计的个体方差是 $S-\widehat{L}\widehat{L}'$ 的对角元素，即 $\widehat{\Psi}=diag(\widehat{\Psi} _{1},...,\widehat{\Psi} _{p})$ ，其中 $\widehat{\Psi} _{j}=s _{jj}-\sum _{k=1}^{m}\widehat{l}^{2}_{jk},j=1,...,p$ （ $\widehat{\Psi} _{j}$ 代表个体方差， $s _{jj}$ 代表总方差， $\sum _{k=1}^{m}\widehat{l}^{2}_{jk}$ 代表共同度 $\widehat{h}_{j}^{2}=\widehat{l}_{j1}^{2}+...+\widehat{l}_{jm}^{2}$ ）。

【小贴士】

的对角元素等于 $\widehat{L}\widehat{L}'+\widehat{\Psi }$ 的对角元素。然而，的非对角元通常不能由 $\widehat{L}\widehat{L}'+\widehat{\Psi }$ 复原。

第个的因子的载荷估计 $\sqrt{\widehat{\lambda} _{k}}\widehat{e}_{k}$ 与第个主成分的系数 $\widehat{e}_{k}$ 成比例（因子载荷估计其实就是加权的主成分）。

1.2、因子的方差（信息量）贡献

$Y_{1}-\mu _{1}=l_{11}F_{1}+l_{12}F_{2}+..+l_{1m}F_{m}+\varepsilon _{1}$

$Y_{2}-\mu _{2}=l_{21}F_{1}+l_{22}F_{2}+..+l_{2m}F_{m}+\varepsilon _{2}$

$Y_{p}-\mu _{p}=l_{p1}F_{1}+l_{p2}F_{2}+..+l_{pm}F_{m}+\varepsilon _{p}$

第个因子对总方差 $s_{11}+s_{22}+...+s_{pp}=tr(S)$ 的贡献为 $\sum ^{p}_{j=1}\widehat{l}^{2}_{jk}=\widehat{\lambda }_{k}$ （主成分中，第个主成分的方差贡献也为 $\widehat{\lambda }_{k}$ ，要注意的是主成分当中， $\widehat{\lambda }_{k}$ 代表的是第个主成分的方差；但是在因子分析当中，各个公共因子的方差我们假设为1， $\widehat{\lambda }_{k}$ 代表的是同一个公共因子（例如 $F_{2}$ ）对 $Y_{j},j=1,...,p$ 的方差贡献之和 $\sum ^{p}_{j=1}\widehat{l}^{2}_{j2}=\widehat{l}_{12}^{2}+\widehat{l}_{22}^{2}+...+\widehat{l}_{p2}^{2}$ ），贡献比例为 $\frac{\widehat{\lambda }_{k}}{tr(S)},k=1,...,m$ 。

以第2个因子 $F_{2}$ 为例，我们知道 $Y_{j},j=1,...,p$ 由对应的公共因子 $F_{2}$ 贡献的方差是 $l_{j2}^{2},j=1,...,p$ ，则总方差 $s_{11}+s_{22}+...+s_{pp}=tr(S)$ 也可以看做是 $Y_{j},j=1,...,p$ 的方差之和，则第2个因子对总方差的贡献为 $\sum ^{p}_{j=1}\widehat{l}^{2}_{j2}=\widehat{l}_{12}^{2}+\widehat{l}_{22}^{2}+...+\widehat{l}_{p2}^{2}$ ，即为载荷矩阵的第2列的平方和，载荷矩阵的第2列的估计为 $\sqrt{\lambda _{2}}e_{2}$ ， $(\sqrt{\lambda _{2}}e_{2})^{2}=(\sqrt{\lambda _{2}})^{2}e_{2}e'_{2}=\lambda _{2}$ 。

1.3、基于标准化变量的主成分法

正如主成分分析中提到的，当变量的度量单位/量纲相差很多时，建议使用标准化后的变量（相关系数矩阵）进行因子分析，这等价于基于样本相关系数矩阵使用主成分法，即将换成。

比更常用，是大多数软件包的默认设置。

基于标准化变量的主成分分析详见《机器学习——数据降维——主成分分析（PCA）和奇异值分解（SVD）》第一章第4节。

1.4、因子的个数的选择

心理学，社会科学或者其他行为科学的研究者们可能基于他们的具体领域或经验来指定因子的个数。

如果没有先验信息（例如前面对于各科成绩，我们事先确定一个公共因子——语言能力），如何确定？

$S \approx LL'+\Psi$

$S -(LL'+\Psi)$ 所有元素的平方和 $\leq \sum ^{p}_{k=m+1}\widehat{\lambda }^{2}_{k}$

因此，可以参考主成分分析，评估被忽略的特征值的贡献，即可以使用百分比截点、平均截点和碎石图。主成分个数的选择详见《机器学习——数据降维——主成分分析（PCA）和奇异值分解（SVD）》第一章第5节。

1.5、案例

一个12岁的女孩对她身边的7个人进行9分制评分。评分基于五个维度进行的，分别是“友好(kind)”、“聪明(intelligent)”、“快乐(happy)”、“受人喜爱(likeable)”和“公正( just)”：

1.5.1、计算相关系数矩阵

corr=data.corr()
corr

输出：

根据相关系数的大小，变量可能分为两组：{0, 2, 3} 和 {1, 4}，因此我们期望通过2个因子解释变量间的相关性。

1.5.2、求载荷矩阵

eigVals,eigVects=np.linalg.eig(np.mat(corr)) #协方差矩阵的特征值和特征向量
Loading=np.sqrt(eigVals)*np.array(eigVects) #主成分乘上权重，λ的开平方，注意：此时eigVects中一列是代表着一个特征向量
Loading

输出：

array([[ 0.9694553 ,  0.23114797, -0.07845059,         nan, -0.02392768],
       [ 0.5194021 , -0.80694535,  0.28034884,         nan, -0.02156826],
       [ 0.78451739,  0.58724124,  0.16754548,         nan,  0.10774369],
       [ 0.97087045,  0.20994906, -0.03935088,         nan, -0.10855173],
       [ 0.70396444, -0.66692688, -0.23125766,         nan,  0.07850152]])

我们使用个因子，基于相关系数矩阵的主成分法得到的载荷矩阵估计（）、共同度及个体方差如下：

L_=pd.DataFrame(Loading[:,:2],columns=['lj1','lj2'],index=['Kind','Intelligent','Happy','Likeabel','Just'])
L_['共同度']=(Loading[:,:2]*Loading[:,:2]).sum(axis=1)
L_['个体方差']=1-L_['共同度']
L_

输出：

由 $l_{j1}$ 和 $l_{j2}$ 可知这两个公共因子是如何决定原始变量的，如 $Intelligent=0.519l_{j1}-0.807l_{j2}$ ， $Happy=0.785l_{j1}+0.587l_{j2}$ ， $Just=0.704l_{j1}-0.667l_{j2}$ ，三个原始变量在两个公共因子的表现（权重）基本都不低，这样就导致一个问题：公共因子的可解释性很差。在后面的章节我们会介绍一种方法——因子旋转，来解决此类问题。

1.5.3、方差贡献和方差贡献率

eigVals[:2].sum()/eigVals.sum()

输出：

0.9613695373197961

通过两个公共因子能刻画96%的方差，通过以上碎石图能够更加直观的看出：

1.5.4、验算：根据 $\Sigma =L_{p\times m}L_{p\times m}'+\Psi$ ，用两个公共因子能否复原原来的协方差矩阵 $\Sigma$ （或者相关系数矩阵）？

pd.DataFrame(np.dot(Loading[:,:2],(Loading[:,:2].T))+np.diag(1-(Loading[:,:2]*Loading[:,:2]).sum(axis=1)))

输出：

计算过程： $L_{p\times m}L_{p\times m}'+\Psi=\begin{pmatrix} 0.969 & 0.231 \\ 0.519&-0.807 \\ 0.785 & 0.587\\ 0.971&0.210 \\ 0.704 &-0.667 \end{pmatrix}\begin{pmatrix} 0.969 & 0.519 &0.785 &0.971&0.704\\0.231&-0.807 & 0.587 &0.210 &-0.667 \end{pmatrix}+\begin{pmatrix} 0.007& 0& 0& 0& 0 \\ 0& 0.79& 0& 0& 0 \\ 0& 0& 0.40& 0& 0\\0& 0& 0& 0.13& 0 \\ 0& 0& 0& 0& 0.60 \end{pmatrix}= \begin{pmatrix} 1.000& 0.321& 0.897& 0.992& 0.525 \\ 0.321& 1.000& -0.062& 0.338& 0.906 \\ 0.897& -0.062& 1.000& 0.887& 0.158\\0.992& 0.338& 0.887& 1.000& 0.540 \\ 0.525& 0.906& 0.158& 0.540& 1.000 \end{pmatrix}$ 对比原来的相关系数矩阵：

可以看出，很好的复原了原来的相关性系数矩阵，由两个公共因子刻画原始变量是足够的。

2、主因子法

$S \approx LL'+\Psi$

在主成分方法中，我们忽略 $\Psi$ ，对或进行谱分解。

而主因子法/主轴法(principal factor/axis method)，则使用一个初始的估计值 $\widehat{\Psi}^{(0)}$ ，从而对 $S-\widehat{\Psi}^{(0)}$ 或 $R-\widehat{\Psi}^{(0)}$ 使用与主成分方法相同
的操作进行因子分析。

我们可以迭代地更新估计值 $\widehat{\Psi}^{(0)}$ 以及 $S-\widehat{\Psi}^{(0)}$ 或 $R-\widehat{\Psi}^{(0)}$ 的分解，直到收敛。

大致步骤如下：

给定一个初始的估计值 $\widehat{\Psi}^{(0)}$ ，常用的 $\widehat{\Psi}^{(0)}$ 初值：使用时，初值为 $1/diag(diag(S^{-1}))$ ；使用时，初值为 $1/diag(diag(R^{-1}))$ 。
对 $S-\widehat{\Psi}^{(0)}$ 或 $R-\widehat{\Psi}^{(0)}$ 使用与主成分方法相同的操作（谱分解）进行因子分析，得到载荷矩阵 $\widehat{L}$ 的估计。
求 $S-\widehat{L}\widehat{L}'$ 的对角元素，即 $\widehat{\Psi}=diag(\widehat{\Psi} _{1},...,\widehat{\Psi} _{p})$ ，其中 $\widehat{\Psi} _{j}=s _{jj}-\sum _{k=1}^{m}\widehat{l}^{2}_{jk},j=1,...,p$ ，得到新的个体方差估计值 $\widehat{\Psi}^{(1)}$ 。
重复2和3步骤，使得 $\widehat{\Psi}$ 越来越接近真值（收敛）。

缺陷：

因为 $S-\widehat{\Psi}^{(0)}$ 或 $R-\widehat{\Psi}^{(0)}$ 有可能不是正定的，这个方法有可能得到负的特征值，使得结果较难解释（负的方差），如下图。

下表对由主成分和主因子法得到的载荷估计进行比较：

【小贴士】

性质：正定矩阵的特征值都是正的。

3、极大似然法

当样本 $f_{1},...,f_{n}$ 和 $\varepsilon _{1},...,\varepsilon _{n}$ 服从联合正态分布， $y _{1},...,y _{n}$ 也因此独立同分布地服从 $N_{p}(\mu ,\Sigma )$ 分布时（其中 $\Sigma =LL'+\Psi$ ）， $\Sigma$ 的似然函数可以如下表示：

$L(\Sigma )\propto |\Sigma |^{-n/2}exp\left [ -\frac{1}{2} tr\left \{ \Sigma ^{-1} \left ( \sum ^{n}_{i=1}(y_{i}-\overline{y})(y_{i}-\overline{y})' \right )\right \} \right ]$

其中 $\widehat{\mu }_{MLE}=\overline{y}$ （ $\widehat{\mu }_{MLE}$ 表示 $\widehat{\mu }$ 的极大似然估计）已经代入上式，将 $\Sigma =LL'+\Psi$ 代入上式，然后极大化这一个方程，和 $\Psi$ 的极大似然估计就可以通过迭代计算得到。

三、因子旋转

1、因子及载荷的不唯一性

$y-\mu=Lf+\varepsilon$

因子是不可观测的，我们可以将其看作虚拟的，所以其实不唯一的。故以上因子模型等价于 $y-\mu=L^{*}f^{*}+\varepsilon=(LT)(T'f)=L(TT')f$ ，其中 $L^{*}=LT$ ， $f^{*}=T'f$ ，是满足的任意正交矩阵。

【小贴士】

任意正交阵乘以其自身转置的结果，为单位阵。

新的载荷矩阵 $L^{*}$ 仍然满足 $\Sigma =LL'+\Psi=L^{*}L^{*}'+\Psi$ 。

新的 $f^{*}$ 仍然满足 $E(f^{*})=0_{m\times 1},COV(f^{*})=I_{m\times m},COV(f^{*},\varepsilon )=0_{p\times m}$ 。

所以因子及其载荷矩阵并不唯一，可以按照任意的正交矩阵提供的方向旋转。这种不唯一性为“因子旋转”提供了理论基础。

我们的最终目标是寻找使因子及载荷结构更简单、解释更清晰的旋转方向。

2、直觉理解

$Y_{1}-\mu _{1}=l_{11}F_{1}+l_{12}F_{2}+..+l_{1m}F_{m}+\varepsilon _{1}$

$Y_{2}-\mu _{2}=l_{21}F_{1}+l_{22}F_{2}+..+l_{2m}F_{m}+\varepsilon _{2}$

$Y_{p}-\mu _{p}=l_{p1}F_{1}+l_{p2}F_{2}+..+l_{pm}F_{m}+\varepsilon _{p}$

我们旋转因子 $f^{*}=T'f$ 就相当于旋转载荷矩阵 $L^{*}=LT$ ，其本质上是在做同一件事情。我们对处理载荷矩阵更加熟悉，载荷矩阵代表原始变量和公共因子之间的关系（协方差/相关系数，取决于使用协方差矩阵还是用相关系数矩阵进行谱分解）。

我们希望得到的是，每个原始变量都由某个因子主要决定（对应载荷数值很大），而与其他因子关系不大（对应载荷绝对值接近0，则此公共因子对原始变量没有作用），即我们想要得到一个结果尽量简单（稀疏）的载荷矩阵，便于我们解释。

从几何的角度， $\widehat{L}$ 的第行的载荷构成了原始变量 $Y_{j}$ 在因子/载荷空间的坐标。所以因子旋转的目标，是让坐标轴靠近尽可能多的点。

回到12岁女孩调查的案例：

上图中的载荷矩阵我们可以投射到如下的载荷（因子）空间当中的5个点。载荷矩阵的每一行可以表示为一个点的坐标。需要注意的是，图中的直角三角形的，根据勾股定理的 $\widehat{h}_{j}^{2}=\widehat{l}^{2}_{j1}+\widehat{l}^{2}_{j2}$ ，即对应的载荷平方和，等于共同度，共同度，即点到原点的距离平方。

总结：因子旋转的目的是得到更加好解释、定义和理解的因子方向（因为因子是虚拟的）。即通过“旋转坐标轴”的方式，尽可能使新的坐标轴靠近更多的点，这边“旋转坐标轴”有两种方式：正交旋转和斜交旋转。

3、正交旋转

正交旋转(Orthogonal rotation)：

原来垂直的坐标轴经过旋转后仍保持垂直。
角度和距离都保持不变。
共同度也不变。
点的相对位置也维持原状。
只有参考系改变了。

3.1、图像法

如果，我们可以通过观察因子载荷坐标系决定如何旋转坐标轴。

我们选择一个角度 $\phi$ 来让坐标轴尽可能靠近更多的点。新的旋转载荷 $(\widehat{l}^{*}_{j1},\widehat{l}^{*}_{j2})$ 可以通过 $\widehat{L}^{*}=\widehat{L}T$ （旋转坐标轴）得到，其中 $T=\begin{pmatrix} cos\phi & -sin\phi\\ sin\phi& cos\phi \end{pmatrix}$ 。

矩阵旋转的角度：顺时针旋转则为负值，逆时针旋转则为正值，更多关于旋转矩阵的内容，详见《线性代数——线性变换——旋转矩阵（泰勒公式、虚数、欧拉公式）》。

回到12岁女孩的例子：取 $\phi=-55^{\circ}$ ， $T=\begin{pmatrix} 0.574 &0.819 \\ -0.819&0.574 \end{pmatrix}$ 。

通过 $\phi=-55^{\circ}$ 的旋转，我们得到了下面的载荷矩阵：

$\widehat{L}^{*}=\widehat{L}T=\begin{pmatrix} 0.969 & 0.231 \\ 0.519&-0.807 \\ 0.785 & 0.587\\ 0.971&0.210 \\ 0.704 &-0.667 \end{pmatrix}\begin{pmatrix} 0.574 &0.819 \\ -0.819&0.574 \end{pmatrix}=\begin{pmatrix}0.367 & 0.927 \\ 0.959& -0.037 \\ -0.031 &0.980\\ 0.385&0.916 \\ 0.950 & 0.194\end{pmatrix}$

旋转后的载荷与原载荷对比：旋转之后的载荷，有一些很大（下图红色框），有一些接近于0（下图蓝色框），无限接近于0的我们可以忽略，这样就会使结果更加好解释、简洁。

旋转后的载荷很容易解释：

第一个因子主要由intelligence和just构成，可解释为人的逻辑思维能力。
第二个因子与变量kind, happy, likeable高度相关，可描述为亲和力。

3.2、最大方差法——最常用的正交因子旋转

$Y_{1}-\mu _{1}=l_{11}F_{1}+l_{12}F_{2}+..+l_{1m}F_{m}+\varepsilon _{1}$

$Y_{2}-\mu _{2}=l_{21}F_{1}+l_{22}F_{2}+..+l_{2m}F_{m}+\varepsilon _{2}$

$Y_{p}-\mu _{p}=l_{p1}F_{1}+l_{p2}F_{2}+..+l_{pm}F_{m}+\varepsilon _{p}$

使用图像法来正交旋转局限于，因为只有二维的空间，才能在图像上呈现出来。

对，有更多解析的方法已经被提出。最常用的为最大方差法（Varimax method），也就是寻找能够最大化载荷矩阵中每一列载荷平方的方差的旋转载荷。

最大方差法（Varimax method）原理：

对，我们也可以用最大方差法，设因子载荷矩阵，正交阵 $T=\begin{pmatrix} cos\phi & -sin\phi\\ sin\phi& cos\phi \end{pmatrix}$ ，旋转过后的载荷矩阵设为，我们要做的是，选定合适的 $\phi$ 可以令旋转过后的载荷矩阵 $L^{*}$ 的列向量的方差之和（ $S_{1}+...+S_{m}=\sum ^{m}_{i=1}\frac{(\sum ^{p}_{j=1}(l^{*}_{ij}-\overline{l^{*}_{i}})^{2})}{p}=\frac{\sum ^{m}_{i=1}\sum ^{p}_{j=1}(l^{*}_{ij}-\overline{l^{*}_{i}})^{2}}{p}$ ，）达到最大。
当载荷矩阵的列时，我们可以逐次对每两个因子进行上述旋转，直至个因子全部配对旋转，即需要旋转 $C_{m}^{2}$ 次，全部旋转完毕算作一轮循环。一般来说，一轮循环是不够的，需要经过多轮旋转，直至方差无法再增大为止。

回到12岁女孩的数据，最大方差法得到的旋转因子载荷与图像法得到的旋转十分接近：

4、斜交旋转

斜交旋转(Oblique rotation)：

不要求轴保持垂直。
因此旋转更加自由。
也更容易让轴靠近更多的点。

回想12岁女孩的例子，如果旋转后的坐标轴允许不再垂直（即斜交旋转），代表 $F_{2}^{*}$ 的轴可以更加靠近第1个和第4个变量对应的点。

正交旋转的好处是：角度和距离都保持不变。共同度也不变。

不像正交旋转中使用正交矩阵，斜交旋转使用一个更一般的非奇异变换矩阵（可逆即可）来得到 $f^{*}=Q'f$ ，那么 $COV(f^{*})=Q'IQ=Q'Q\neq I$ ，因此新的因子之间是相关的，不是正交的。

由于距离和角度不再保持不变， $f^{*}$ 的共同度与的也不同。

斜交旋转的好处是，当不要求坐标轴相互垂直时，旋转后的坐标轴更容易“穿过”多数坐标点。

例：我们收集了25个家庭的第一胎和第二胎婴儿头围测量数据（头长和头宽），如下图，右图为相关系数矩阵：

直观的选择2个公共因子，分别做正交旋转（下图左）和斜交旋转（下图右）：

与最大方差旋转载荷（正交旋转）相比，斜交旋转载荷的结构更加简洁（更加0-1两极化），但解释起来完全一样，即 $F_{1}$ 主要解释第二胎的头长和头宽， $F_{2}$ 主要解释第一胎的头长和头宽。

斜交旋转得到的两个坐标轴的夹角为38°，两个旋转后的因子之间的相关性则为0.79（可以由的非对角元得到，或由 $cos38^{\circ}=0.79$ 得到）。故我们总结一个结论：两坐标轴间的夹角小于45°，可只选择一个因子。

四、估计因子得分

1、因子得分

有时研究者则希望得到因子得分（Factor score）， $\widehat{f}_{i}=(\widehat{F}_{i1},...,\widehat{F}_{im}),i=1,...,n$ ，即每个因子在不同个体上的取值，从而我们可以

查看不同个体的因子表现情况（比如智力问题）
将因子得分作为“观测值”后续进行其他分析，如分类（降维之后再分类）

2、因子得分的估计——最小二乘法

我们先回顾回归模型： $y=X\omega +\varepsilon$

在标准线性回归中我们需要找到是误差最小的, 即预测的值与真实的值之间的差值。

使用矩阵表示将会是的求解和程序更为简单:

将对求导可得:

$\frac{\partial f(w)}{\partial w}=-X'y-X'y+2X'Xw$

【注意】

矩阵求导性质：

1）、 $\frac{\partial Ax}{\partial x}=A^{T}$

2）、 $\frac{\partial x^{T}A}{\partial x}=A$

使其等于0，便可得到：

求得： $\widehat{w}=(X'X)^{-1}X'y$

类比回归模型，我们在以下的因子模型当中

因子模型： $y_{i}-\mu=Lf_{i}+\varepsilon _{i}$

前面我们已经将载荷矩阵估计出来了，现在目标是估计： $(L'L)^{-1}L'(y-\mu )$ 。

由于 $\varepsilon_{i}$ 的方差不相同，我们可以通过加权最小二乘法来估计： $(L'\Psi ^{-1}L)^{-1}L'\Psi ^{-1}(y-\mu )$ 。

【小贴士】

加权最小二乘法的残差平方和为 $f(f)=(y-\mu -Lf )'\Psi ^{-1}(y-\mu -Lf )$ ，其中，和标准最小二乘法的差别在于： $\Psi^{-1}$ 使得具有较小的方差的样本具有较大权重，经过这般调整，使其方差相同。最后求得 $f=(L'\Psi ^{-1}L)^{-1}L'\Psi ^{-1}(y-\mu )$ ，详细加权最小二乘估计可见《加权最小二乘法与局部加权线性回归》

将已估计的参数 $\widehat{L}$ ， $\widehat{\Psi }$ 和 $\widehat{\mu }=\overline{y}$ （样本均值）代入上式： $\widehat{f}_{i}=(\widehat{L}'\widehat{\Psi} ^{-1}\widehat{L})^{-1}\widehat{L}'\widehat{\Psi} ^{-1}(y_{i}-\overline{y} ),i=1,...,n$ ，最后得到的是一个 $n\times m$ 维的矩阵。

3、因子得分的估计——回归法

基于正态假设：假设和服从

$\begin{pmatrix} f \\ y-\mu \end{pmatrix}\sim N_{m+p}(0,\begin{bmatrix} I&L\\ L'& \Sigma =LL'+\Psi \end{bmatrix})$ ，即服从联合正态分布。

则在给定时的条件分布为正态分布，均值为 $E(f|y)=L'\Sigma^{-1}(y-\mu )$ ，于是我们就可以利用给定的来估计。

我们就可以得到第个因子得分的估计： $\widehat{f}_{i}=\widehat{L}'(\widehat{L}\widehat{L}'+\widehat{\Psi})^{-1}(y_{i}-\overline{y} ),i=1,...,n$ ，或者 $\widehat{f}_{i}=\widehat{L}'S^{-1}(y_{i}-\overline{y} ),i=1,...,n$

【小贴士】子向量的条件正态性：

假设 $y\sim N_{p}(\mu ,\Sigma )$ ，现在对、 $\mu$ 、 $\Sigma$ 以第个元素为界进行分割如下： $y=\begin{pmatrix} y_{1}\\ y_{2} \end{pmatrix}$ ， $\mu=\begin{pmatrix} \mu _{1}\\ \mu _{2} \end{pmatrix}$ ， $\Sigma =\begin{pmatrix} \Sigma _{11}&\Sigma _{12}\\ \Sigma _{21}&\Sigma _{22}\end{pmatrix}$ ，这里 $\Sigma _{11}$ 是 $r\times r$ 的，并且 $\left | \Sigma _{22} \right |>0$ 。

于是在给定 $y_{2}$ 时， $y_{1}$ 的条件分布仍然是多元正态： $y_{1}|y_{2}\sim N_{r}(\mu _{1}+\Sigma _{12}\Sigma^{-1} _{22}(y_{2}-\mu _{2}),\Sigma _{11}-\Sigma _{12}\Sigma ^{-1}_{22}\Sigma _{21})$ 。

注意：

$E(y_{1}|y_{2})$ 是关于 $y_{2}$ 的线性方程，同时 $COV(y_{1}|y_{2})$ 不依赖 $y_{2}$ 。

五、python示例

1、python适用于因子分析的包

sklearn当中也有因子分析的库sklearn.decomposition.FactorAnalysis，但是是采用极大似然估计的方式计算结果，不能旋转。不能旋转的因子分析对原始维度缺少一定的解释力，并且因子间可能存在一定的相关性，达不到因子分析的既定效果。

故我们可以用factor_analyzer.FactorAnalyzer:既可做因子分析也能做因子的旋转，格式如下：FactorAnalyzer(rotation=None, n_factors=n, method='principal')

2、案例解析——因子分析

案例：回到第6章中考试成绩的例子。52位学生6门功课的考试分数： $Y_{1}$ 到 $Y_{6}$ 依次表示数学、物理、化学、语文、历史、英语成绩。部分数据如下：

同案例的主成分分析（PCA）过程可见《机器学习——数据降维——主成分分析（PCA）和奇异值分解（SVD）》

目的：对比于主成分分析（PCA），因子分析可以更好的解释这两科的差异性，可以由“文科”和“理科”来刻画，或者是否有其他更合理解释角度？

2.1、计算相关系数矩阵

corr=data.corr()
corr

输出：

从相关性系数矩阵上看，前三个变量（ $Y_{1}$ ， $Y_{2}$ ， $Y_{3}$ ）更加相关，后三个变量（ $Y_{4}$ ， $Y_{5}$ ， $Y_{6}$ ）更加相关，我们暂定用个公共因子来刻画，待估计的因子模型初步定为： $Y_{j}-\mu _{j}=l_{j1}F_{1}+l_{j2}F_{2}+\varepsilon _{j},j=1,...,6$ 。

2.2、估计载荷矩阵

2.2.1、极大似然法

from factor_analyzer import FactorAnalyzer
fa = FactorAnalyzer(rotation=None,  #是否旋转因子
                    n_factors=2, #取两个因子
                    method='ml'  #极大似然估计
                   )
data_=fa.fit_transform(data)
fa.loadings_  #载荷矩阵

输出：

array([[-0.67553954,  0.5618195 ],
       [-0.59919972,  0.42715296],
       [-0.48652622,  0.65618063],
       [ 0.91689514,  0.1039815 ],
       [ 0.85579329,  0.23917605],
       [ 0.88275542,  0.26616829]])

取2个公共因子的载荷矩阵（极大似然估计）如上。

fa.get_factor_variance()

输出：

(array([3.40443772, 1.06753672]),
 array([0.56740629, 0.17792279]),
 array([0.56740629, 0.74532907]))

第一行表示前两个因子对总体方差的贡献，第二行表示方差贡献的占比，第三行表示方差贡献的累积占比，我们可以看出，前两个因子的方差贡献率在74.53%。

2.2.2、主成分法

from factor_analyzer import FactorAnalyzer
fa = FactorAnalyzer(rotation=None,  #是否旋转因子
                    n_factors=2, #取两个因子
                    method='principal'  #主成分法
                   )
data_=fa.fit_transform(data)
fa.loadings_  #载荷矩阵

输出：

array([[-0.79365794,  0.42244881],
       [-0.73419111,  0.40079553],
       [-0.63972828,  0.63215697],
       [ 0.88829277,  0.31294912],
       [ 0.81009848,  0.46605162],
       [ 0.82849201,  0.45674661]])

取2个公共因子的载荷矩阵（主成分法）如上，注意：以上是未经过旋转的载荷矩阵。

fa.get_factor_variance()

输出：

(array([3.70990438, 1.26248122]),
 array([0.6183174 , 0.21041354]),
 array([0.6183174 , 0.82873093]))

第一行表示前两个因子对总体方差的贡献，第二行表示方差贡献的占比，第三行表示方差贡献的累积占比，我们可以看出，前两个因子的方差贡献率在82.87%。比上面的极大释然估计的方差贡献率（74.53%）要高的，极大释然估计是基于正态分布的，也许原始样本分布并不是很接近“正态分布”。所以我们后续的结果倾向于继续使用主成分法来讨论。

2.3、计算旋转因子载荷——基于主成分法

from factor_analyzer import FactorAnalyzer
fa = FactorAnalyzer(rotation='varimax',  #最大方差法因子旋转
                    n_factors=2, #取两个因子
                    method='principal'  #主成分法
                   )
data_=fa.fit_transform(data)
fa.loadings_  #载荷矩阵

输出：

取2个公共因子的载荷矩阵（主成分法）如上。

fa.get_factor_variance()

输出：

(array([2.66060044, 2.31178516]),
 array([0.44343341, 0.38529753]),
 array([0.44343341, 0.82873093]))

第一行表示前两个因子对总体方差的贡献，第二行表示方差贡献的占比，第三行表示方差贡献的累积占比，我们可以看出，前两个因子的方差贡献率在82.87%。与未旋转的方差贡献率相比没有变化。

但是两个因子的载荷与未旋转之前相比差了很多：

两个公共因子，我们可以画图展现出来更加直观：

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

fig=plt.figure(figsize=(10,4)) #表示绘制图形的画板尺寸为6*4.5；
ax=fig.add_subplot(1,2,1)

loading=fa_1.loadings_ #未旋转的因子载荷

plt.scatter(loading[:,[0]],loading[:,[1]])
plt.xlabel('第一个公共因子')
plt.ylabel('第二个公共因子')
for i in range(len(loading)):
    plt.text(loading[i,0],loading[i,1],'Y%s'%(i+1),ha='left',va='top',fontsize=12,rotation=0,alpha=50) #columns.index(i)返回下标,#ha=‘right'表示点在注释右边，va='bottom'表示点在注释底部，alpha表示透明程度
plt.title('未旋转的因子载荷')
    
ax=fig.add_subplot(1,2,2)
loading=fa_2.loadings_ #旋转的因子载荷

plt.scatter(loading[:,[0]],loading[:,[1]])
plt.xlabel('第一个公共因子')
plt.ylabel('第二个公共因子')
for i in range(len(loading)):
    plt.text(loading[i,0],loading[i,1],'Y%s'%(i+1),ha='left',va='top',fontsize=12,rotation=0,alpha=50) #columns.index(i)返回下标,#ha=‘right'表示点在注释右边，va='bottom'表示点在注释底部，alpha表示透明程度
plt.title('旋转过后的因子载荷')

输出：

从图中我们可以看到，旋转过后的因子载荷矩阵，更加两级分化（更靠近轴和轴），解释起来将更加清晰。

旋转过后的公共因子，第一个公共因子主要决定后面三个变量（ $Y_{4}$ ， $Y_{5}$ ， $Y_{6}$ ，即语文、英语、历史），对应的可以概括为“文科因子” ，第二个公共因子主要决定前面三个变量（ $Y_{1}$ ， $Y_{2}$ ， $Y_{3}$ ，即数学、物理、化学），对应的可以概括为“理科因子” 。即我们通过因子分析，可以将我们的变量分成两类，具体分类如下：

2.4、计算样本因子得分——基于主成分法

即计算所有的学生在这两个因子上面的表现情况：

from factor_analyzer import FactorAnalyzer
fa_2 = FactorAnalyzer(rotation='varimax',  #最大方差法因子旋转
                    n_factors=2, #取两个因子
                    method='principal'  #主成分法
                   )
data_=fa_2.fit_transform(data)
data_

输出：

array([[ 0.66680653, -0.69388904],
       [-1.08617442, -0.15723761],
       [-1.61684799, -1.90160396],
       [-0.72920389,  0.15382713],
       [-1.76907501, -1.13891434],
       [-1.85801275,  0.64436162],
       [-1.31915844,  1.26530921],
       [-1.74117705, -1.23097618],
       [ 0.95725666, -0.6764035 ],
       [-0.84648864,  0.35102727],
       [-0.90511521, -0.1115654 ],
       [ 0.57900914, -0.24869373],
       [-0.30651906,  1.18778613],
       [ 0.58064712,  0.56696106],
       [-0.77862214, -0.8278795 ],
       [-0.60582854,  0.58630962],
       [ 0.06228757,  0.58790371],
       [ 1.26041827,  0.09990526],
       [ 1.6165137 , -0.36917334],
       [ 0.89554779,  0.99821778],
       [ 1.37610116,  0.20272853],
       [-0.05046723,  1.42552427],
       [ 0.12385714,  1.64671775],
       [-0.10702467,  0.24068394],
       [-0.73672797,  1.32010354],
       [ 0.90379062,  1.71032496],
       [-0.11252153, -0.69081664],
       [-0.1599815 , -1.738235  ],
       [ 0.36325364, -0.35529494],
       [ 2.16545793, -1.06019214],
       [ 0.5120452 , -1.75445471],
       [ 0.24420505, -1.47332172],
       [ 1.41023729,  1.35395876],
       [-0.79261961,  0.83837722],
       [-0.03566869,  0.40380043],
       [-0.79881006, -0.63984564],
       [-0.13342206, -1.64587618],
       [-1.21747732,  0.92526294],
       [ 0.35162225, -0.20707309],
       [ 0.02153877,  1.42305047],
       [ 0.78520054, -0.03781809],
       [-0.34213278, -0.17680972],
       [ 0.05145438,  1.1367464 ],
       [-1.08960807, -0.70504028],
       [-0.9456918 ,  2.06015672],
       [-0.56815626, -1.00460889],
       [ 0.58396812,  0.36319028],
       [-0.1713918 , -1.01788887],
       [ 2.3945996 , -0.90107041],
       [ 0.09178151, -0.84650009],
       [ 1.61876748,  0.2735249 ],
       [ 1.20755702, -0.1545769 ]])

我们已知：第一个公共因子可以概括为“文科因子” ，第二个公共因子可以概括为“理科因子”。所以，例如第一个学生：则表现为文科好，理科差的情况，第二个学生则是文理都相对较差。注意：因子都是正向去决定变量的，正值则代表在因子的表现上较好，负值则代表在因子的表现上较差。

我们可以将所有学生在因子上的表现画在图上：

fig=plt.figure(figsize=(10,10)) #表示绘制图形的画板尺寸为6*4.5；
plt.scatter(data_[:,[0]],data_[:,[1]])
plt.xlabel('文科公共因子')
plt.ylabel('理科公共因子')
#画横纵坐标参考线
plt.hlines(y=0,xmin=-2,xmax=2.5,linestyles='dashdot')
plt.vlines(x=0,ymin=-2,ymax=2.5,linestyles='dashdot')

#画样本点标签
for i in range(len(data_)):
    plt.text(data_[i,0],data_[i,1],'Y%s'%(i+1),ha='left',va='top',fontsize=10,rotation=0,alpha=50) #columns.index(i)返回下标,#ha=‘right'表示点在注释右边，va='bottom'表示点在注释底部，alpha表示透明程度

#画原始参考坐标系
for i in range(len(loading)):
    plt.annotate('Y%s'%(i+1)   #箭头的文字
                 ,xy=(0,0)  #箭头的终点
                 ,xytext=(loading[i,0]*2,loading[i,1]*2)  #起点
                 ,color='r'  #文字的类型
                 ,arrowprops=dict(arrowstyle="<-",color='red',connectionstyle="arc3")  #箭头的样式
                ) 

#打标题
plt.title('因子得分')

输出：

我们可以将各个同学在因子空间上的得分分成四个象限：第一象限即可以表示为“学霸”类型，第二和第四象限可以表示为“偏科”类型，第三象限即为要“好好努力”类型。

同样我们可以将原始变量空间表现在我们的因子载荷空间上（图中的红色坐标系）。我们发现： $Y_{1}$ ， $Y_{2}$ ， $Y_{3}$ 主要由第二个因子决定， $Y_{4}$ ， $Y_{5}$ ， $Y_{6}$ 主要由第一个因子决定。

六、因子分析与主成分分析的比较

区别：

因子分析通常指是一种模型；而主成分分析不涉及模型，是寻找综合指标刻画数据差异性的降维方法。
因子分析旨在通过公共因子解释原始变量间的相关性；而主成分分析旨在通过综合指标解释个体之间的差异性。
在因子分析中，原变量表示为因子的线性组合；而在主成分分析中，主成分则是原变量的线性组合。
因子分析的估计不唯一，可以通过因子旋转寻找最容易解释的公共因子；而主成分的构造是唯一的。
因子分析需要构造因子模型，着重要求新变量具有实际的意义，能解释原始变量间的内在结构。主成分分析仅仅是变量变换，强调新变量贡献了多大比例的方差，不关心新变量是否有明确的实际意义。

联系：

两者都是降维和信息浓缩的方法。
生成的新变量均代表了原始变量的大部分信息且互相独立，都可以用于后续的回归分析、判别分析、聚类分析等等。

七、因子分析总结

因子分析可以很好地满足维度分析的需求；
对于没有业务经验的数据分析人员来讲，是通过观察每个原始变量在因子上的权重绝对值来给因子取名成的。而对于业务知识丰富的数据分析人员，已经对变量的分类有一个预判，并通过进行不同的变量转换（标准化）方式和旋转方式使得预判别为同一组的原始变量在共同的因子上权重绝对值最大化。所以因子分析的要点在于选择变量转换方式。
因子分析作为维度分析的手段，是构造合理的聚类模型的有效步骤。

你可能感兴趣的:(机器学习,sklearn,fa-kit)

下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
车辆检测与识别：车辆分类_（9）.车辆分类模型的评估与优化 zhubeibei168 机器人（二）分类数据挖掘人工智能计算机视觉机器学习视频监控
车辆分类模型的评估与优化在车辆检测与识别领域，车辆分类模型的评估与优化是确保模型性能和可靠性的关键步骤。本节将详细介绍如何评估车辆分类模型的性能，并提供一些优化技术，以提高模型的准确性和效率。模型评估指标1.准确率(Accuracy)准确率是最直观的评估指标，表示分类器正确分类的样本占总样本的比例。然而，在不平衡数据集上，准确率可能具有误导性。fromsklearn.metricsimportac
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
win7下python3.6通过pip安装scipy报错的解决办法青松一夏 python
一、问题描述通过pip方式安装了numpy和sklearn，但是sklearn需要依赖于scipy，但当通过pip方式安装scipy时，报错：numpy.distutils.system_info.NotFoundError:nolapack/blasresourcesfound按照网上的教程，并没有找到真正的解决办法，后来我是通过如下方式解决的。二、我的解决方案（1）首先卸载numpypipun
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
【机器学习】主成分分析法（PCA）若兰幽竹机器学习机器学习信息可视化人工智能
【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n个主成分及PCA在数据预处理中的处理步骤（后续实现）一、摘要本文主要讲述了主成分分析法（PCA）的原理和应用。PCA通过选择最重要的特征，将高维数据映射到低维空间，同时保持数据间的关系，实现降维和去
深入探索 PyTorch 在语音识别中的应用 Zoro｜ PyTorch Deep Learning 机器学习 pytorch 语音识别人工智能
深入探索PyTorch在语音识别中的应用在本篇博客中，我将分享如何使用PyTorch进行语音识别任务，重点围绕环境配置、数据预处理、特征提取、模型设计以及模型比较展开。本文基于最近一次机器学习作业（HW2）的任务内容，任务目标是对语音信号进行逐帧音素预测，从而完成多类别分类任务。一、介绍任务背景任务目标：利用深度神经网络对语音信号进行逐帧音素预测。音素定义：音素是语音中能够区分单词的最小语音单位。
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后