阳云yy

因子分析原理及其python实现

因子分析（factor analysis）

一、概述
二、因子分析与主成分对比
三、因子分析原理
四、因子分析模型的假设
五、因子载荷矩阵的统计意义
六、因子模型的性质
七、参数估计
七、因子旋转方法
八、因子得分
九、数据检验
- 9.1 KMO检验
- 9.2 巴特利特球形检验
- 9.3 碎石检验
十、应用
十一、实现步骤流程及示例分析
十二、python实现因子分析

本文参考数学建模清风老师课件编写。

一、概述

因子分析由斯皮尔曼在1904年首次提出，其在某种程度上可以被看成是主成分分析的推广和扩展。因子分析法通过研究变量间的相关系数矩阵，把这些变量间错综复杂的关系归结成少数几个综合因子，由于归结出的因子个数少于原始变量的个数，但是它们又包含原始变量的信息，所以，这一分析过程也称为降维。由于因子往往比主成分更易得到解释，故因子分析比主成分分析更容易成功，从而有更广泛的应用。

基本思想：根据相关性大小把变量分组，使得同组内的变量之间相关性较高，但不同组的变量不相关或相关性较低，每组变量代表一个基本结构一即公共因子。
两个核心问题： 一是如何构造因子变量，二是如何对因子变量进行命名解释。
因子分析类型： R型因子分析与Q型因子分析，就像聚类分析分为R型和Q型一样，R型的因子分析是对变量作因子分析，Q型因子分析是对样品作因子分析。

二、因子分析与主成分对比

假设有 $n$ 个样本, $p$ 个指标, 则可构成大小为 $\times p$ 的样本矩阵 $x=\left[\begin{array}{cccc}x_{21} & x_{22} & \cdots & x_{2 p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n 1} & x_{n 2} & \cdots & x_{n p}\end{array}\right]=\left(x_{1}, x_{2}, \cdots, x_{p}\right)$

主成分分析： $x_{1}, x_{2}, \cdots, x_{p} \Rightarrow z_{1}, z_{2}, \cdots, z_{m}(m \leq p)$ , 且它们满足: $\left\{\begin{array}{} z_{1}=l_{11} x_{1}+l_{12} x_{2}+\cdots+l_{1 p} x_{p} \\ z_{2}=l_{21} x_{1}+l_{22} x_{2}+\cdots+l_{2 p} x_{p} \\ \vdots \\ z_{m}=l_{m 1} x_{1}+l_{m 2} x_{2}+\cdots+l_{m p} x_{p} \end{array}\right.$

$z_{1}, z_{2}, \cdots, z_{m}$ 是 $m$ 个主成分, 可以看出, 主成分实际上就是各指标的线性组合。

因子分析： $x_{1}, x_{2}, \cdots, x_{p} \Rightarrow f_{1}, f_{2}, \cdots, f_{m}(m \leq p)$ , 且它们满足: $\left\{\begin{array}{c}x_{1}=u_{1}+a_{11} f_{1}+a_{12} f_{2}+\cdots+a_{1 m} f_{m}+\varepsilon_{1} \\ x_{2}=u_{2}+a_{21} f_{1}+a_{22} f_{2}+\cdots+a_{2 m} f_{m}+\varepsilon_{2} \\ \vdots \\ x_{p}=u_{p}+a_{p 1} f_{1}+a_{p 2} f_{2}+\cdots+a_{p m} f_{m}+\varepsilon_{p}\end{array}\right.$
$f_{1}, f_{2}, \cdots, f_{m}$ 被称为公共因子, $\varepsilon_{i}$ 为特殊因子, 各因子的线性组合构成了原始的指标。
(有点像回归, 回归中自变量是已知的, 因子分析是只知道因变量, 要我们来找自变量)
其他主要区别:

主成分分析只是简单的数值计算, 不需要构造一个模型, 几平没什么假定；而因子分析需要构造一个因子模型，并伴随几个关键性的假定。
主成分的解是唯一的，而因子可有许多解。
主成分分析把方差划分为不同的正交成分，而因子分析则把方差划归为不同的起因因子
因子分析中特征值的计算只能从相关系数矩阵出发，且必须将主成分转换成因子。

联系：

PCA和因子分析都是数据降维的重要方法，都对原始数据进行标准化处理，都消除了原始指标的相关性对综合评价所造成的信息重复的影响，都属于因素分析法，都基于统计分析方法；
二者均应用于高斯分布的数据，非高斯分布的数据采用ICA算法；
二者构造综合评价时所涉及的权数具有客观性，在原始信息损失不大的前提下，减少了后期数据挖掘和分析的工作量。

因子解释成功的可能性要远大于主成分解释成功的可能性。

PCA与FA对比图解：

主成分（PC1和PC2）是自变量(1-5)的线性组合。形成线性组合的权重都是通过最大化各主成分所解释的方差来获得，同时还要保证个主成分间不相关。相反，因子(F1、F2)被当做是自变量的结构基础或“原因”，而不是它们的线性组合。代表自变量方差的误差（e1到e5）无法用因子来解释。图中的椭圆表示因子和误差无法直接观测，但是可通过变量间的相互关系推导得到。

三、因子分析原理

假设大小为 $\times p$ 的随机向量 $x=\left(x_{1}, x_{2}, \cdots, x_{p}\right)$ 的均值 $u=\left(u_{1}, u_{2}, \cdots u_{p}\right)$ , 协方差矩阵 $\Sigma_{p \times p}=\left(\sigma_{i j}\right)$
因子分析的一般模型为: $\left\{ \begin{array}{}x_{1}=u_{1}+a_{11} f_{1}+a_{12} f_{2}+\cdots+a_{1 m} f_{m}+\varepsilon_{1} \\ x_{2}=u_{2}+a_{21} f_{1}+a_{22} f_{2}+\cdots+a_{2 m} f_{m}+\varepsilon_{2} \\ \quad \vdots \\ x_{p}=u_{p}+a_{p 1} f_{1}+a_{p 2} f_{2}+\cdots+a_{p m} f_{m}+\varepsilon_{p} \end{array}\right.$

其中 $f_{1}, f_{2}, \cdots, f_{m}$ 被称为公共因子, $\varepsilon_{i}(i=1,2, \cdots, p)$ 为特殊因子, 它们都是无法观测的随机变量。
公共因子 $f_{1}, f_{2}, \cdots, f_{m}$ 出现在每一个原始变量 $x_{i}(i=1,2, \cdots, p)$ 的表达式中, 可以理解为原始变量共同拥有的某些特征 (具有共同的影响因素) ; 每个特殊因子 $\varepsilon_{i}(i=1,2, \cdots, p$ )仅仅出现在与之相应的第 $i$ 个原始变量 $x_{\mathrm{i}}$ 的表达式中, 它只对这个原始变量起作用。
上面这个式子我们用矩阵形式可记为:
$f+\varepsilon$
其中 $f=\left(f_{1}, f_{2}, \cdots, f_{m}\right)^{\top}(m \leq p)$ 为公因子向量, $\varepsilon=\left(\varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{p}\right)^{\top}$ 为特殊因子向量, $A_{p \times m}=\left(a_{i j}\right)$ 称为因子载荷矩阵, 并假设 $A$ 的秩为 $m$ .
要进行因子分析, 必须要解出 $A$ 这个矩阵, 因此下面我们要给的一些假设用来计算 $A$ 矩阵。

四、因子分析模型的假设

因子分析模型：
$\begin{aligned} &x=\left\{\begin{array}{} x_{1}=u_{1}+a_{11} f_{1}+a_{12} f_{2}+\cdots+a_{1 m} f_{m}+\varepsilon_{1} \\ x_{2}=u_{2}+a_{21} f_{1}+a_{22} f_{2}+\cdots+a_{2 m} f_{m}+\varepsilon_{2} \\ \vdots \\ x_{p}=u_{p}+a_{p 1} f_{1}+a_{p 2} f_{2}+\cdots+a_{p m} f_{m}+\varepsilon_{p} \end{array}=u+Af+\varepsilon\right. \\ &\text {假设 ,}\left\{\begin{array}{l} E(f)=0 \\ E(\varepsilon)=0 \\ \operatorname{Var}(f)=I \\ \operatorname{Var}(\varepsilon)=D=\operatorname{diag}\left(\sigma_{1}^{2}, \sigma_{2}^{2}, \cdots, \sigma_{p}^{2}\right) \\ \operatorname{cov}(f, \varepsilon)=E\left(f \varepsilon^{\top}\right)=0 \end{array}\right. \end{aligned}$
其中 $f=\left(f_{1}, f_{2}, \cdots, f_{m}\right)^{\top}(m \leq p)$ 为公因子向量
$\varepsilon=\left(\varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{p}\right)^{\top}$ 为特殊因子向量
$A_{p \times m}=\left(a_{i j}\right)$ 称为因子载荷矩阵, 并假设 $A$ 的秩为 $m$ .
公因子彼此不相关, 且具有单位方差; 特殊因子彼此不相关且与公因子也不相关。

五、因子载荷矩阵的统计意义

$A$ 的元素 $a_{i j}$ : 原始变量 $x_{i}$ 与公因子 $f_{j}$ 之间的协方差: $a_{i j}=\operatorname{cov}\left(x_{i}, f_{j}\right)$
如果 $x$ 经过了标准化, 则 $a_{i j}=\rho\left(x_{i}, f_{j}\right)\left(x_{i}\right.$ 和 $f_{j}$ 的相关系数 $)$
$A$ 的行元素平方和 $h_{i}^{2}=\sum_{j=1}^{m} a_{i j}^{2}$ : 原始变量 $x_{i}$ 对公因子依赖的程度
可以证明: $\operatorname{Var}\left(x_{i}\right)=h_{i}^{2}+\sigma_{i}^{2}(i=1,2, \cdots, p)$
$h_{i}^{2}$ 反应了公因子对于 $x_{i}$ 的影响, 可以看成是公因子对于 $x_{i}$ 的方差贡献，称为共性方差; 而 $\sigma_{i}^{2}$ 是特殊因子 $\varepsilon_{i}$ 对 $x_{i}$ 的方差贡献, 称为个性方差。如果 $x$ 经过了标准化, 则 $h_{i}^{2}+\sigma_{i}^{2}=1$ .
$A$ 的列元素平方和 $g_{j}^{2}=\sum_{i=1}^{p} a_{i j}^{2}$ : 公因子 $f_{j}$ 对 $x$ 的贡献
可以证明:
$\begin{aligned} \sum_{i=1}^{p} \operatorname{Var}\left(x_{i}\right) &=\sum_{i=1}^{p} a_{i 1}^{2} \operatorname{Var}\left(f_{1}\right)+\sum_{i=1}^{p} a_{i 2}^{2} \operatorname{Var}\left(f_{2}\right)+\cdots+\sum_{i=1}^{p} a_{i m}^{2} \operatorname{Var}\left(f_{m}\right)+\sum_{i=1}^{p} \operatorname{Var}\left(\varepsilon_{i}\right) \\ &=g_{1}^{2} \operatorname{Var}\left(f_{1}\right)+g_{2}^{2} \operatorname{Var}\left(f_{2}\right)+\cdots+g_{m}^{2} \operatorname{Var}\left(f_{m}\right)+\sum_{i=1}^{p} \sigma_{i}^{2} \\ &=g_{1}^{2}+g_{2}^{2}+\cdots+g_{m}^{2}+\sum_{i=1}^{p} \sigma_{i}^{2} \end{aligned}$
从上述的推导中可以看出, $A$ 的第 $j$ 列元素的平方和 $g_{j}^{2}$ 是 $\operatorname{Var}\left(f_{j}\right)$ 的系数, $g_{j}^{2}$ 的值越大, 反映了 $f_{j}$ 对 $x$ 的影响越大, $g_{j}^{2}$ 是衡量公因子 $f_{j}$ 重要性的一个尺度, 可视为公因子 $f_{j}$ 对 $x$ 的贡献。

六、因子模型的性质

$x$ 的协方差矩阵 $\Sigma$ 的分解
$\begin{aligned} x=u+A f+\varepsilon ， \text { 假设 }\left\{\begin{array}{l} E(f)=0 \\ E(\varepsilon)=0 \\ \operatorname{Var}(f)=I \\ \operatorname{Var}(\varepsilon)=D=\operatorname{diag}\left(\sigma_{1}^{2}, \sigma_{2}^{2}, \cdots, \sigma_{p}^{2}\right) \\ \operatorname{cov}(f, \varepsilon)=E\left(f \varepsilon^{\top}\right)=0 \end{array}\right.\end{aligned}$
$\begin{aligned} \operatorname{Var}(x)&=E\left[(x-u)(x-u)^{\top}\right]=E\left[(A f+\varepsilon)(A f+\varepsilon)^{\top}\right] \\ &=A E\left(f f^{\top}\right) A^{\top}+A E\left(f \varepsilon^{\top}\right)+E\left(\varepsilon f^{\top}\right) A^{\top}+E\left(\varepsilon \varepsilon^{\top}\right) \\ &=A \operatorname{Var}(f) A^{\top}+\operatorname{Var}(\varepsilon) \\ &=A A^{\top}+D \end{aligned}$
因子载荷不唯一
令 $T$ 为任意一个 $\times m$ 的正交矩阵, 令 $A^{*}=A T, f^{*}=T^{\top} f$ , 则模型可表示为:
$x=u+A^{*} f^{*}+\varepsilon \text {, 因为假设仍然成立 }\left\{\begin{array}{l} E\left(f^{*}\right)=T^{\top} E(f)=0 \\ E(\varepsilon)=0 \\ \operatorname{Var}\left(f^{*}\right)=T^{\top} \operatorname{Var}(f) T=T^{\top} I T=I \\ \operatorname{Var}(\varepsilon)=D=\operatorname{diag}\left(\sigma_{1}^{2}, \sigma_{2}^{2}, \cdots, \sigma_{p}^{2}\right) \\ \operatorname{cov}\left(f^{*}, \varepsilon\right)=E\left(f^{*} \varepsilon^{\top}\right)=T^{\top} E\left(f \varepsilon^{\top}\right)=0 \end{array}\right.$
正是因为因子载荷矩阵A不是唯一的，在实际的应用中我们常常利用这一点，通过因子的变换，使得新的因子具有更容易解释的实际意义。这就是因子分析往往比主成分分析的结果更容易解释的原因。

七、参数估计

设 $x_{1}, x_{2}, \cdots, x_{n}$ 是一组 $p$ 维样本, 则 $u$ 和 $\Sigma$ 可分别估计为: $\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}$ 和 $S^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(x_{i}-\bar{x}\right)^{\top}$ 为了建立因子模型, 我们需要估计出因子载荷矩阵 $A_{p \times m}=\left(a_{i j}\right)$ , 以及个性方差矩阵 $D=\operatorname{diag}\left(\sigma_{1}^{2}, \sigma_{2}^{2}, \cdots, \sigma_{p}^{2}\right)$ .

参数估计方法：
主成分法: 假设变量是因子的线性组合, 第一主成分有最大的方差, 后续主成分所解释的方差逐渐减小, 各主成分之间互不相关, 主成分法通常用来计算初始公因子, 它也适用于相关矩阵为奇异时的情况。

设 $\lambda_{1} \geq \lambda_{2} \geq \cdots \geq \lambda_{p}$ 为样本相关系数矩阵 R 的特征值, $\eta_{1}, \eta_{2}, \cdots, \eta_{p}$ 为相应的标准正交化特征向量。设m

$A=\left(\sqrt{\lambda_{1}} \eta_{1}, \sqrt{\lambda_{2}} \eta_{2}, \cdots, \sqrt{\lambda_{m}} \eta_{m}\right)$

特殊因子的方差用 $R-A A^{T}$ 的对角元来估计, 即

$\sigma_{i}^{2}=1-\sum_{j=1}^{m} a_{i j}^{2}$

末加权最小平方法: 使得观测的相关矩阵和再生的相关矩阵之差的平方和最小, 忽略对角元素。
综合最小平方法: 使得观测的相关矩阵和再生的相关矩阵之差的平方和最小,
并以变量单值的倒数对相关系数加权。
最大似然法: 假设样本来自多元正态分布, 使用极大使然估计。
主因子法: 从初始相关矩阵提取公共因子, 并把多元相关系数的平方置于对角线上, 再用初始因子载荷估计新的变量共同度, 如此重复直至变量共同度在两次相邻迭代中的变化达到临界条件。

主因子方法是对主成分方法的修正, 假定我们首先对变量进行标准化变换。则
$\begin{array}{l} R=A A^{T}+D \\ R^{*}=A A^{T}=R-D \end{array}$
称 $R^{*}$ 为约相关系数矩阵, $R^{*}$ 对角线上的元素是 $h_{i}^{2}$ , 而不是 1 。

$R^{*}=R-D=\left[\begin{array}{cccc} \hat{h}_{1}^{2} & r_{12} & \cdots & r_{1 p} \\ r_{21} & \hat{h}_{2}^{2} & \cdots & r_{2 p} \\ \vdots & \vdots & & \vdots \\ r_{p 1} & r_{p 2} & \cdots & \hat{h}_{p}^{2} \end{array}\right]$

直接求 $R^{*}$ 的前 $p$ 个特征值和对应的正交特征向量。得到如下的矩阵

$A=\left[\begin{array}{llll} \sqrt{\lambda_{1}^{*}} u_{1}^{*} & \sqrt{\lambda_{2}^{*}} u_{2}^{*} & \cdots & \sqrt{\lambda_{p}^{*}} u_{p}^{*} \end{array}\right]$

其中 $R^{*}$ 的特征值: $\lambda_{1}^{*} \geq \lambda_{2}^{*} \geq \cdots \geq \lambda_{p}^{*}$ , 对应的正交特征向量为 $u_{1}^{*}, u_{2}^{*}, \cdots, u_{p}^{*}$ 。
在实际应用中, 特殊因子的方差一般都是末知的, 可以通过一组样本来估计。估计的方法有如下几种:

取 $\hat{h}_{i}^{2}=1$ , 在这个情况下主因子解与主成分解等价。
取 $\hat{h}_{i}^{2}=R_{i}^{2}$ , $R_{i}^{2}$ 为 $x_{i}$ 与其它所有的原始变量 $x_{j}$ 的复相关系数的平方, 即 $x_{i}$ 对其余的 $p - 1$ 个 $x_{j}$ 的回归方程的判定系数，这是因为 $x_{i}$ 与公共因子的关系是通过其余的 $p - 1$ 个 $x_{j}$ 的线性组合联系起来的。
取 $\hat{h}_{i}^{2}=\max _{j \neq i}\left|r_{i j}\right|$ , 这意味着取 $x_{i}$ 与其余的 $x_{j}$ 的简单相关系数的绝对值最大者。
取 $\hat{h_{i}^{2}}=\frac{1}{p-1} \sum_{j=1 ; j \neq i}^{p} r_{i j}$ ，其中要求该值为正数。
取 $h_{i}^{2}=\frac{1}{r^{i i}}$ ，其中 $r^{i i} 是 R^{-1}$ 的对角元素。

Alpha 因子法: 把当前分析变量看作是所有潜在变量的一个样本, 最大化因子的Alpha可靠性。
映像因子法: 把每个变量的主要部分定义为其他各变量的线性回归, 而不是潜在因子的函数。

最常用主成分法、最大似然法和主轴因子法。

七、因子旋转方法

得到因子模型后，其中的公共因子不一定能反映问题的实质特征，为了能更好地解释每一个公共因子的实际意义，且减少解释的主观性，可以通过因子旋转达到目的。因子旋转分为正交旋转与斜交旋转，经过正交旋转而得到的新的公共因子仍然保持彼此独立的性质，而斜交旋转得到的公共因子是相关的(违背了最初的假定，因此可以看作传统因子分析的拓展)，其实际意义更容易解释。但不论是正交旋转还是斜交旋转，都应当使新公共因子的载荷系数的绝对值尽可能接近0或1。

最大方差法 (Varimax Method)： 一种正交旋转方法, 它使得对每个因子有高负载的变量的数目达到最小。该方法简化了因子的解释。
直接 Oblimin 方法： 一种斜交 (非正交) 旋转方法。当 delta 等于 0 (缺省值) 时, 解是最斜交的。 delta 负得越厉害, 因子的斜交度越低。要覆盖缺省的 delta 值 0 , 请输人小于等于 $0.8$ 的数。
最大四次方值法 (Quartimax Method)： 一种旋转方法, 它可使得解释每个变量所需的因子最少。该方法简化了观察到的变量的解释。
最大平衡值法 (Equamax Method)： 一种旋转方法, 它是简化因子的最大方差法与简化变量的最大四次方值法的组合。它可以使得高度依赖因子的变量的个数以及解释变量所需的因子的个数最少。
最优斜交旋转 (Promax Rotation)： 斜交旋转, 可使因子相关联。该旋转可比直接最小斜交旋转更快地计算出来, 因此适用于大型数据集。

八、因子得分

因子分析是将变量表示为公共因子和特殊因子的线性组合；此外, 我们可以反过来将公共因子表示为原变量的线性组合, 即可得到因子得分。
$\left\{\begin{array} { l } { x _ { 1 } = u _ { 1 } + a _ { 1 1 } f _ { 1 } + a _ { 1 2 } f _ { 2 } + \cdots + a _ { 1 m } f _ { m } + \varepsilon _ { 1 } } \\ { x _ { 2 } = u _ { 2 } + a _ { 2 1 } f _ { 1 } + a _ { 2 2 } f _ { 2 } + \cdots + a _ { 2 m } f _ { m } + \varepsilon _ { 2 } } \\ { \vdots } \\ { x _ { p } = u _ { p } + a _ { p 1 } f _ { 1 } + a _ { p 2 } f _ { 2 } + \cdots + a _ { p m } f _ { m } + \varepsilon _ { p } } \end{array} \Rightarrow \left\{\begin{array}{c} f_{1}=b_{11} x_{1}+b_{12} x_{2}+\cdots+b_{1 p} x_{p} \\ f_{2}=b_{21} x_{1}+b_{22} x_{2}+\cdots+b_{2 p} x_{p} \\ \vdots \\ f_{m}=b_{m 1} x_{1}+b_{m 2} x_{2}+\cdots+b_{m p} x_{p} \end{array}\right.\right.$
第 $i$ 个因子的得分可写成 $f_{i}=b_{i 1} x_{1}+b_{i 2} x_{2}+\cdots+b_{i p} x_{p}(i=1,2, \cdots, m)$ $b_{i j}$ 就是第 $i$ 个因子的得分对应于第 $j$ 个变量 $x_{j}$ 的系数
注：我们计算出因子得分函数的系数后，就能够求出所有的因子得分。

计算因子得分的可选方法有回归、Bartlett 和 Anderson-Rubin。

回归法 (Regression Method). 一种估计因子得分系数的方法。生成的分数的平均值为 0 , 方差等于估计的因子分数和真正的因子值之间的平方多相关性。即使因子是正交的, 分数也可能相关。
不妨设
$\left[\begin{array}{} X_{1} \\ X_{2} \\ \vdots \\ X_{p} \end{array}\right]=\left[\begin{array}{} a_{11} & a_{12} & \cdots & a_{1 m} \\ a_{21} & a_{22} & \cdots & a_{2 m} \\ \vdots & \vdots & & \vdots \\ a_{p 1} & a_{p 2} & \cdots & a_{p m} \end{array}\right]\left[\begin{array}{c} F_{1} \\ F_{2} \\ \vdots \\ F_{m} \end{array}\right]+\left[\begin{array}{c} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{p} \end{array}\right]$

因子得分函数

$\hat{F}_{j}=b_{j 1} X_{1}+\cdots+b_{j p} X_{p}, (j=1,2, \cdots, m)$

由于

$\begin{array}{c} a_{i j}=\gamma_{X_{i} F_{j}}=E\left(X_{i} F_{j}\right)=E\left[X_{i}\left(b_{j 1} X_{1}+\cdots+b_{j p} X_{p}\right)\right] \\ =b_{j 1} \gamma_{i 1}+\cdots+b_{j p} \gamma_{i p}=\left[\begin{array}{llll} \gamma_{i 1} & \gamma_{i 2} & \cdots & \gamma_{i p} \end{array}\right]\left[\begin{array}{c} b_{j 1} \\ b_{j 2} \\ \vdots \\ b_{j p} \end{array}\right] \end{array}$

则我们有如下的方程组

$\left[\begin{array}{cccc} \gamma_{11} & \gamma_{12} & \cdots & \gamma_{1 p} \\ \gamma_{21} & \gamma_{22} & \cdots & \gamma_{2 p} \\ \vdots & \vdots & & \vdots \\ \gamma_{p 1} & b_{p 2} & \cdots & b_{p p} \end{array}\right]\left[\begin{array}{c} b_{j 1} \\ b_{j 2} \\ \vdots \\ b_{j p} \end{array}\right]=\left[\begin{array}{c} a_{1 j} \\ a_{2 j} \\ \vdots \\ a_{p j} \end{array}\right]$

其中

$\left[\begin{array}{cccc} \gamma_{11} & \gamma_{12} & \cdots & \gamma_{1 p} \\ \gamma_{21} & \gamma_{22} & \cdots & \gamma_{2 p} \\ \vdots & \vdots & & \vdots \\ \gamma_{p 1} & b_{p 2} & \cdots & b_{p p} \end{array}\right],\left[\begin{array}{c} b_{j 1} \\ b_{j 2} \\ \vdots \\ b_{j p} \end{array}\right],\left[\begin{array}{c} a_{1 j} \\ a_{2 j} \\ \vdots \\ a_{p j} \end{array}\right]$

分别为原始变量的相关系数矩阵, 第 j 个因子得分函数的系数, 载荷矩阵的第 j 列。
用矩阵表示有

$\left[\begin{array}{cccc} b_{11} & b_{21} & \cdots & b_{m 1} \\ b_{12} & b_{22} & \cdots & b_{m 2} \\ \vdots & \vdots & & \vdots \\ b_{1 p} & b_{2 p} & \cdots & b_{m p} \end{array}\right]=R^{-1} A$

因此, 因子得分的估计为

$\hat{F}=\left(\hat{F}_{i j}\right)_{n \times m}=X_{0} R^{-1} A$

其中 $\hat{F}_{i j}$ 为第 $i$ 个样本点对第 $j$ 个因子 $F_{j}$ 得分的估计值, $X_{0}$ 是 $\times m$ 的原始数据矩阵。

Bartlett 得分。一种估计因子得分系数的方法。所产生分数的平均值为 0 。使整个变量范围中所有唯一因子的平方和达到最小。巴特莱特因子得分
把 $x_{i}-\mu_{i}$ 看作因变量, 把因子载荷矩阵

$\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1 m} \\ a_{21} & a_{22} & \cdots & a_{2 m} \\ \vdots & \vdots & & \vdots \\ a_{p 1} & a_{p 2} & \cdots & a_{p m} \end{array}\right]$

看成自变量的观测。

$\left\{\begin{array}{l} x_{i 1}-\mu_{1}=a_{11} f_{1}+a_{12} f_{2}+\cdots+a_{1 m} f_{m}+\varepsilon_{1} \\ x_{i 2}-\mu_{2}=a_{21} f_{1}+a_{22} f_{2}+\cdots+a_{2 m} f_{m}+\varepsilon_{2} \\ \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \\ x_{i p}-\mu_{p}=a_{p 1} f_{1}+a_{p 2} f_{2}+\cdots+a_{p m} f_{m}+\varepsilon_{p} \end{array}\right.$

由于特殊因子的方差相异, 所以用加权最小二乘法求得分。使

$\sum_{j=1}^{p}\left[\left(x_{i j}-\mu_{i}\right)-\left(a_{i 1} \hat{f}_{1}+a_{i 2} \hat{f}_{2}+\cdots a_{i m} \hat{f}_{m}\right)\right]^{2} / \sigma_{i}^{2}$

最小的 $\hat{f}_{1}, \cdots, \hat{f}_{m}$ 是相应个案的因子得分。
用矩阵表达有

$x-\mu=A F+\varepsilon$

则要使

$(x-\mu-A F)^{T} D^{-1}(x-\mu-A F)$

达到最小, 其中

$D=\left[\begin{array}{lll} \sigma_{1}^{2} & & \\ & \ddots & \\ & & \sigma_{p}^{2} \end{array}\right]$

使取得最小值的 $F$ 是相应个案的因子得分。
计算得 $F$ 满足

$A^{T} D^{-1} F=A^{T} D^{-1} A(x-\mu)$

解之得

$\hat{F}=\left(A^{T} D^{-1} A\right)^{-1} A^{T} D^{-1}(x-\mu)$

Anderson-Rubin 方法 (Anderson-Rubin Method). 一种估计因子得分系数的方; 它对 Bartlett 方法做了修正, 从而确保被估计的因子的正交性。生成的分数平均值为 0 , 标准差为 1 , 且不相关。安德森一鲁宾因子得分法

九、数据检验

9.1 KMO检验

KMO检验是 Kaiser, Meyer和 Olkin提出的，该检验是对原始变量之间的简单相关系数和偏相关系数的相对大小进行验，主要应用于多元统计的因子分析。KMO统计量是取值在0和1之间，当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时， KMO值越接近于1，意味着变量间的相关性越强，原有变量越适合作因子分析；当所有变量间的简单相关系数平方和接近0时， KMO值越接近于0,意味着变量间的相关性越弱，原有变量越不适合作因子分析。其中， Kaiser给出一个KMO检验标准： KMO>0.9,非常适合； 0.8

9.2 巴特利特球形检验

巴特利特球形检验是一种检验各个变量之间相关性程度的检验方法。一般在做因子分析之前都要进行巴特利特球形检验，用于判断变量是否适合用于做因子分析。巴特利特球形检验是以变量的相关系数矩阵为出发点的。它的原假设是相关系数矩阵是一个单位阵（不适合做因子分析，指标之间的相关性太差，不适合降维），即相关系数矩阵对角线上的所有元素都是1，所有非对角线上的元素都为0。巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到的。如果该值较大，且其对应的p值小于用户心中的显著性水平（一般为0.05），那么应该拒绝原假设，认为相关系数不可能是单位阵，即原始变量之间存在相关性，适合于作因子分析。相反不适合作因子分析。

9.3 碎石检验

碎石检验（scree test）是根据碎石图来决定因素数的方法。Kaiser提出，可通过直接观察特征值的变化来决定因素数。当某个特征值较前一特征值的值出现较大的下降，而这个特征值较小，其后面的特征值变化不大，说明添加相应于该特征值的因素只能增加很少的信息，所以前几个特征值就是应抽取的公共因子数。

碎石图得到的因子数只起到参考作用；在因子分析应用于某些专业问题上时，可能事先我们已经知道了最后要确定的因子数，这时候碎石图的意义就不大了。

十、应用

因子分析跟主成分分析一样，由于侧重点都是进行数据降维，因此很少单独使用，大多数情况下都会有一些模型组合使用。例如：

因子分析（主成分分析）+多元回归分析：判断并解决共线性问题之后进行回归预测；
因子分析（主成分分析）+聚类分析：通过降维后的数据进行聚类并分析数据特点，但因子分析会更适合，原因是基于因子的聚类结果更容易解释，而基于主成分的聚类结果很难解释；
因子分析（主成分分析）+分类：数据降维（或数据压缩）后进行分类预测，这也是常用的组合方法。

十一、实现步骤流程及示例分析

流程：

相关性检验，一般采用KMO检验法和Bartlett球形检验法两种方法来对原始变量进行相关性检验；
输入原始数据 $X_{n*p}$ ，计算样本均值和方差，对数据样本进行标准化处理；
计算样本的相关矩阵 $R$ ；
求相关矩阵R的特征根和特征向量；
根据系统要求的累积贡献率确定公共因子的个数；
计算因子载荷矩阵 $A$ ；
对载荷矩阵进行旋转，以求能更好地解释公共因子；
确定因子模型；
根据上述计算结果，求因子得分，对系统进行分析

示例：
假设某一社会经济系统问题, 其主要特性可用 4 个指标表示, 它们分别是生产、技术、交通和环境。其相关矩阵为:

$R=\left[\begin{array}{cccc} 1 & 0.64 & 0.29 & 0.1 \\ 0.64 & 1 & 0.7 & 0.3 \\ 0.29 & 0.7 & 1 & 0.84 \\ 0.1 & 0.3 & 0.84 & 1 \end{array}\right]$

相应的特征值、占总体百分比和累计百分比如下表:

对应特征值的特征向量矩阵为:

$U=\left[\begin{array}{cccc} 0.38 & 0.67 & 0.62 & -0.14 \\ 0.54 & 0.36 & -0.61 & 0.46 \\ 0.59 & -0.3 & -0.2 & -0.72 \\ 0.47 & -0.58 & 0.45 & 0.50 \end{array}\right]$

假吅要求所取特征值反映的信息量占总体信息量的 90 % 以上，则从男计徍征值所占百分比看，只需取前两项即可。也就是说，只需取两个主要因子。对应于前两列特征值的特征向量, 可求的其因子载荷矩阵A为:

$A=\left[\begin{array}{cc} 0.60 & 0.71 \\ 0.85 & 0.38 \\ 0.93 & -0.32 \\ 0.74 & -0.40 \end{array}\right]$

于是，该问题的因子模型为:

$\begin{array}{l} x_{l}=0.60 f_{1}+0.71 f_{2} \\ x_{2}=0.85 f_{1}+0.38 f_{2} \\ x_{3}=0.93 f_{1}-0.32 f_{2} \\ x_{4}=0.74 f_{1}-0.40 f_{2} \end{array}$
因子分析：由以上可以看出，两个因子中， $f_1$ 是全面反映生产、技术、交通和环境的因子，而 $f_2$ 却不同，它反映了对生产和技术这两项增长有利，而对交通和环境增长不利的因子。也就是说，按照原有统计资料得出的相关矩阵分析的结果是如果生产和技术都随 $f_2$ 增长了，将有可能出现交通紧张和环境恶化的问题， $f_2$ 反映了这两方面的相互制约状况。

十二、python实现因子分析

数据集：

列名使用中文会报错，未解决。采用x(1-8)代替不影响结果。

导入库

# 数据处理
import pandas as pd
import numpy as np
# 绘图
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib as mpl
# 因子分析
from factor_analyzer import FactorAnalyzer
# Bartlett's球状检验
from factor_analyzer.factor_analyzer import calculate_bartlett_sphericity
#KMO检验
from factor_analyzer.factor_analyzer import calculate_kmo

导入数据，去掉城市一列

df = pd.read_excel("data_1.xls",index_col=0).reset_index(drop=True)
print(df)
print(df.isnull().sum())

数据检验

# Bartlett's球状检验
# 检验总体变量的相关矩阵是否是单位阵（相关系数矩阵对角线的所有元素均为1,所有非对角线上的元素均为零）；即检验各个变量是否各自独立。
# 如果不是单位矩阵，说明原变量之间存在相关性，可以进行因子分子；反之，原变量之间不存在相关性，数据不适合进行主成分分析
chi_square_value, p_value = calculate_bartlett_sphericity(df)
print("Bartlett's球状检验参数：\n",chi_square_value, p_value)
#KMO检验
# 检查变量间的相关性和偏相关性，取值在0-1之间；KOM统计量越接近1，变量间的相关性越强，偏相关性越弱，因子分析的效果越好。
# 通常取值从0.6开始进行因子分析
kmo_all,kmo_model=calculate_kmo(df)
print("KMO检验参数：\n",kmo_model)

选择因子个数

# 构建因子分析模型
fa = FactorAnalyzer(8, rotation=None)
# 训练模型
fa.fit(df)

# 得到特征值ev、特征向量v
ev, v = fa.get_eigenvalues()
print(ev, v)

# 同样的数据绘制散点图和折线图
plt.scatter(range(1, df.shape[1] + 1), ev)
plt.plot(range(1, df.shape[1] + 1), ev)

# 显示图的标题和xy轴的名字
# 最好使用英文，中文可能乱码
plt.title("Scree Plot")
plt.xlabel("Factors")
plt.ylabel("Eigenvalue")


mpl.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
mpl.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题
plt.grid()  # 显示网格
plt.show()  # 显示图形

因子旋转

# 选择方式： varimax 方差最大化
# 选择固定因子为2个
fa_two = FactorAnalyzer(2,rotation='varimax')
fa_two.fit(df)
# 查看每个变量的公因子方差数据
pd.DataFrame(fa_two.get_communalities(),index=df.columns)
# 查看旋转后的特征值
pd.DataFrame(fa_two.get_eigenvalues())
# 查看成分矩阵
# 变量个数*因子个数
pd.DataFrame(fa_two.loadings_,index=df.columns)
# 查看因子贡献率
fa_two.get_factor_variance()
# 隐藏变量可视化
df1 = pd.DataFrame(np.abs(fa_two.loadings_),index=df.columns)
print(df1)

# 绘图

plt.figure(figsize=(14, 14))
ax = sns.heatmap(df1, annot=True, cmap="BuPu")

# 设置y轴字体大小
ax.yaxis.set_tick_params(labelsize=15)
plt.title("Factor Analysis", fontsize="xx-large")

# 设置y轴标签
plt.ylabel("Sepal Width", fontsize="xx-large")
# 显示图片
plt.show()

# 保存图片
# plt.savefig("factorAnalysis", dpi=500)

因子分析新变量

# 转换新变量
df2 = pd.DataFrame(fa_two.transform(df))
print(df2)

碎石图：

系数矩阵：

你可能感兴趣的:(python,降维,概率论,python,算法,概率论)

Django ORM 1. 创建模型（Model）博观而约取 Python django 数据库 python
1.ORM介绍什么是ORM？ORM，全称Object-RelationalMapping（对象关系映射），一种通过对象操作数据库的技术。它的核心思想是：我们不直接写SQL，而是用Python对象（类/实例）来操作数据库表和记录。ORM就像一个“翻译官”，帮我们把Python代码翻译成数据库能听懂的SQL命令。为什么使用ORM?Django中的ORM提供了一个高层次、抽象化的接口来操作数据库，它的优
操作系统基本概念与进程管理：从入门到精通阿贾克斯的黎明软考软考
目录操作系统基本概念与进程管理：从入门到精通一、常见操作系统与计算机系统层次结构二、操作系统的概念、功能与特征三、操作系统的发展与分类四、进程管理（一）进程的状态与状态转换（二）前驱图（三）进程同步与互斥机制（四）信号量机制与PV操作（五）PV操作实现前驱关系（六）死锁（七）银行家算法在计算机的世界里，操作系统就像是一位幕后的“大管家”，默默管理着计算机的各种资源，协调着各种程序的运行。今天，咱们
Python中np.vstack和np.hstack的应用解释
Python中np.vstack和np.hstack的应用解释用法说明对于np.vstack和np.hstack各自有两种用法•第1种：np.vstack((a,b))或np.hstack((a,b))，即常规用法，也就是两个维数相等的ndarray在对应的方向上进行合并•第2种：np.vstack(a)或np.hstack(a)，对一个ndarray在其内部对应的方向上进行合并，这种属于非常规用
python np.hstack gz153016 python语法总结
importnumpyasnparr1=np.array([1,2,3])arr2=np.array([4,5,6])#print('np.vstack((arr1,arr2)):',np.vstack((arr1,arr2)))print('np.hstack((arr1,arr2)):',np.hstack((arr1,arr2)))#np.hstack((arr1,arr2)):[12345
Python个人学习基础笔记-3.爬虫（1）孜宸润泽 python 学习笔记
一.爬虫的定义爬虫（crawler/spider）是模拟浏览器行为，按照编写规则，自动接收网页信息的工具。通常而言爬虫首先从初始URL集选择URL，向目标网页发起请求，获取网页的HTML源码，然后将获取的数据进行解析过滤，保存我们所需要的标题、内容等，最后提取新的URL加入待爬序列。爬虫常见所需要的库包括Request库、BeautifulSoup4库、Scrapy库和Selenium库等。二.R
Python开发AI智能体(三)———Langchain定义提示词模板【本人】 Agent智能体 python 人工智能 langchain 语言模型
前言上篇文章给大家介绍AI项目检测平台LangSmish以及开源框架Langchain的使用，并且带领大家编写了一个案例。这篇文章将介绍在Langchain框架中如何定义提示词模板一、什么是提示词模板？提示词模板（PromptTemplate）是大语言模型（LLM）应用开发中的核心概念，本质是预定义的提示结构框架。它通过将静态文本与动态变量结合，实现标准化、可复用的提示生成机制。它提示词可以是一个
python：pydub模块 face丶第三方模块音频 pydub
一、安装1、安装模块pipinstallpydub2、安装插件云盘中下载文件ffmpeg打开电脑上的控制面板-系统-高级系统设置-环境变量然后双击path,看到如下的界面：然后点新建会出现一个新建的地址栏，你需要在这个新建地址栏里输入一个文件地址：打开你下载的ffmpeg文件中的bin文件，你应该可以看到一个这样的界面，把这个界面中地址栏中的地址复制粘贴到上面图片新建的地址栏中，然后点确定，来保存
将Python Tkinter程序转换为手机可运行的Web应用 - 详细教程随机森林404 python 智能手机前端
前言作为一名Python开发者，你可能已经使用Tkinter创建了一些桌面GUI应用。但是如何让这些应用也能在手机上运行呢？本教程将详细介绍如何将基于Tkinter的Python程序转换为手机可访问的Web应用，让你的应用随时随地可用！一、为什么需要转换？Tkinter是Python的标准GUI库，但它主要针对桌面环境。移动设备(Android/iOS)上无法直接运行Tkinter程序，主要原因有
C++快速排序算法详解与实现小小的博客排序算法 c++算法排序算法 c++排序算法
快速排序（QuickSort）是一种高效的排序算法，由英国计算机科学家东尼·霍尔（TonyHoare）于1960年发明。本文将详细讲解快速排序算法的原理和实现，并通过C++语言展示其代码实现。1.快速排序算法原理快速排序算法的基本思想是分治法（DivideandConquer），其核心步骤如下：1.选择一个基准元素（pivot），通常选择序列中的第一个或最后一个元素。2.将序列分为两部分，一部分是
如何使用 langchain 与 openAI 连接海乐学习 langchain python langchain python
上一篇写了如何安装langchainhttps://www.cnblogs.com/hailexuexi/p/18087602这里主要说一个langchain的使用创建一个目录langchain，在这个目录下创建两个文件main.py这段python代码，用到了openAI，需要openAI及FQ。这里只做为示例#-*-coding:utf-8-*-fromlangchain.text_split
Pydub音频处理库核心API详解滕娴殉
Pydub音频处理库核心API详解pydubManipulateaudiowithasimpleandeasyhighlevelinterface项目地址:https://gitcode.com/gh_mirrors/py/pydub概述Pydub是一个功能强大的Python音频处理库，它提供了简洁直观的API来处理各种音频操作。本文将深入解析Pydub的核心功能，帮助开发者快速掌握音频处理的关键
Spring Cloud Ribbon核心负载均衡算法详解代码的余温 spring cloud ribbon 负载均衡
Ribbon作为SpringCloud生态中的客户端负载均衡工具，提供多种动态负载均衡算法，根据后端服务状态智能分配请求。其核心算法及适用场景如下：一、Ribbon负载均衡算法算法名称工作原理引用来源轮询(RoundRobinRule)按服务列表顺序依次分发请求，实现均匀分摊负载随机(RandomRule)从可用服务列表中随机选择一个实例处理请求加权响应时间(WeightedResponseTim
后端技术：利用 MySQL 实现数据加密大厂资深架构师 Spring Boot 开发实战 mysql 数据库 ai
后端技术：利用MySQL实现数据加密关键词：MySQL数据加密、AES加密、数据库安全、数据保护、加密算法、密钥管理、SQL注入防御摘要：本文深入探讨如何在MySQL数据库中实现数据加密，保护敏感信息免受未授权访问。我们将从加密的基本原理出发，详细讲解MySQL支持的多种加密方式，包括AES、SHA等算法的实现方法。文章包含完整的代码示例和最佳实践，帮助开发者在实际项目中应用数据加密技术，同时讨论
【LeetCode】滑动窗口相关算法题在成都搬砖的鸭鸭 Golang刷LeetCode 算法 leetcode
目录1、介绍2、核心思想3、算法题【1】长度最小的子数组1、介绍滑动窗口算法是一种高效处理数组/字符串子序列化问题的技术，它通过维护一个动态的窗口来避免不必要的重复计算。2、核心思想1、窗口定义：使用两个指针表示当前考察的子序列2、窗口移动：右指针扩张，扩大窗口范围，包含新元素；左指针收缩，缩小窗口范围，排除旧元素3、状态维护：在窗口移动过程中维护关键状态信息3、算法题【1】长度最小的子数组Lee
快速排序（快排）实现及原理 hixiaoyang 排序算法算法 java
一、算法概述快速排序（QuickSort）是由TonyHoare在1960年提出的一种分治算法，平均时间复杂度为O(nlogn)，最坏情况下为O(n²)。它是目前实践中最高效的通用排序算法之一。核心思想：通过一趟排序将待排记录分隔成独立的两部分，其中一部分记录的关键字均比另一部分的关键字小，然后递归地对这两部分记录继续进行排序。二、算法原理1.基本步骤选择基准（pivot）：从数组中选择一个元素作
机器视觉_图像算法（六）——形状矩(Hu) 智能之心 #机器视觉_图像算法形状矩 opencv
图像形状矩：一个从一幅数字图形中计算出来的矩集，通常描述了该图像形状的全局特征，并提供了大量的关于该图像不同类型的几何特性信息，比如大小、位置、方向及形状等。一阶矩与形状有关，二阶矩显示曲线围绕直线平均值的扩展程度，三阶矩则是关于平均值的对称性的测量。由二阶矩和三阶矩可以导出一组共7个不变矩。而不变矩是图像的统计特性，满足平移、伸缩、旋转均不变的不变性，在图像识别领域得到了广泛的应用。一般由mom
python循环语句for BuckData python
目录1、for循环2、示例1、for循环Pythonfor循环可以遍历任何可迭代对象。通过使用for循环，我们可以为列表、元组、集合中的每个项目等执行一组语句。range()函数如需循环一组代码指定的次数，我们可以使用range()函数，range()函数返回一个数字序列，默认情况下从0开始，并递增1（默认地），并以指定的数字结束。2、示例#遍历字典d={'CNY':'人民币','USD':'美元
重温经典第二弹（xdoj1175，xdoj1179） Owen_Q 搜索暴力枚举字符串
一转眼，记忆又来到了暑假。或许，这是一个这算是自己真正开始接触了解acm的一个时间点吧，各种算法数据结构，开始慢慢浮出水面。回顾当初，感慨万千。又找出了两道未ac之题，确实复杂度明显加强，思维性的进一步考验。Count思路：子串搜索问题，因为n和k大到2e5，因此，肯定是个单向处理不能回溯的问题，否则最坏n方的复杂度是难以接受的。对于单次搜索，考虑可以维护现有区间的元素，然后移位遍历向后搜索，对于
python循环语句
Python循环语句文章目录Python循环语句一、实验目的二、实验原理三、实验环境四、实验内容五、实验步骤1.While循环结构2.While无限循环3.For循环语法4.break语句和continue语句一、实验目的掌握循环结构的语法二、实验原理Python中的循环语句有for和while。Python循环语句的控制结构图如下所示：三、实验环境Python3.6以上PyCharm四、实验内容
基于opencv的鱼群检测和数量统计识别鱼群密度带界面
完整项目点文末名片查看获取一、项目简介本项目旨在通过计算机视觉技术，实现对视频中鱼类数量的自动检测与计数。利用OpenCV库进行图像处理，包括背景减除、形态学操作、轮廓检测等步骤，最终在视频帧中标记出鱼类并统计其数量。该系统可广泛应用于水产养殖、生态监测等领域，有助于提高工作效率和数据准确性。二、环境准备在开始项目之前，需要确保以下环境和工具已安装：Python：推荐使用Python3.6及以上版
上位机知识篇---Conda/pip install Atticus-Orion 上位机知识篇上位机操作篇深度学习篇 conda pip
在Python环境中，condainstall和pipinstall是两个常用的包安装命令，它们分别属于不同的包管理系统。下面从多个方面详细介绍它们的区别和使用场景：1.所属系统与适用范围特性condainstallpipinstall所属系统Anaconda/Miniconda生态系统Python标准包管理系统（PyPI）适用语言支持Python、R、Java等多种语言的包仅支持Python包依
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
Golang数据结构与算法：实现经典算法的Go版本 Golang编程笔记 golang 算法开发语言 ai
Golang数据结构与算法：实现经典算法的Go版本关键词：Golang、数据结构、算法、经典算法、Go实现摘要：本文将带领大家深入探索在Golang中实现经典算法。我们会先介绍一些基础的数据结构和算法概念，然后用生动的故事和例子来解释这些概念，接着给出核心概念之间的关系。通过详细的代码示例，展示如何在Go语言里实现这些经典算法，还会介绍它们的实际应用场景、相关工具和资源，探讨未来的发展趋势与挑战。
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
目标跟踪存在问题以及解决方案选与握 #目标跟踪目标跟踪人工智能计算机视觉
3D跟踪一、数据特性引发的跟踪挑战1.点云稀疏性与远距离特征缺失问题表现：激光雷达点云密度随距离平方衰减（如100米外车辆点云数不足近距离的1/10），导致远距离目标几何特征（如车轮、车顶轮廓）不完整，跟踪时易因特征匹配失败导致ID丢失。典型案例：在高速公路场景中，200米外的卡车因点云稀疏（仅约50个点），跟踪算法难以区分其与大型货车的形状差异，导致轨迹跳跃或ID切换。技术方案：稀疏点云增强与特
【Python从零到壹】Python中的标识符和保留字互联网老辛 #Python从零到壹 Python
保留字，也叫关键字，这些关键字是python直接提供给我们使用的，因此，我们在定义标识符的时候，不能用这些保留字。比如教育局就属于官方用的，你开个公司起名就不能叫教育局怎么查看关键字？importkeywordprint(keyword.kwlist)输出结果：E:\Python_demo\vippython\venv\Scripts\python.exeE:/Python_demo/vippyt
Python中的变量与数据类型難釋懷 python windows 开发语言
一、前言在Python编程中，变量（Variable）和数据类型（DataType）是程序开发中最基本也是最核心的概念。变量用于存储程序运行过程中的各种值，而数据类型则决定了变量可以存储什么样的数据、支持哪些操作。Python作为一门动态类型语言，无需显式声明变量的数据类型，解释器会根据赋给变量的值自动推断其类型。这种特性使得Python更加简洁易用，但也要求开发者对常见数据类型有清晰的认识。本文
Python中的count()方法溪流.ii python 数据库
文章目录Python中的count()方法基本语法在不同数据类型中的使用1.列表(List)中的count()2.元组(Tuple)中的count()3.字符串(String)中的count()高级用法1.指定搜索范围2.统计复杂元素注意事项Python中的count()方法前言：count()是Python中用于序列类型（如列表、元组、字符串等）的内置方法，用于统计某个元素在序列中出现的次数。基
Python中的标识符与保留字難釋懷 python java 数据库
一、前言在学习Python编程语言的过程中，标识符（Identifier）和保留字（Keywords）是两个非常基础但又极其重要的概念。它们是编写程序时必须遵守的语言规则之一。本文将带你深入了解：什么是标识符；标识符的命名规则与规范；Python中有哪些保留字；常见错误与注意事项；实际开发中的命名建议；掌握好这些内容，不仅能帮助你写出更规范、可读性更强的代码，还能避免因使用关键字作为变量名而导致的
AI原生应用领域反馈循环：助力应用持续进化 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native ai
AI原生应用领域反馈循环：助力应用持续进化关键词：AI原生应用、反馈循环、持续进化、数据驱动、用户体验摘要：本文围绕AI原生应用领域的反馈循环展开探讨。首先介绍了反馈循环在AI原生应用中的重要性，接着详细解释了反馈循环的核心概念及其相关要素。通过具体的算法原理和操作步骤展示了反馈循环如何在技术层面实现。以实际项目案例说明反馈循环在实际开发中的应用和效果。还探讨了反馈循环在不同场景下的应用，推荐了相
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本