花繁四季

多元分析

多元分析是多变量的统计分析方法，是数理统计的一个分支。

1. 聚类分析

聚类分析又称群分析，是对多个样本或指标进行定量分类的一种多元统计分析方法。对样本进行分类称为Q型聚类分析，对指标进行分类称为R型聚类分析。

1.1 Q型聚类分析
1.1.1 样本相似性度量
对一群有待分类的样本点需用p个变量描述，每个样本点可以看成是 $\bm{R}^p$ 空间中的一个点，用距离来度量样本点间的相似度。
在聚类分析中，对于定量变量，最常用的是闵氏距离，即 $d_q(\bm{x,y})=[\sum_{k=1}^p|x_k-y_k|^q]^{\frac1q},q>0$ 当 $q = 1, 2$ 或 $q\to +\infty$ 时，分别得到：

绝对值距离： $d_1(\bm{x,y})=\sum_{k=1}^p|x_k-y_k|$
欧几里得距离： $d_2(\bm{x,y})=[\sum_{k=1}^p|x_k-y_k|^2]^{\frac12}$
切比雪夫距离： $d_{\infty}(\bm{x,y})=\mathop{max}\limits_{1\leqslant k\leqslant p}|x_k-y_k|$

在闵氏距离中，最常用的是欧式距离，其主要优点是当坐标轴进行正交旋转时，欧式距离保持不变。
在使用闵氏距离时，一定要采用相同量纲的变量，还应尽可能地避免变量的多重相关性，否则会片面强调某些变量的重要性。由于闵氏距离的这些缺点，一种改进为马氏距离 $d(\bm{x,y})=\sqrt{\bm{(x-y)^T\Sigma^T(x-y)}}$ 式中 $\bm{x,y}$ 为来自p维总体Z的样本观测值， $\bm{\Sigma}$ 为Z的协方差矩阵，在实际中 $\bm{\Sigma}$ 往往未知，需要样本协方差来估计。马氏距离对一切线性变换是不变的，故不受量纲的影响。

1.1.2 类与类的相似性度量
如果有两个样本 $G_1$ 和 $G_2$ ，可以用如下方法度量他们之间的距离

最短距离法： $D(G_1,G_2)=\mathop{min}\limits_{x_i\in G_1,y_j\in G_2}\left\{d(\bm{x_i,y_j}) \right\}$ ，直观意义为两个类中最近两点的距离
最长距离法： $D(G_1,G_2)=\mathop{max}\limits_{x_i\in G_1,y_j\in G_2}\left\{d(\bm{x_i,y_j}) \right\}$ ，直观意义为两个类中最远两点的距离
重心法： $D(G_1,G_2)=d(\bm{\bar{x},\bar{y}})$ ，式中 $\bm{\bar{x},\bar{y}}$ 分别为 $G_1,G_2$ 的重心
类平均法： $D(G_1,G_2)=\cfrac{1}{n_1n_2}\mathop{\sum}\limits_{x_i\in G_1}\mathop{\sum}\limits_{x_j\in G_2}d(\bm{x_i,x_j})$ ，它等于 $G_1,G_2$ 中两样本点距离的平均， $n_1,n_2$ 分别为 $G_1,G_2$ 中样本点的个数
离差平方和法： $D(G_1,G_2)=D_{12}-D_1-D_2$ ，其中 $D_{12},D_1,D_2$ 分别为 $G_1\cup G_2,G_1,G_2$ 的离差平方和，离差平方和为方差的n倍，n为样本数

1.1.3 聚类图
Q型聚类结果可由聚类图展示出来，根据给定的阈值距离，可将点分为不同聚类

聚类图生成步骤：

计算n个样本点两两之间的距离 $d_{ij}$ ，记为矩阵 $\bm{D}=(d_{ij})_{n\times n}$

首先构造n个类，每个类中只包含一个样本点，每一类的平台高度均为0

合并距离最近的两类为新类，并且以这两类间的距离值作为聚类图中的平台高度

计算新类与当前各类的距离，若类的个数已经等于1，转入步骤5，否则回到步骤3

画聚类图

决定类的个数和类

y=pdist(a,'cityblock')		%a为m*n矩阵，m为数据个数，n为数据维度，求a的两两行向量间的绝对值距离
							%函数输入第二项可指定距离计算方法，输出y为行向量
yc=squareform(y)		%将向量y变换成距离方阵（对称方阵）
z=linkage(y,'method')		%生成等级聚类树，输入第二项指定类的相似性度量方法，y为pdist输出的行向量，z为(m-1)*3的矩阵
%z中第1列和第2列包含了被两两连接生成一个新类的所有对象的索引，第3列包含了相应的在类中的两两对象间的连接距离
dendrogram(z)		由linkage产生的数据矩阵z画聚类图，p为节点数，默认30
T=cluster(z,'maxclust',3)	%把对象分成3类，返回值T为长m列向量，表示每个数据所在的类别

1.2 R型聚类法
1.2.1 变量相似性度量：常用的有两种

相关系数：用两变量 $\bm{x_j}$ 与 $\bm{x_k}$ 的样本相关系数作为他们的相似性度量
夹角余弦：用两变量 $\bm{x_j}$ 与 $\bm{x_k}$ 的样本夹角余弦作为他们的相似性度量

1.2.2 类与类的相似性度量：与Q型聚类法类似，常用有最长距离法、最短距离法等

b=zscore(a)		%数据标准化，矩阵a为m*n矩阵，m为数据个数，n为数据维度
r=corrcoef(b)	%计算相关系数矩阵

用聚类进行数据分析时，先用R型聚类法从变量中所有变量中选取几个有代表性的变量（剔除相关性较强的变量），再对所选取的变量的取值进行Q型聚类分析，得到所有数据的聚类情况。

1.3 动态聚类法
上述先将样品各自作为一类，重复将最近的两类合并，直至所有样品合并为一类的方法称为系统聚类法。
先选择一个初始的分类和一批凝聚点，让样品按某种原则向凝聚点凝聚，对凝聚点不断地修改迭代，直至分类合理或迭代稳定，该方法称为动态聚类法。动态凝聚法中最常用的为k均值法（k-mean）。

2. 主成分分析

2.1 基本思想及方法
主成分分析将许多相关性很高的变量转化成彼此相互独立或不相关的变量，并用以解释资料的综合性指标。
设 $X_1,X_2,\cdots,X_p$ 表示以 $x_1,x_2,\cdots,x_p$ 为样本观测值的随机变量，若能找到 $c_1,c_2,\cdots,c_p$ ，使得 $Var(c_1X_1+c_2X_2+\cdots+c_pX_p)\qquad s.t.\quad c_1^2+c_2^2+\cdots+c_p^2=1$ 的值达到最大，由于方差反映了数据差异的程度，也就表明我们抓住了这p个变量的最大变异。此时得到的解是p维空间的一个单位向量，代表一个主成分方向。
一个主成分不足以代表原来的p个变量，因此需要寻找多个主成分，而每个主成分之间不应该包含相互之间的信息，统计上描述为两个主成分间的协方差为0，几何上描述为两个主成分的方向正交。
注意事项：

主成分分析的结果受量纲的影响，实际中应先把各变量的数据标准化，再用协方差矩阵或相关系数矩阵进行分析。

使方差达到最大的主成分分析不用转轴（区别于因子分析）。

主成分的保留：用相关系数求主成分时，主张将特征值小于1的主成分放弃（也是SPSS的默认值）。

由于主成分的目的是降维，实际分析中一般选取少量主成分（不超过5个或6个），只要它们能解释变异的70%~80%（累积贡献率）即可。

2.2 特征值因子的筛选
设有p个指标变量 $x_1,x_2,\cdots,x_p$ ，在第i次试验中的取值为 $a_{i1},a_{i2},\cdots,a_{ip},i=1,2,\cdots,n$ ，将它们写成矩阵形式为 $\bm{A}=\begin{bmatrix} a_{11}& a_{12}& \cdots& a_{1p} \\ a_{21}& a_{22}& \cdots& a_{2p} \\ \vdots & \vdots&\ddots& \vdots \\ a_{n1}& a_{n2}& \cdots& a_{np} \end{bmatrix}$ 矩阵 $\bm{A}$ 称为设计阵，将 $\bm{A^TA}$ 的特征值按从大到小的次序排列，取前面的特征值使所取特征值所占比重超过85%，每个特征值所对应的特征向量即为一个主成分方向。
注：使用 $\tilde{x}_i=(x_i-\mu_i)/\sigma_i$ 对数据进行标准化后，得到的矩阵为 $\bm{\tilde{A}}$ ，此时矩阵 $\bm{R=\tilde{A}^T\tilde{A}}/(n-1)$ 即为相关系数矩阵。
单纯考虑累积贡献率有时是不够的的，还需要考虑选择的主成分对原始变量的贡献值，用相关系数的平方和来辨识，若选取的主成分为 $z_1,z_2,\cdots,z_r$ ，则它们对原变量 $x_i$ 的贡献值为 $\rho_i=\sum_{j=1}^rr^2(z_j,x_i)$ ，式中 $r(z_j,x_i)$ 为 $z_j$ 和 $x_i$ 的相关系数。

2.3 主成分回归分析
主成分回归分析是为了克服最小二乘估计在数据矩阵 $\bm{A}$ 存在多重共线性时表现出的不稳定性。
主成回归分析将原本的回归自变量变换到另一组变量，即主成分，然后用最小二乘法对选取主成分后的模型参数进行估计，最后再变换回原来的模型求出参数的估计。

hg1=[ones(m,1),x0]\y0		%计算最小二乘法回归系数
%"\":反斜线符号，矩阵左除。对可逆矩阵而言，右除代表对右边矩阵取逆，左除代表对左边矩阵取逆A\B=inv(A)*B，但是算法不同。
%对X=A\B如果A是m*n的矩阵，那么X就是AX=B的最小二乘解
r=corrcoef(x0)		%计算相关系数矩阵，行数为数据个数，列数为变量个数
xd=zscore(x0); yd=zscore(y0);	%对设计矩阵和y0进行标准化处理
[vec1,lamda,rate]=pcacov(r)		%主成分分析，vec1为r的特征向量，lamda为r的特征值，rate为各个主成分的贡献率
f=repmat(sign(sum(vec1)),size(vec1,1),1)		%构造与vec1同维数的元素为±1的矩阵
vec2=vec1.*f		%修改特征向量的正负号，使得特征向量的所有分量和为正
%上述两步保证了所有特征向量的分量和为正，这对回归分析而言并没有作用，但对评价每个数据的得分是必要的
hg21=df(:,[1:num])\yd		%计算主成分变量的回归系数。这里由于数据标准化，回归方程的常数项为0
hg22=vec2(:,1:num)*hg21		%计算标准化变量的回归方程系数
hg23=[mean(y0)-std(y0)*mean(x0)./std(x0)*hg22, std(y0)*hg22'./std(x0)]	%计算原始变量回归方程的系数

2.4 利用主成分分析对每个样本进行评价的步骤

数据标准化： $X\to X_0\in n\times m$ ，其中 $X$ 为原数据矩阵， $X_0$ 为标准化后的数据矩阵，n为数据个数，m为变量个数

计算相关系数矩阵： $R\in m\times m$ ，其中 $R$ 为相关系数矩阵

主成分分析： $\eta\in m\times m,\lambda\in m,rate\in m$ ，其中 $\eta$ 为特征向量矩阵，每列代表一个特征向量， $\lambda$ 为特征值，rate为各主成分的贡献率

将所有特征向量的分量和改为正： $\eta\to \eta^+\in m\times m$ ，由于特征向量的特性，在特征向量上加正负号结果都正确，但是若要根据该特征向量对每个数据（标准化后的数据）进行打分，则需要使特征向量的所有分量和为正打分才有意义

选取主成分个数： $\eta^+\to \eta^+_p\in m\times p$

计算所有数据在各主成分上的得分： $s=X_0*\eta_p^+\in n\times p$

计算所有数据的综合得分： $S=sum(s,1)\in n$ ，根据该得分可以对所有数据进行排名从而分析结果

3. 因子分析

因子分析通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，用少数几个假想变量来表示其基本数据结构。这几个假想变量能够反映原来众多变量的主要信息，原始的变量时可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。
因子分析可看成主成分分析的推广，也是一种降维方式，与PCA的差别在于：

PCA把方差划分为不同的正交成分，而因子分析则把方差划分为不同的起因因子。

PCA仅是变量变换，而因子分析需要构造因子模型。

PCA中原始变量的线性组合表示新的综合变量，即主成分。因子分析中潜在的假想变量和随机影响变量的线性组合表示原始变量。

3.1 因子分析模型
3.1.1 数学模型
设p个变量 $X_i(i=1,2,\cdots,p)$ 可以表示为 $X_i=\mu_i+\alpha_{i1}F_1+\cdots+\alpha_{im}F_m+\varepsilon_i,m\leqslant p$ 或 $\bm{X-\mu=\Lambda F+\varepsilon }$ 其中 $\bm{X}\in p\times 1,\bm{\mu}\in p\times 1,\bm{\Lambda} \in p\times m,\bm{F}\in m\times 1,\bm{\varepsilon}\in p\times 1$ ，称 $F_1,F_2,\cdots,F_m$ 为公共因子，是不可观测的变量，它们的系数称为载荷因子， $\varepsilon_i$ 为特殊因子，是不能被前m个公共因子包含的部分。且满足 $E(\bm{F})=0, E(\bm{\varepsilon})=0,\operatorname{Cov}(\bm{F})=\bm{I}_{m}, D(\bm{\varepsilon})=\operatorname{Cov}(\bm{\varepsilon})=\operatorname{diag}\left(\sigma_{1}^{2}, \sigma_{2}^{2}, \cdots, \sigma_{p}^{2}\right), \operatorname{Cov}(\bm{F}, \bm{\varepsilon})=0$ 该模型与回归模型在形式上很相似，但因子分析中的因子是抽象的概念，而回归变量有明确的实际意义。因子分析的首要任务就是估计因子载荷 $\alpha_{ij}$ 和方差 $\sigma_i$ ，然后给因子 $F_i$ 一个合理的解释，若难以进行合理的解释，则需要进一步作因子旋转，希望旋转后能发现比较合理的解释。

3.1.2 因子分析模型的性质

原始变量 $\bm{X}$ 的协方差矩阵的分解。由 $\bm{X-\mu=\Lambda F+\varepsilon }$ ，得 $\operatorname{Cov}(\bm{X-\mu)=\Lambda \operatorname{Cov}(F)\Lambda^T+\operatorname{Cov}(\varepsilon) }$ ，即 $\operatorname{Cov}(\bm{X-\mu)=\Lambda \Lambda^T }+\operatorname{diag}\left(\sigma_{1}^{2}, \sigma_{2}^{2}, \cdots, \sigma_{p}^{2}\right)$ $\sigma_{1}^{2}, \sigma_{2}^{2}, \cdots, \sigma_{p}^{2}$ 的值越小，则公共因子共享的成分越多。

载荷矩阵不是唯一的。设 $\bm{T}$ 为一个 $p\times p$ 的正交矩阵，令 $\bm{\tilde{\Lambda}=\Lambda T,\tilde{F}=T^TF}$ ，则模型可以表示为 $\bm{X=\mu+\tilde{\Lambda}\tilde{F}+\varepsilon}$

3.1.3 因子载荷矩阵中的几个统计性质

因子载荷 $\alpha_{ij}$ 的统计意义：因子载荷 $\alpha_{ij}$ 是第i个变量和第j个公共因子的相关系数，反映了第i个变量和第j个公共因子的相关重要性。绝对值越大，相关的密切程度越高。

变量共同度的统计意义：变量 $X_i$ 的共同度是因子载荷矩阵第i行的元素的平方和，记为 $h_i^2=\sum_{j=1}^m\alpha_{ij}^2$ ，对原模型的公式的两边求方差，得 $1=\sum_{j=1}^m\alpha_{ij}^2+\sigma_i^2$ 式中，特殊因子的方差 $\sigma_i^2(i=1,2,\cdots,p)$ 称为特殊方差。可以看出所有的公共因子和特殊因子对变量 $X_i$ 的贡献为1。若 $\sum_{j=1}^m\alpha_{ij}^2$ 非常接近1， $\sigma_i^2$ 非常小，则因子分析的效果好，从原变量空间到公共因子空间的转化效果好。

公共因子 $F_i$ 方差贡献的统计意义：因子载荷矩阵中各列元素的平方和 $S_j=\sum_{i=1}^p\alpha_{ij}^2$ 称为 $F_j(j=1,2,\cdots.m)$ 对所有的 $X_i$ 的方差贡献和（可解释方差），用于衡量 $F_j$ 的相对重要性。列元素的平方和除以变量总个数可得到该公共因子的贡献率，用PCA法算出的贡献率总和为1，用主因子法和最大似然法算得的总贡献率小于1。

3.2 因子载荷矩阵的估计方法
因子分析的一个基本问题是如何估计因子载荷，下面介绍常用的因子载荷矩阵的估计方法。

3.2.1 主成分分析法（主要使用）
设 $\lambda_1\geqslant \lambda_2\geqslant\cdots\geqslant\lambda_p$ 为样本相关系数矩阵 $\bm{R}$ 的特征值， $\bm{\eta_1,\eta_2,\cdots,\eta_p}$ 为相应的标准正交化特征向量。设m $\bm{\Lambda}$

3.2.2 主因子法
主因子法是对主成分方法的修正，输入变量标准化后有 $\bm{R=\Lambda\Lambda^T+D,D}=\operatorname{diag}\left(\sigma_{1}^{2}, \sigma_{2}^{2}, \cdots, \sigma_{p}^{2}\right)$ ，记 $\bm{R^*=\Lambda\Lambda^T=R-D}$ 式中， $\bm{R^*}$ 为约相关系数矩阵，其对角线上的元素都是 $h_i^2$ 。在实际应用中，特殊因子的方差一般都是未知的，可通过一组样本来估计，估计的方法有以下2种：

取 $\hat{h}_i^2=1$ ，此时主因子解与主成分解等价。

取 $\hat{h}_i^2=\mathop{max}\limits_{j\neq i}|r_{ij}|$ ，此时取 $X_i$ 与其余的 $X_j$ 的简单相关系数的绝对值最大者。记 $\bm{R^*=R-D}=\begin{bmatrix} \hat{h}_1^2 & r_{12} & \cdots & r_{1p} \\ r_{21} & \hat{h}_2^2 &\cdots & r_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ r_{p1} & r_{p2} & \vdots & \hat{h}_p^2 \end{bmatrix}$ 直接求 $\bm{R}^*$ 的前p个特征值 $\lambda_1^*\geqslant \lambda_2^*\geqslant \cdots \geqslant \lambda_p^*$ ，和对应的正交特征向量 $\bm{u_1^*,u_2^*,\cdots,u_p^*}$ ，得到如下的因子载荷矩阵 $\bm{\Lambda}=[\sqrt{\lambda_1^*}\bm{u}_1^*,\sqrt{\lambda_1^*}\bm{u}_1^*,\cdots,\sqrt{\lambda_1^*}\bm{u}_1^*]$

3.2.2 最大似然估计法
MATLAB工具箱求因子载荷矩阵使用的是最大似然估计法

[Lambda,Psi] = factoran(r,1,'xtype','cov')		%Lambda返回的是因子载荷矩阵，Psi返回的是特殊方差
%第二个输入参数为公因子数，'xtype'后接输入矩阵的类型，'cov'表示数据矩阵为正的协方差或相关矩阵
%该函数对公共因子数目有限制，需满足m<=d且df>=0，其中m为要计算的公因子数，d为原始变量个数，df为自由度
%自由度计算公式为degree_freedom=((d-m)^2-(d+m))/2，当原始变量为3个时只能求得一个主因子，当原始变量为5个时至多求得2个主因子

3.3 因子旋转（正交变换）
建立因子分析数学模型的目的不仅要找出公共因子，更重要的是要知道每个公共因子的含义，以便进一步的分析。由于因子载荷矩阵不唯一，为使每个公共因子含义清晰，需对因子载荷矩阵进行旋转，目的是使因子载荷矩阵的结构简化，使载荷矩阵每列或行的元素平方值向0和1两极分化。有3种主要的正交旋转法：

方差最大法（主要使用）：方差最大法从简化因子载荷矩阵的每一列出发，使和每个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子上有较高的载荷时，对因子的解释最简单。方差最大的直观意义是希望通过因子旋转后，使每个因子上的载荷尽量拉开距离，一部分载荷趋于 $\pm1$ ，另一部分趋于0。

四次方最大旋转：四次方最大旋转是从简化载荷矩阵的行出发，通过旋转初始因子，使每个变量只在一个因子上有较高的载荷，在其他因子上有尽可能低的载荷。如果每个变量只在一个因子上有非零的载荷，这时的因子解释是最简单的。四次方最大法是使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。

等量最大法：等量最大法是把四次方最大法和方差最大法结合起来，求它们的加权平均最大。

对两个因子的载荷矩阵 $\bm{\Lambda}=(\alpha_{ij})_{p\times 2},i=1,\cdots,p\ ;j=1,2$ ，取正交矩阵 $\bm{T}=\begin{bmatrix} cos\phi & -sin\phi \\ sin\phi & cos\phi \end{bmatrix}$ 这是逆时针旋转，若将 $\bm{T}$ 次对角线上的两个元素对换，则作顺时针旋转。记 $\bm{\hat{\Lambda}=\Lambda T}$ 为旋转因子载荷矩阵，此时模型变为 $\bm{X-\mu=\hat{\Lambda}(T^TF)+\varepsilon}$ 同时公共因子 $\bm{F}$ 也随之变为 $\bm{T^TF}$ ，现在希望通过旋转，使因子的含义更加明确。
当公共因子数 $m > 2$ 时，可以每次考虑不同的两个因子的旋转，从m个因子中每次选取两个旋转，共有m(m-1)/2种选择，这样共有m(m-1)/2次旋转，做完这么多次旋转后就算完成了一个循环，然后可以重新开始第二个循环，直到每个因子的含义都比较明确为止。

[lambda2,t]=rotatefactors(lambda(:,1:num),'method', 'varimax')		%对载荷矩阵按照方差最大法进行旋转
%其中lambda2为旋转载荷矩阵，t为变换的正交矩阵

3.4 因子得分
在因子分析中，一般关注的重点是估计因子模型的参数，即载荷矩阵，有时公共因子的估计（即因子得分）也是需要的，因子得分可用于模型诊断，也可作下一步分析的原始数据。因子得分并不是通常意义下的参数估计，它是对不可观测的随机变量 $F_i$ 取值的估计。通常可以用加权最小二乘法和回归法来估计因子得分。

3.4.1 因子得分的概念
在因子分析的数学模型中，原变量被表示为公共因子的线性组合。因子得分则需要把公共因子表示为原变量的线性组合，因子得分函数： $F_j=c_j+\beta_{j1}X_1+\cdots+\beta_{jp}X_p\ ,j=1,2,\cdots,m$ 可见，要求得每个因子的得分，必须求得分函数的系数，而由于 $p > m$ ，所以不能得到精确的得分，只能通过估计。

3.4.2 巴特莱特因子得分（加权最小二乘法，主要使用）
把 $X_i-\mu_i$ 看作因变量，把因子载荷矩阵看成自变量的观测。由于特殊因子的方差相异，所以用加权最小二乘法求得分，使 $\sum_{i=1}^p[(X_i-\mu_i)-(\alpha_{i1}\hat{F}_1+\cdots+\alpha_{im}\hat{F}_m)]^2/\sigma_i^2$ 最小的 $\hat{F}_1,\cdots,\hat{F}_m$ 是相应个案的因子得分，用矩阵表示则要使 $\bm{(X-\mu-\Lambda F)^TD^{-1}(X-\mu-\Lambda F)}$ 达到最小，计算得 $\bm{\hat{F}=(\Lambda^TD^{-1}\Lambda)^{-1}\Lambda^TD^{-1}(X-\mu)}$

3.4.3 回归方法
对正规化后的原始变量，因子得分函数的计算公式变为 $F_j=\beta_{j1}X_1+\cdots+\beta_{jp}X_p\ ,j=1,2,\cdots,m$ ，由于 $\begin{array}{l} \alpha_{i j}=\gamma_{x_{i} F_{j}}=E\left(X_{i} F_{j}\right)=E\left[X_{i}\left(\beta_{j 1} X_{1}+\cdots+\beta_{j p} X_{p}\right)\right] \\ \quad=\beta_{j 1} \gamma_{i 1}+\cdots+\beta_{j p} \gamma_{i p}=\left[\gamma_{i 1}, \gamma_{i 2}, \cdots, \gamma_{i p}\right]\left[\begin{array}{c} \beta_{j 1} \\ \beta_{j 2} \\ \vdots \\ \beta_{j p} \end{array}\right] \end{array}$ 因此有 $\left[\begin{array}{cccc} \gamma_{11} & \gamma_{12} & \cdots & \gamma_{1 p} \\ \gamma_{21} & \gamma_{22} & \cdots & \gamma_{2 p} \\ \vdots & \vdots & \ddots & \vdots \\ \gamma_{p 1} & \gamma_{p 2} & \cdots & \gamma_{p p} \end{array}\right]\left[\begin{array}{c} \beta_{j 1} \\ \beta_{j 2} \\ \vdots \\ \beta_{j p} \end{array}\right]=\left[\begin{array}{c} \alpha_{1 j} \\ \alpha_{2 j} \\ \vdots \\ \alpha_{p j} \end{array}\right], j=1,2, \cdots, m$ 式中3个矩阵分别为：原始变量的相关系数矩阵、第j个因子得分函数的系数、载荷矩阵的第j列。用矩阵表示，有 $\begin{bmatrix} \beta_{11} & \beta_{21} & \cdots & \beta_{m1} \\ \beta_{12} & \beta_{22} & \cdots & \beta_{m2} \\ \vdots & \vdots &\ddots &\vdots \\\beta_{1p} & \beta_{2p} & \cdots & \beta_{mp} \end{bmatrix}=\bm{R^{-1}\Lambda}$ 因此，因子得分的估计为 $\bm{\hat{F}=X_0R^{-1}\Lambda}$

3.5 因子分析的步骤与PCA的对比
3.5.1 因子分析的步骤

选择分析的变量：因子分析的前提条件是观测变量间有较强的相关性，因为如果变量间无相关性或相关性较小，它们之间就不会有共享因子。

计算所选原始变量的相关系数矩阵：相关系数矩阵描述了原始变量之间的相关关系，是估计因子结构的基础。

提出公共因子：确定因子求解的方法和因子的个数，需要根据研究者的设计方案以及有关的经验或知识事先决定。因子个数的确定可以根据因子方差的大小，只取方差大于1（或特征值大于1）的那些因子。因子的累计方差贡献率一般要达到60%才能符合要求。

因子旋转：通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系，并为每个潜在因子赋予有实际含义的名字。

计算因子得分：求出各样本的因子得分，就可以在许多分析中使用这些因子。如以因子得分做聚类分析的变量，做回归分析中的回归因子。

3.5.2 PCA与因子分析法的比较

4.判别分析

判别分析是根据所研究个体的观测指标来推断该个体所属类型的一种统计方法。用统计的语言表达，就是已知有q个总体 $X_1,X_2,\cdots,X_q$ ，它们的分布函数分别为 $F_1(x),F_2(x),\cdots,F_q(x)$ ，每个 $F_i(x)$ 都是p维函数，对给定的样本X，要判断它来自哪个总体。常用的基本判别法有：距离判别、Bayes判别、Fisher判别。

4.1 距离判别
距离判别适用于连续型随机变量的判别类，对变量的概率分布没有限制。
通常定义的距离为欧氏距离，但在统计分析与计算中，就不适用了。
设 $\bm{x,y}$ 是从均值为 $\bm{\mu}$ ，协方差为 $\bm{\Sigma}$ 的总体A中抽取的样本，则总体A内两点 $\bm{x,y}$ 的马氏距离定义为 $d(\bm{x,y})=\sqrt{\bm{(x-y)^T\Sigma^T(x-y)}}$ 定义样本x和总体A的马氏距离为 $d(\bm{x,A})=\sqrt{\bm{(x-\mu)^T\Sigma^T(x-\mu)}}$ 讨论两个总体的距离判别时，分协方差相同和协方差不同两种情况进行讨论。设总体A和B的均值向量分别为 $\bm{\mu_1}$ 和 $\bm{\mu_2}$ ，协方差矩阵分别为 $\bm{\Sigma_1}$ 和 $\bm{\Sigma_2}$ ，给定一个样本x，要判断x来自哪一个总体。

当 $\bm{\Sigma_1=\Sigma_2=\Sigma}$ 时，根据x到总体A和B的马氏距离大小进行判断 $\bm{x}\in \begin{cases}\bm{A}\ ,d(\bm{x,A}) \leqslant d(\bm{x,A}) \\ \bm{B}\ ,d(\bm{x,B}) > d(\bm{x,B}) \end{cases}$ 引入l两总体的距离判别函数 $w(\bm{x})=\bm{(x-\bar{\mu})^T\Sigma^{-1}(\mu_1-\mu_2)}\sim d^2(\bm{x,B})-d^2(\bm{x,A})$ ，因此判别准则变为 $\bm{x}\in \begin{cases}\bm{A}\ ,w(\bm{x}) \geqslant 0 \\ \bm{B}\ ,w(\bm{x}) < 0 \end{cases}$ 在实际中，总体的均值和协方差阵是未知的，因此总体的均值和协方差用样本的均值和协方差来代替，判别函数也用 $\hat{w}(\bm{x})$ 来代替。要注意的是，求样本的协方差 $\hat{\bm{\Sigma}}$ 不能直接将两总体数据混在一起计算，而是要分别计算出 $\hat{\bm{\Sigma}}_1,\hat{\bm{\Sigma}}_2$ ，然后利用公式 $\hat{\bm{\Sigma}}=\cfrac{1}{n_1+n_2-2}((n_1-1)\hat{\bm{\Sigma}}_1+(n_2-1)\hat{\bm{\Sigma}}_2)$
当 $\bm{\Sigma_1 \neq\Sigma_2}$ 时，判别函数为 $w(\bm{x})=\bm{(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)}$

4.2 Fisher判别
Fisher判别的基本思想是投影，即将表面上不易分类的数据通过投影到某个方向上，使得投影类与类之间得以分类的一种判别方法。
考虑两个p维总体 $X_1,X_2$ ，Fisher的判别思想是变换多元观测 $\bm{x}$ 到一元观测y，使得由总体 $X_1,X_2$ 产生的y尽可能地分离开来。设 $\bm{a}$ 为p维实向量， $\bm{x}$ 的线性组合为 $y=\bm{a^Tx}$ ， $X_1,X_2$ 的均值为 $\bm{\mu_1,\mu_2}$ ，且有公共的协方差矩阵 $\bm{\Sigma}$ ，则线性组合的均值和方差为 $\mu_{y1}=\bm{a^T\mu_1}\ ,\mu_{y2}=\bm{a^T\mu_2}\ ,\sigma_y^2=\bm{a^T\Sigma a}$ 考虑比 $\frac{(\mu_{y1}-\mu_{y2})^2}{\sigma_y^2}=\bm{\frac{[a^T(\mu_1-\mu_2)]^2}{a^T\Sigma a}}$ 根据Fisher的思想，要选择 $\bm{a}$ 使得该式达到最大。当选取 $\bm{a=\Sigma^{-1}(\mu_1-\mu_2)}$ 时达到最大，此时线性函数 $y=\bm{a^Tx=(\mu_1-\mu_2)^T\Sigma^{-1}x}$ 称为Fisher线性判别函数。令 $K=\cfrac12(\mu_{y1}+\mu_{y2})$ ，有 $\mu_{y1}-K>0,\mu_{y2}-K<0$ ，得到Fisher判别规则为 $\bm{x}\in \begin{cases}\bm{X_1}\ ,\bm{a^Tx} \geqslant K \\ \bm{X_2}\ ,\bm{a^Tx} < K \end{cases}$ 定义判别函数 $W(\bm{x})=\bm{(\mu_1-\mu_2)^T\Sigma^{-1}x}-K=\bm{[x-\frac12(\mu_1+\mu_2)]^T\Sigma^{-1}(\mu_1-\mu_2)}$ 则判别规则可改写成 $\bm{x}\in \begin{cases}\bm{X_1}\ ,W(\bm{x}) \geqslant 0 \\ \bm{X_2}\ ,W(\bm{x})< 0 \end{cases}$ 这里的Fisher判别与距离判别一样不需要知道总体的分布类型，但量总体的均值向量必须有显著的差异，否则判别无意义。

4.3 Bayes判别
Bayes判别假定对研究对象已有一定的认识，这种认识常用先验概率来描述。当取得一个样本后，就可以用样本来修正已有的先验概率分布，得出后验概率分布，再通过后验概率分布进行各种统计推断。
误判概率：设有两个总体 $X_1$ 和 $X_2$ ，分别具有概率密度函数 $f_1(\bm{x})$ 和 $f_2(\bm{x})$ ，根据某个判别规则，将实际上为 $X_1$ 的个体判为 $X_2$ ，或将实际上为 $X_2$ 的个体判为 $X_1$ 的概率就是误判概率。一个好的判别规则应该使误判概率最小。
误判损失：一般把 $X_1$ 的个体判为 $X_2$ ，和把 $X_2$ 的个体判为 $X_1$ 所造成的损失不同。因此一个好的判别规则还必须使误判损失最小。
某样本实际是来自 $X_1$ ，但是被判给 $X_2$ 的概率为 $P (2 ∣ 1)$ ，来自 $X_2$ ，但是被判给 $X_1$ 的概率为 $P (1 ∣ 2)$ 。类似地，来自 $X_1$ 被判给 $X_1$ 的概率为 $P (1 ∣ 1)$ ，来自 $X_2$ 被判给 $X_2$ 的概率为 $P (2 ∣ 2)$ 。设 $p_1,p_2$ 分别表示总体 $X_1,X_2$ 的先验概率，有 $p_1+p_2=1$ ，于是有 $P(正确判给X_1)=P(1|1)\cdot p_1,P(误判给X_1)=P(1|2)\cdot p_2,\\ P(正确判给X_2)=P(2|2)\cdot p_2,P(误判给X_2)=P(2|1)\cdot p_1$ 设 $L (1 ∣ 2)$ 表示来自 $X_2$ 误判给 $X_1$ 引起的损失， $L (2 ∣ 1)$ 表示来自 $X_1$ 误判给 $X_2$ 引起的损失，并规定 $L (1 ∣ 1) = L (2 ∣ 2) = 0$ 。定义平均误判损失ECM为： $\operatorname{ECM}(R_1,R_2)=L(2|1)P(2|1)p_1+L(1|2)P(1|2)p_2$ 一个合理的判别规则应使ECM达到最小。记 $\Omega$ 为x的所有可观测值得全体，称为样本空间， $R_1$ 为要判为 $X_1$ 的那些x全体， $R_2=\Omega-R_1$ 为要判为 $X_2$ 的那些x全体。要选择样本空间 $\Omega$ 的一个划分 $R_1,R_2$ 使平均误判损失达到最小。两总体的Bayes判别准则为： $\bm{x}\in \begin{cases}\bm{X_1}\ ,\cfrac{f_1(\bm{x})}{f_2(\bm{x})} \geqslant \cfrac{L(1|2)}{L(2|1)}\cdot\cfrac{p_2}{p_1} \\ \bm{X_2}\ ,\cfrac{f_1(\bm{x})}{f_2(\bm{x})} < \cfrac{L(1|2)}{L(2|1)} \cdot\cfrac{p_2}{p_1}\end{cases}$ 应用此准则时仅需计算：① 新样本点 $\bm{x}_0$ 的密度函数比 $f_1(\bm{x}_0)/f_2(\bm{x}_0)$ ② 损失比 $L (1 ∣ 2) / L (2 ∣ 1)$ ③ 先验概率比 $p_2/p_1$ 。

将上述的两总体Bayes判别应用于正态总体 $X_i\sim N_p(\bm{\mu_i,\Sigma_i}),i=1,2$ ，分方差是否相等来讨论：

$\bm{\Sigma_1=\Sigma_2=\Sigma}$ ，此时使平均误判损失极限的划分为 $\begin{cases} R_1=\left\{ \bm{x:W(x)}\geqslant \beta\right\} \\ R_2=\left\{ \bm{x:W(x)}<\beta\right\} \end{cases}$ 式中 $W(\bm{x})=\bm{[x-\cfrac12(\mu_1+\mu_2)]^T\Sigma^{-1}(\mu_1-\mu_2)},\beta=\operatorname{ln}\cfrac{L(1|2)\cdot p_2}{L(2|1)\cdot p_1}$ ，称为Anderson线性判别函数。可以发现 $\bm{W(x)}$ 与Fisher判别和马氏距离判别的线性判别函数是一致的，判别规则仅是判别限不一样。
$\bm{\Sigma_1\neq \Sigma_2}$ ，此时使平均误判损失极限的划分为 $\begin{cases} R_1=\left\{ \bm{x:W(x)}\geqslant K\right\} \\ R_2=\left\{ \bm{x:W(x)}{R1={x:W(x)⩾K}R2={x:W(x)<K}$

syms x1 x2;	x=[x1 x2];		%定义x1,x2为变量
%sym函数：可通过t=sym('x');f=t^2;将f定义为变量x的二次函数，返回值为sym类型（符号类型）
%syms函数：可通过syms x1,x2定义变量，或通过syms f(x);f=x^2;直接定义f为x的二次函数
%想绘制符号函数可使用ezplot()绘制二维函数，或ezsurf()绘制三维函数
wx=(x-0.5*(mu1+mu2))*inv(sig)*(mu1-mu2)';		%构造判别函数
wx=vpa(wx,6)		%将函数wx的每个元素计算到6位有效数字
ahat=subs(wx,{x1,x2},{a(:,1),a(:,2)})';		%用输入的第3项代替第2项以计算第1项
%%%%%%%%%%%%%还可以直接用MATLAB工具箱中的分类函数classify用其他方法进行分类%%%%%%%%%%%%
[x1,y1]=classify(sample,train,group,'linear',prior)		%线性分类
[x2,y2]=classify(sample,train,group,'quadratic',prior)		%二次分类
%输入参数sample一般为未知样本，也可以回代检验误判；train为已知样本；group为样本类别标识；priority为已知样本的先验概率
%返回值x1为sample的分类类别，y1为误判率，输入的第4个参数为'mahalanobis'代表马氏距离分类

5. 典型相关分析

通常情况下，为研究两组变量的相关关系，可以用最原始的方法，分别计算两组变量之间的全部相关系数，这样既繁琐又不能抓住问题本质。于是采用类似PCA的思想，分别找出两组变量各自的某个线性组合，使该对线性组合有最大相关性，然后在两组变量中找出第二对线性组合，使其分别与本组内第一对线性组合不相关，第二对线性组合本身具有次大相关性。如此继续下去，直至进行到r步，两组变量的相关性被提取完为止，可得到r组变量。

5.1 典型相关的数学描述
描述两组随机变量 $\bm{X}=[x_1,x_2,\cdots,x_p]^T$ 与 $\bm{Y}=[y_1,y_2,\cdots,y_q]^T$ 之间的相关程度使用复相关系数。先将每一组随机变量线性组合，成为两个随机变量 $\bm{u=\rho^TX}=\sum_{i=1}^p\rho_ix_i\ ,\bm{v=\gamma^TY}=\sum_{j=1}^q\gamma_jy_j$ 再研究 $\bm{u}$ 和 $\bm{v}$ 的相关系数 $r_{uv}$ ，取在 $\bm{\rho^T\Sigma_{XX}\rho}=1$ 和 $\bm{\gamma^T\Sigma_{YY}\gamma}=1$ 的条件下使 $r_{uv}$ 达到最大的 $\bm{\rho,\gamma}$ 作为投影向量，这样得到的相关系数为复相关系数 $r_{uv}=\mathop{\max}\limits_{\bm{\rho^T\Sigma_{XX}\rho}=1 \atop \bm{\gamma^T\Sigma_{YY}\gamma}=1}r_{uv}(\bm{\rho,\gamma})=\mathop{\max}\limits_{\bm{\rho^T\Sigma_{XX}\rho}=1 \atop \bm{\gamma^T\Sigma_{YY}\gamma}=1}\bm{\rho^T\Sigma_{XY}\gamma}$ 根据条件极值的求法引入拉格朗日乘数，将问题转化为求 $S(\bm{\rho,\gamma})=\bm{\rho^T\Sigma_{XY}\gamma}-\cfrac{\lambda}{2}(\bm{\rho^T\Sigma_{XX}\rho}-1)-\cfrac{\omega}{2}(\bm{\gamma^T\Sigma_{YY}\gamma}-1)$ 的极大值，其中 $\lambda,\omega$ 是拉格朗日乘数。由极值的必要条件为 $\cfrac{\partial S}{\partial \bm{\rho}}=0\ ,\cfrac{\partial S}{\partial \bm{\gamma}}=0$ 由该式计算得 $\lambda=\omega=\bm{\rho^T\Sigma_{XY}\gamma}=r_{uv}$ ，带入可得 $(\bm{\Sigma_{XY}\Sigma_{YY}^{-1}\Sigma_{YX}-\lambda^2\Sigma_{XX})\rho}=0\ ,(\bm{\Sigma_{YX}\Sigma_{XX}^{-1}\Sigma_{XY}-\lambda^2\Sigma_{YY})\gamma}=0$ 记 $\bm{M_1=\Sigma_{XX}^{-1}\Sigma_{XY}\Sigma_{YY}^{-1}\Sigma_{YX}}\ ,\bm{M_2=\Sigma_{YY}^{-1}\Sigma_{YX}\Sigma_{XX}^{-1}\Sigma_{XY}}$ 得 $\bm{M_1\rho=\lambda^2\rho\ ,M_2\gamma=\lambda^2\gamma}$ 说明 $\lambda^2$ 既是 $M_1$ 又是 $M_2$ 的特征根， $\bm{\rho,\gamma}$ 就是其相应于 $M_1,M_2$ 的特征向量。 $M_1,M_2$ 的特征根非负，均在[0,1]上，非零特征根的根数为 $s=\min(p,q)$ ，设特征根排序为 $\lambda_1^2\geqslant\lambda_2^2\geqslant\cdots\geqslant\lambda_s^2$ ，称 $\lambda_1,\lambda_2,\cdots,\lambda_s$ 为典型相关系数。相应地，由所解出的特征向量线性组合得到的变量 $u_i,v_i,i=1,2,\cdots,s$ ，称每一对变量为典型变量，记 $\bm{U}=[u_1,u_2,\cdots,u_s]\ ,\bm{V}=[v_1,v_2,\cdots,v_s]$ 。求典型相关系数和典型变量归结为求 $M_1,M_2$ 的特征根和特征向量。计算时也可用相关系数矩阵 $\bm{R}$ 代替协方差阵进行求解。
还可以证明 $\operatorname{Cov}(u_i,u_j)=\operatorname{Cov}(v_i,v_j)=\delta_{ij}\ ,\operatorname{Cov}(u_i,v_j)=\lambda_i\delta_{ij}$

5.2 原始变量与典型变量之间的相关性
5.2.1 原始变量与典型变量之间的相关系数 $r(x_i,u_j)=\sum_{k=1}^p\alpha_{kj}\operatorname{Cov}(x_i,x_k)/\sqrt{D(x_i)}\ ,j=1,\cdots,s \\ r(x_i,v_j)=\sum_{k=1}^q\beta_{kj}\operatorname{Cov}(x_i,y_k)/\sqrt{D(x_i)}\ ,j=1,\cdots,s \\r(y_i,u_j)=\sum_{k=1}^p\alpha_{kj}\operatorname{Cov}(y_i,x_k)/\sqrt{D(y_i)}\ ,j=1,\cdots,s \\r(y_i,v_j)=\sum_{k=1}^q\beta_{kj}\operatorname{Cov}(y_i,y_k)/\sqrt{D(y_i)}\ ,j=1,\cdots,s$ 式中 $\alpha_{kj}$ 为向量 $\bm{\rho}_j$

你可能感兴趣的:(数学建模,数学建模,数据分析)

使用Python Scrapy打造个性化爬虫
使用PythonScrapy打造个性化爬虫——知识金字塔构建1.引入与连接：从“手动复制”到“自动化采集”的跨越你是否遇到过这样的场景？想整理1000条知乎优质回答做数据分析，却要逐条复制；想追踪某电商平台的商品价格波动，却要每天手动刷新页面……这些重复劳动，正是“个性化爬虫”的用武之地！与已有知识的连接：你可能用过requests+BeautifulSoup写过简单爬虫，但面对大规模数据、复杂反
Python 数据插值：NumPy 实现多种插值方法
Python数据插值：用NumPy解锁缺失数据的秘密拼图关键词数据插值、NumPy、线性插值、多项式插值、缺失值处理、数据平滑、数值分析摘要在数据分析和科学计算中，我们经常遇到离散或缺失的观测数据——比如气象站每小时记录的温度值有缺失，或者实验中只采集了稀疏的采样点。这时候，数据插值（Interpolation）就像“数据修复师”，能根据已知点推断出未知点的数值，让离散数据变成连续的“故事”。本文
Shell脚本-cut工具咖啡の猫 chrome 前端
一、前言在Linux/Unix系统中，cut是一个非常实用的文本处理命令，用于从文件或标准输入中提取特定列的内容。它特别适用于处理结构化文本数据，例如CSV文件、日志文件、配置文件等。无论是做数据分析、系统监控，还是编写自动化脚本，cut都是一个不可或缺的工具。本文将带你全面了解cut工具的使用方式，包括：✅cut的基本语法与常用参数✅如何按字符、字节、字段进行提取✅cut在Shell脚本中的实战
必看：购买黄金投资局中局曝光！伍戈碳中和云数据分析就是骗局！不成功不收费
被骗案例：聊天软件讲股票，又忽悠股民搞碳中和项目，云数据分析项目等才后来让我们自己投钱怕我们不相信还请反诉警员给上课，给我画大饼，说每月发6千元的工资，所以放松警惕上当了，投了钱，我投的少，还特别照顾我单独做，达到他们的标准，他们明知我没有钱，每天照顾在两次，赚了一百多万，让我提款必须交税5%，我没钱无法交税，一分也取不出来，而且还有时侯规定，我只能自已做让账户回到我能交的起税的金额，但你要交钱时
Excel处理控件Aspose.Cells指南：使用 Python 删除 Excel 中的重复行 CodeCraft Studio 文档管理控件 python excel 开发语言
在Excel中删除重复行对于维护干净、准确和一致的数据集至关重要。它可以确保一致性，并有助于防止分析或报告中出现错误。重复数据会导致错误的分析和糟糕的决策。因此，识别和消除重复数据的能力对于软件开发人员、数据分析师和Excel用户来说是一项宝贵的技能。在本篇博文中，我们将向您展示如何使用Python以编程方式删除Excel工作表中的重复行。Python库用于删除Excel中的重复行Aspose.C
Elasticsearch 聚合查询源码解读与架构方法论北漂老男人 Elasticsearch elasticsearch 架构大数据搜索引擎全文检索
Elasticsearch聚合查询源码解读与架构方法论01.引言Elasticsearch的聚合查询（Aggregation）是大规模分布式数据分析的核心能力。理解其源码结构与设计方法论，不仅有助于高效使用聚合，也能为自定义扩展、性能优化、集群运维等提供理论与实践基础。本文将从源码结构、核心模块、关键实现、行级注释与方法论出发，系统剖析聚合查询的底层原理。02.源码结构与核心模块2.1聚合相关源码
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
十种常用数据分析模型耐思nice～数据分析数据分析人工智能机器学习数学建模
1-线性回归（LinearRegression）场景：预测商品销售额优点：简单易用，结果易于解释缺点：假设线性关系，容易受到异常值影响概念：建立自变量和因变量之间线性关系的模型。公式：[y=b_0+b_1x_1+b_2x_2+...+b_nx_n]代码示例：importpandasaspdfromsklearn.linear_modelimportLinearRegressionfromsklea
【Pandas超实用经验汇总-数据建模分析】 Mr.小海 Python 数据挖掘数据分析 python
Pandas超实用经验汇总-数据分析前言基本方法1.读取文件2.查看数据3.修改、删除、替换数据等总结前言看见了很多教程虽然很全，但是很多技巧容易忘记且几乎用不上，读起来晦涩难懂，今天我给大家总结了Pandas的一些学习经验技巧，包含常见日常使用的pandas知识，以及一些技巧,这些技巧常见于数学建模，数据分析，数据挖掘比赛等。基本方法1.读取文件方法如下：importpandasaspd#正常写
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
基于 Python/PHP/Node.js 的淘宝 API 商品数据抓取开发教程
在电商数据分析、竞品监控等场景中，抓取淘宝商品数据是常见需求。淘宝开放平台（OpenPlatform）提供了标准化的API接口，通过合法途径调用可高效获取商品信息。本文将分别基于Python、PHP、Node.js三种语言，详解淘宝API商品数据抓取的开发流程，并提供完整代码示例。一、淘宝API准备工作在开发前，需完成以下准备步骤：注册开发者账号访问注册账号并完成实名认证，创建应用（应用类型选择“
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
数据分析综合应用 30分钟精通计划 z日火校招学习日记数据分析数据挖掘
数据分析综合应用30分钟精通计划（完整版含输出）⏰时间分配5分钟：数据加载与清洗基础10分钟：探索性数据分析(EDA)10分钟：数据分析实战案例5分钟：分析报告生成第一部分：数据加载与清洗基础(5分钟)1.模拟真实数据集importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportwarningswarnings
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
数据分析的三大框架：底层技术、分析建模、工具选择 YHFHing 数据分析数据分析
有了世界观，我们可以开始搭建自己的知识大厦了。在搭建知识大厦之前，先需要建立知识的框架，然后才能高效的填充知识。所以今天我们先建立框架。数据分析的三大框架数据科学的框架分为三部分：底层技术框架/数据分析框架/工具选择框架，接下来依次给大家介绍：1.底层技术框架底层技术框是数据科学的基础设施，我们有所了解就好，处理框架和处理引擎负责对数据系统中的数据进行计算。流处理系统：流处理系统会对随时进入系统的
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
Python在股票数据分析中的应用，如何通过代码实现精准预测股价走势？股票程序化交易接口量化交易股票API接口 Python股票量化交易数据分析 python 股票数据分析股价走势预测代码实现股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>数据获取与导入在股票数据分析中，首先要获取相关数据。Python有许多库可实现这一功能，比如pandas-datareader。使用它可以轻松从知名数据源如雅虎财经获取股票的历史价格、成交量等数据。只需简单几行代码，就能将特定股票在特
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰电子人工智能
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰【BF-FBSZ】随着全球水资源短缺和水污染问题日益严峻，水质监测技术正迎来前所未有的发展机遇。作为这一领域的创新突破，浮漂式水质监测设备凭借其实时性、智能化和网络化优势，正在重塑水资源管理的新格局。本文将深入探讨这一技术的原理、特点、应用场景及未来发展趋势。一、技术原理与系统架构浮漂式水质监测设备是一种集成了现代传感器技术、物联网和大数据分析的智能
NUS：LLM表格数据建模综述
标题：LanguageModelingonTabularData:ASurveyofFoundations,TechniquesandEvolution来源：arXiv,2408.10548摘要表格数据是一种跨领域的流行数据类型，由于其异构性和复杂的结构关系，带来了独特的挑战。在表格数据分析中实现高预测性能和鲁棒性对许多应用程序具有重大前景。受自然语言处理，特别是转换器架构的最新进展的影响，出现了
套数据分析模板（含 Python 代码和示例数据）女码农的重启开发语言数据清洗 python java 数据分析
一、销售数据分析模板（1-10套）模板1：月度销售趋势分析示例数据（sales_monthly.csv）月份,销售额,销量,客单价2023-01,120000,500,2402023-02,135000,550,245.452023-03,150000,600,250...Python代码importpandasaspdimportmatplotlib.pyplotasplt#设置中文显示plt.
【2024国赛C题】【农作物的种植策略】2024 年全国大学生数学建模比赛思路、代码更新中..... 程序猿鑫数学建模
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️竞赛事件及参赛1找程序网站推荐2公式编辑器、流程图、论文排版324年国赛C题及资源下载4思路、代码分享......⛳️竞赛事件及参赛根据乡村的实际情况，充分利用有限的耕地资源，因地制宜，发展有机种植产业，对乡村经济的可持续发展具有重要的现实意义。选择适宜的农作物，
疫情下，我的健康码首次变成了黄码唯我一心
3月中旬，老公在广州白云区接了一单生意，要很久才回来，就在那里租了一间房，带我和孩子一起住。房子在七楼，步梯，因孩子小，自己就很少下楼，都是他买菜回来，4月8号，订单完成，返程回了佛山。过了两天突然接到短信通知，白云区要大规模核酸筛查，又过一天收到短信:通过大数据分析，您近期行程涉及疫情防控重点区域，您的健康码将被赋予2次黄码并需开展2次核酸检测，请注意健康码状态，尽快凭码到附近黄码核酸检测点进行
【云原生】Helm来管理Kubernetes集群的详细使用方法与综合应用实战景天科技苑云原生K8S 零基础到进阶实战云原生 kubernetes 容器 Helm k8s k8s集群
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，linux，she
关于 Excel 学习和数据分析有什么书籍或网站推荐？ cda2024 excel 学习数据分析
在当今信息爆炸的时代，Excel和数据分析已经成为职场人士必备的技能。无论是处理日常工作中的数据、制作报表，还是进行更深入的数据分析，Excel都是一个不可或缺的工具。那么，如何系统地学习Excel和数据分析呢？有哪些书籍或网站能够帮助我们快速上手并掌握这些技能？今天，我们就来探讨一下关于Excel学习和数据分析的书籍与网站推荐。一、Excel学习入门（一）书籍推荐《Excel数据分析与应用实战》
Synergizing RAG and Reasoning: A Systematic Review-RAG与推理能力深度结合-新方向数据分析能量站机器学习人工智能
欢迎关v：数据分析能量站0论文小结一、研究背景与核心问题大语言模型（LLM）在处理复杂任务时面临两大瓶颈：知识局限性：纯LLM存在“知识幻觉”（编造事实）和“领域知识缺口”；推理浅度：传统检索增强生成（RAG）仅通过关键词匹配获取信息，无法处理多跳推理、语义歧义等复杂需求。核心主张：RAG与推理的深度整合（RAG+Reasoning）是突破上述瓶颈的关键，通过“检索提供实时知识，推理赋予逻辑能力”
AI+Python赋能！长时序植被遥感动态分析全攻略：从物候提取到生态评估梦想的初衷~ 土壤植被遥感人工智能遥感植被土壤
在遥感技术与人工智能深度融合的2025年，AI大模型正重塑长时序植被遥感数据分析范式。从Landsat/Sentinel卫星数据的智能化去云处理，到MODIS植被产品的AI辅助质量控制，以ChatGPT、DeepSeeK为代表的大模型技术已成为提升遥感数据处理效率与精度的核心工具——尤其在长时序植被动态监测、物候期精准提取、时空变异归因分析及生态环境质量评估等领域，展现出传统方法难以企及的技术优势
Python 数据分析与可视化：从基础到进阶的技术实现与优化策略女码农的重启 python 数据分析开发语言
数据分析与可视化是数据科学领域的核心技能，Python凭借其丰富的库生态和灵活的编程范式，成为该领域的首选工具。本文将系统讲解Python数据分析与可视化的技术栈实现，从基础操作到性能优化，结合实战场景提供可复用的解决方案。数据分析核心库技术解析Pandas数据处理引擎原理Pandas作为数据分析的基石，其核心优势在于基于NumPy的矢量运算和高效的内存管理。与Excel的单元格级操作不同，Pan
Python - 数据分析三剑客之Pandas MinggeQingchun Python Python Pandas
阅读前可参考NumPy文章https://blog.csdn.net/MinggeQingchun/article/details/148253682https://blog.csdn.net/MinggeQingchun/article/details/148253682‌Pandas是Python中一个强大的开源数据分析库，专门用于处理结构化数据（如表格、时间序列等），其核心数据结构为Seri
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地