多元统计分析(笔记更新中...)

多元统计分析

是研究多个随机变量之间相互依赖关系以及内在统计规律性的统计学科

例1:地区经济发展的指标,总产值,利润,效益,物价等

例2:医学诊断,血压脉搏,白血球,体温等

多元统计分析的应用

问题 内容 方法以及举例
数据的结构性化简 尽可能简单的表示研究的现象,但不损失很多有用的信息,并且希望这种表示能够很容易的解释 多元回归分析,聚类分析,主成分分析,因子分析,相应分析,多维标度法,可视化分析
分类和组合 基于所测量到的一些特征,给出好的分组方法,对相似的对象或者变量分组 判别分析,聚类分析,主成分分析,可视化分析
变量之间的相关关系 变量之间是否存在相关关系,相关关系又是怎样体现的 多元回归,典型相关,主成分分析,因子分析,相应分析,多维标度法,可视化分析
预测与决策 通过统计模型或者最优准则,对未来进行预测或者判断 多元回归,判别分析,聚类分析,可视化分析
假设的提出以及检验 检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性 多元总体参数估计,假设检验

主要的多元统计分析方法

  1. 多元回归;路径分析;结构方程模型
  2. 聚类分析
  3. 判别分析
  4. 主成分分析;因子分析
  5. 典型相关分析
  6. 多元方差分析
  7. Logistic回归;Logit模型
  8. 事件史分析
  9. 对应分析
以上方法依据不同标准可以进行不同的分类

计算机统计分析的基本步骤

  1. 数据的组织

    实际上就是数据库的建立。第一步是编码,用数字代表分类数据(区间数据或者比率数据);第二步是给变量赋值,设置变量并根据研究结果给予其数字代码(编码)。

  2. 数据的录入

    将编码数据输入计算机,形成数据库。关键在于保证录入的正确性,避免认读错误以及按键错误。

    在数据录入后还应该进行检验,可以采用计算机核对以及人工核对的方法。

  3. 统计分析

    根据研究的目的以及需要确定统计方法,然后确定与选定的统计方法相应的运行程序。

  4. 结果输出

    经过统计分析,计算结果可用计算机打印出来,输出的形式有列表,图形等。

介绍几种统计分析工具

EXCEL

众所周知的数据处理软件,较为简单,可以使用DAX等进一步提高Excel的数据处理能力

SPSS

常用的统计分析软件,图形化操作,入门简单

EVIEWS

EViews是Econometrics Views的缩写,通常称为计量经济学软件包。是专门为大型机构开发的、用以处理时间序列数据的时间序列软件包

STATA

Stata是一个用于分析和管理数据的功能强大又小巧玲珑,速度快的实用统计分析软件,Stata的统计功能很强,除了传统的统计分析方法外,还收集了近20年发展起来的新方法,如Cox比例风险回归,指数与Weibull回归,多类结果与有序结果的logistic回归,Poisson回归,负二项回归及广义负二项回归,随机效应模型等。具体说,Stata具有如下统计分析能力:数值变量资料的一般分析:参数估计,单因素和多因素的方差分析,协方差分析,交互效应模型,平衡和非平衡设计,嵌套设计,随机效应,多个均数的两两比较,缺项数据的处理,方差齐性检验,正态性检验等

SAS

SAS (Statistical Analysis System)是一个模块化、集成化的大型应用软件系统,它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等,被誉为统计分析的标准软件

R语言

R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘等领域

多元正态分布的参数估计

  1. 基本概念
  2. 正态分布
  3. 多元正态分布的参数估计

多元统计分析涉及到的都是:随机变量或者多个随机变量放在一起的随机矩阵

例如:研究公司运营情况,公司的获利能力,资金周转能力,竞争能力和偿还债务的能力等;

研究国家财政收入时,税收收入,企业收入,债务收入,国家重点交通建设基金收入等。

综上所述,我们要从整体上把握问题的实质,不能只研究一个指标或是把这些指标分裂开研究

讲在前面

随机变量:

假定一个总体包含多个个体,当每个个体都是P个需要观测的指标,进行了N次观测时,常用向量
X = ( X 1 , X 2 , ⋯   , X p ) X=(X_{1},X_{2},\cdots,X_{p}) X=X1,X2,,Xp
表示对同一个体观测的p个变量,称这样的总体为P维总体。、

便于人们用数学方法去研究p维总体的特性,这里“维”(或“元”)的概念,表示共有几个分量。若观测了n个个体,则可得到如表2.1的数据,称每一个个体的p个变量为一个样品,而全体n个样品组成一个样本
多元统计分析(笔记更新中...)_第1张图片

上图中的样本资料可用矩阵表示为:
X ⃗ = [ X 11 X 12 ⋯ X 1 p X 21 X 22 ⋯ X 2 p ⋮ ⋮ ⋮ X n 1 X n 2 ⋯ X n p ] = ( X ⃗ 1 , X ⃗ 2 , ⋯   , X ⃗ p ) \vec{X}=\left[\begin{matrix} X_{11}&X_{12}\cdots &X_{1p}\\ X_{21}&X_{22}\cdots &X_{2p}\\ \vdots&\vdots&\vdots\\ X_{n1}&X_{n2}\cdots &X_{np}\\ \end{matrix}\right]=(\vec{X}_{1},\vec{X}_{2},\cdots,\vec{X}_{p}) X = X11X21Xn1X12X22Xn2X1pX2pXnp =(X 1,X 2,,X p)

回顾一元统计中的分布函数,分布密度函数
  1. 设X是一个随机变量,称 F ( x ) = P ( X ≤ x ) F(x)=P(X\leq x) F(x)=P(Xx)为X的概率分布,简称为分布函数,记作 X ≈ F ( x ) X\approx F(x) XF(x)

  2. 如果随机变量在有限的 x k {x_{k}} xk上取值,记 P ( X = x k ) = p k , ( k = 1 , 2 , ⋯   ) P(X=x_{k})=p_{k},(k=1,2,\cdots) P(X=xk)=pk,(k=1,2,) ∑ k p k = 1 \sum_{k}{p_{k}}=1 kpk=1,则称X为离散型随机变量,称 P ( X = x k ) = p k , ( k = 1 , 2 , ⋯   ) P(X=x_{k})=p_{k},(k=1,2,\cdots) P(X=xk)=pk,(k=1,2,)为X的概率分布

  3. 分布密度函数:

    X − F ( x ) X - F(x) XFx,若存在一个非负函数 f ( x ) f(x) f(x),使得一切实数x有: F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infty}^{x}{f(t)}{\rm d}t F(x)=xf(t)dt,则称 f ( x ) f(x) f(x)为X的分布密度函数,简称为密度函数。一个函数 f ( x ) f(x) f(x)能作为某个随机变量X的分布密度函数的重要条件是:
    (1) f ( x ) f(x) f(x)≥0,对一切实数x都成立;

    (2) ∫ − ∞ x f ( x ) d x = 1 \int_{-\infty}^{x}{f(x)}{\rm d}x=1 xf(x)dx=1

多元分布的联合,边缘分布和联合,边缘密度函数

随机向量的数字特征

多元统计分析(笔记更新中...)_第2张图片
多元统计分析(笔记更新中...)_第3张图片

均值向量

多元统计分析(笔记更新中...)_第4张图片

均值向量:
u ⃗ = E ( X ) = [ E ( X 1 ) E ( X 2 ) ⋮ E ( X p ) ] = [ u 1 ⃗ u 2 ⃗ ⋮ u p ⃗ ] \vec{u}=E(X)=\left[\begin{matrix} E(X_{1})\\ E(X_{2})\\ \vdots \\ E(X_{p})\\ \end{matrix}\right]=\left[\begin{matrix} \vec{u_{1}}\\ \vec{u_{2}}\\ \vdots \\ \vec{u_{p}}\\ \end{matrix}\right] u =E(X)= E(X1)E(X2)E(Xp) = u1 u2 up
其中,
u i ⃗ = { ∫ − ∞ + ∞ x i f i ( x i ) d x i 若 X i 是概率密度函数为 f i ( x i ) 的连续型随机变量 ∑ 所有 z i x i p i ( x i ) 若 X i 是概率函数为 p i ( x i ) 的离散型随机变量 \vec{u_{i}}= \begin{cases} \int_{-\infty}^{+\infty}{x_{i}f_{i}(x_{i})}{\rm d}x_{i} & 若X_{i}是概率密度函数为f_{i}(x_{i})的连续型随机变量 \\ \sum_{所有z_{i}}{x_{i}}p_{i}(x_{i}) & 若X_{i}是概率函数为p_{i}(x_{i})的离散型随机变量 \end{cases} ui ={+xifi(xi)dxi所有zixipi(xi)Xi是概率密度函数为fi(xi)的连续型随机变量Xi是概率函数为pi(xi)的离散型随机变量

协差阵

正态分布的定义和有关性质

现实世界中,许多实际问题的解决都是以总体服从正态分布或者近似服从正态分布为前提的。

所以在处理数据时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用各种统计分析之前,常需要将每个指标“标准化”。

聚类与SPSS应用

你可能感兴趣的:(大数据)