例1:地区经济发展的指标,总产值,利润,效益,物价等
例2:医学诊断,血压脉搏,白血球,体温等
问题 | 内容 | 方法以及举例 |
---|---|---|
数据的结构性化简 | 尽可能简单的表示研究的现象,但不损失很多有用的信息,并且希望这种表示能够很容易的解释 | 多元回归分析,聚类分析,主成分分析,因子分析,相应分析,多维标度法,可视化分析 |
分类和组合 | 基于所测量到的一些特征,给出好的分组方法,对相似的对象或者变量分组 | 判别分析,聚类分析,主成分分析,可视化分析 |
变量之间的相关关系 | 变量之间是否存在相关关系,相关关系又是怎样体现的 | 多元回归,典型相关,主成分分析,因子分析,相应分析,多维标度法,可视化分析 |
预测与决策 | 通过统计模型或者最优准则,对未来进行预测或者判断 | 多元回归,判别分析,聚类分析,可视化分析 |
假设的提出以及检验 | 检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性 | 多元总体参数估计,假设检验 |
数据的组织
实际上就是数据库的建立。第一步是编码,用数字代表分类数据(区间数据或者比率数据);第二步是给变量赋值,设置变量并根据研究结果给予其数字代码(编码)。
数据的录入
将编码数据输入计算机,形成数据库。关键在于保证录入的正确性,避免认读错误以及按键错误。
在数据录入后还应该进行检验,可以采用计算机核对以及人工核对的方法。
统计分析
根据研究的目的以及需要确定统计方法,然后确定与选定的统计方法相应的运行程序。
结果输出
经过统计分析,计算结果可用计算机打印出来,输出的形式有列表,图形等。
EXCEL
众所周知的数据处理软件,较为简单,可以使用DAX等进一步提高Excel的数据处理能力
SPSS
常用的统计分析软件,图形化操作,入门简单
EVIEWS
EViews是Econometrics Views的缩写,通常称为计量经济学软件包。是专门为大型机构开发的、用以处理时间序列数据的时间序列软件包
STATA
Stata是一个用于分析和管理数据的功能强大又小巧玲珑,速度快的实用统计分析软件,Stata的统计功能很强,除了传统的统计分析方法外,还收集了近20年发展起来的新方法,如Cox比例风险回归,指数与Weibull回归,多类结果与有序结果的logistic回归,Poisson回归,负二项回归及广义负二项回归,随机效应模型等。具体说,Stata具有如下统计分析能力:数值变量资料的一般分析:参数估计,单因素和多因素的方差分析,协方差分析,交互效应模型,平衡和非平衡设计,嵌套设计,随机效应,多个均数的两两比较,缺项数据的处理,方差齐性检验,正态性检验等
SAS
SAS (Statistical Analysis System)是一个模块化、集成化的大型应用软件系统,它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等,被誉为统计分析的标准软件
R语言
R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘等领域
例如:研究公司运营情况,公司的获利能力,资金周转能力,竞争能力和偿还债务的能力等;
研究国家财政收入时,税收收入,企业收入,债务收入,国家重点交通建设基金收入等。
假定一个总体包含多个个体,当每个个体都是P个需要观测的指标,进行了N次观测时,常用向量
X = ( X 1 , X 2 , ⋯ , X p ) X=(X_{1},X_{2},\cdots,X_{p}) X=(X1,X2,⋯,Xp)
表示对同一个体观测的p个变量,称这样的总体为P维总体。、
便于人们用数学方法去研究p维总体的特性,这里“维”(或“元”)的概念,表示共有几个分量。若观测了n个个体,则可得到如表2.1的数据,称每一个个体的p个变量为一个样品,而全体n个样品组成一个样本。
上图中的样本资料可用矩阵表示为:
X ⃗ = [ X 11 X 12 ⋯ X 1 p X 21 X 22 ⋯ X 2 p ⋮ ⋮ ⋮ X n 1 X n 2 ⋯ X n p ] = ( X ⃗ 1 , X ⃗ 2 , ⋯ , X ⃗ p ) \vec{X}=\left[\begin{matrix} X_{11}&X_{12}\cdots &X_{1p}\\ X_{21}&X_{22}\cdots &X_{2p}\\ \vdots&\vdots&\vdots\\ X_{n1}&X_{n2}\cdots &X_{np}\\ \end{matrix}\right]=(\vec{X}_{1},\vec{X}_{2},\cdots,\vec{X}_{p}) X=⎣ ⎡X11X21⋮Xn1X12⋯X22⋯⋮Xn2⋯X1pX2p⋮Xnp⎦ ⎤=(X1,X2,⋯,Xp)
设X是一个随机变量,称 F ( x ) = P ( X ≤ x ) F(x)=P(X\leq x) F(x)=P(X≤x)为X的概率分布,简称为分布函数,记作 X ≈ F ( x ) X\approx F(x) X≈F(x)
如果随机变量在有限的 x k {x_{k}} xk上取值,记 P ( X = x k ) = p k , ( k = 1 , 2 , ⋯ ) P(X=x_{k})=p_{k},(k=1,2,\cdots) P(X=xk)=pk,(k=1,2,⋯)且 ∑ k p k = 1 \sum_{k}{p_{k}}=1 ∑kpk=1,则称X为离散型随机变量,称 P ( X = x k ) = p k , ( k = 1 , 2 , ⋯ ) P(X=x_{k})=p_{k},(k=1,2,\cdots) P(X=xk)=pk,(k=1,2,⋯)为X的概率分布
分布密度函数:
设 X − F ( x ) X - F(x) X−F(x),若存在一个非负函数 f ( x ) f(x) f(x),使得一切实数x有: F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infty}^{x}{f(t)}{\rm d}t F(x)=∫−∞xf(t)dt,则称 f ( x ) f(x) f(x)为X的分布密度函数,简称为密度函数。一个函数 f ( x ) f(x) f(x)能作为某个随机变量X的分布密度函数的重要条件是:
(1) f ( x ) f(x) f(x)≥0,对一切实数x都成立;
(2) ∫ − ∞ x f ( x ) d x = 1 \int_{-\infty}^{x}{f(x)}{\rm d}x=1 ∫−∞xf(x)dx=1
均值向量:
u ⃗ = E ( X ) = [ E ( X 1 ) E ( X 2 ) ⋮ E ( X p ) ] = [ u 1 ⃗ u 2 ⃗ ⋮ u p ⃗ ] \vec{u}=E(X)=\left[\begin{matrix} E(X_{1})\\ E(X_{2})\\ \vdots \\ E(X_{p})\\ \end{matrix}\right]=\left[\begin{matrix} \vec{u_{1}}\\ \vec{u_{2}}\\ \vdots \\ \vec{u_{p}}\\ \end{matrix}\right] u=E(X)=⎣ ⎡E(X1)E(X2)⋮E(Xp)⎦ ⎤=⎣ ⎡u1u2⋮up⎦ ⎤
其中,
u i ⃗ = { ∫ − ∞ + ∞ x i f i ( x i ) d x i 若 X i 是概率密度函数为 f i ( x i ) 的连续型随机变量 ∑ 所有 z i x i p i ( x i ) 若 X i 是概率函数为 p i ( x i ) 的离散型随机变量 \vec{u_{i}}= \begin{cases} \int_{-\infty}^{+\infty}{x_{i}f_{i}(x_{i})}{\rm d}x_{i} & 若X_{i}是概率密度函数为f_{i}(x_{i})的连续型随机变量 \\ \sum_{所有z_{i}}{x_{i}}p_{i}(x_{i}) & 若X_{i}是概率函数为p_{i}(x_{i})的离散型随机变量 \end{cases} ui={∫−∞+∞xifi(xi)dxi∑所有zixipi(xi)若Xi是概率密度函数为fi(xi)的连续型随机变量若Xi是概率函数为pi(xi)的离散型随机变量
所以在处理数据时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用各种统计分析之前,常需要将每个指标“标准化”。