statistics复习

概要


 

来源:

1660年,德国人使用statt记录人们出生、死亡信息。

定义:

用收集数据、分析数据、由数据得出结论的一组概念、方法。

思想核心:

随机性、规律性及彼此关系。

统计学根基:

1 概率,一个取值为0到1的数,告诉我们某一特定时间有多大机会发生。

2 变量,可能取2个或更多可能值的特征、特质或属性。

   eg. 值变量(d3.js中的range,温度计,等等);类别变量(性别);序列变量(非常赞同、赞同、中立、反对、非常反对)。

 英文:变量-vairable,变量的值-value,变量的个体-element

 经验变量-日常生活-empirical variables;理论变量-数学方法推倒出的变量-theoretical variables-t-/z-/卡方/F-。

3 常量,总有一个固定的价值-constant

 

数据收集


 

问题?好数据与坏数据-如何提高数据收集质量?

1 定义变量,清楚测量的是什么,在做研究前,对变量必须有一个清晰、详尽的定义。

2 观测数据,observational study

  总体,包含所有需研究的个体-population

  普查,收集到总体中所有个体数据-census

  样本,总体的一个被选中的部分-sample

    随机样本,random sample

    一个来自总体的样本,总体的每个个体有一个已知的或相等的机会被包含在该样本之中。是一个合适的、能够被推广应用于更大总体的统计样本。

    方便样本,convenience sample

    很容易很经济得到的样本。

      简单随机样本,simple random sample,后续研究都基于此。

很难区分观测数据中混淆因素的作用,eg.投票中性别对投票结果的影响。  

观测数据可能导致的错误及误差

考虑:样本是否合适、响应率、提问措辞、问题位置、访员

抽样误差,sampling error,一种主要的统计误差,+-n%。

  抽样误差大小依赖于得到样本的方式及样本的大小,公布任何一次抽样调查的时候都应该公布抽样误差的大小。

未响应误差,nonresponse error,另一种统计误差,包含在样本中的一部分人未回应调查而造成的误差。

  低响应率可能对调查结果产生较大的影响。

响应误差,response error,可能避免的一种误差,调查中由于问题的提问方式、问题位置、访员影响而导致的误差。

3.实验数据,experimental data,在实验中控制实验对象而收集到的数据。

  实验组,experimental group,接受实验的组别,可以为一个或多个。

  对照组,control group,对比实验结果的组别,个体没有特殊待遇,一般为一个。

  原则:随机选择实验对象。

  以人为实验对象可能会有很多问题,如Hawthorne effect(霍桑效应),应保持实验组与对照组受到同样的关注度。

实验设计者的三个目标:确定数据规模、设定研究计划、研究多个变量影响。

  当几个变量同时影响一个结果变量时,多个变量同时研究比研究单个变量好得多。

  

数据描述


 

数据分析包括三个内容:图-graph/表-table/计算-compute————三个内容都包含简化(便于理解、提取信息/也会丢失数据),寻找简化和完整的平衡点是难题。

图,帮助研究者提取信息,帮助把信息传达给其它人。警惕“坏图”。

  分类变量,categorial variable,任两个观测值或者相同或者不同,不能被排序。

  饼状图,Pie Chart, adv:展示分类变量/容易合并相邻的组

            neg:展示具体观测数/类别过多时不清晰

  条形图,Bar Chart, 等宽不等高条形图易于显示变量每一个取值,不适用于显示总变量数;等高不等宽柱状图适用于展示总变量数,不适用于展示个别类别数目,且类别过       多,展示效果下降。

      条形图的二次划分-P49

  度量变量,metric variable,可被测量的变量,如高度、收入、年龄。可测量出观测值与其他值的不同,或观测值比另外一个观测值多或少多少。

  点线图,Lineplot,adv:数据信息清楚、无损失。

            neg:观测值多而越来越混乱。 

  盒状图,Boxplot,adv:分析若干个组的数据,利于数据简化。

           neg:不能恢复原始数据。

      计算上四分位数Q3/下四分位数Q1/中位数median/四分位数差IQR(interquartile range)

  茎叶图,Stemplot,adv:源数据被保留/分布排列清晰

             neg:数据量多显示质量下降,间距过大枝叶显示过长,压缩枝叶长度小数据展示过密。

  直方图,Histogram,adv:简化数据、展示大量数据。

            neg:详细数据丢失。

      单峰直方图(unimodal),双峰直方图(bimodal),对称直方图(symmetric),非对称直方图(skewed)。

      许多变量都呈现单峰对称分布,如体重、智商...

      避免绘制的过于高细或矮粗。

   散点图,scatterplot,adv:展示两个变量的相关性最佳实践,简化了数据且没有丢失数据.

   时间序列图,特殊的散点图,横轴为时间,纵轴为变量。数据简化的同时,保留了数据;但图的形状可能产生误导。

   地图,具有地域性模式,也可能产生误导

   如何优秀作图?

   图优性,graphical excellency,在最短时间内,用最少笔墨,在最小的空间里给观众最多的思想。

   图中垃圾,制图者天假的试图使图更吸引人或更有趣的特征。?有些图中垃圾可能会使读者更感兴趣。

   数据密度,没平方英寸数据越多,数据密度越大,越富含信息。

   某些情况下使用表而不是图,用于支持观点/组织数据。

 

统计汇总


 

将观测值汇总为一个数据,使之具有中心趋势或平均值/汇总变量之间的差别。

汇总,adv:数据高度简单化;neg:信息丢失。

平均数,对变量观察值进行计算后得到的一个数值。

  中心值,average/central value,分为三种:

    众数,mode,一个变量出现次数最多的值。 

      一个数据集有2个值经常出现,叫二众数分布。

      adv:易于取得,对于分类变量是描述平均值最好方法;

      neg:不经常使用,只能体现这个数据集很少的一部分。

#get the mode value of data set
def mode(arr):
	dic = {}
	for item in data:
		if item in dic.keys():
			dic[item] += 1
		else:
			dic[item] = 1
	maxNum = max(dic.values())
	for keyName in dic:
		if dic[keyName] == maxNum:
			key = keyName
			break

	return keyName

    中位数,median,将观测值分为同等数目的两组数,一半观测值小于它,另一半大于它。

    求中位数:

#get the median value of data set
def median(arr):
	arr.sort()
	num = len(arr)
	pos = 0
	median = 0
	if num%2 == 0:
		pos = num/2 -1
		median = (arr[pos] + arr[pos + 1])/2
	else:
		pos = (num-1)/2 +1 -1
		median = arr[pos]

	return median

    偶数个观测值取中间两个值得中点作为中位数。

      中位数也称为第50个百分位数,另外还有25百分位数与75百分位数。

      茎叶图中的中位数很好找,因为茎叶图已经排好序。

    均值,mean,所有观察值相加除以观察值个数

#get the mean value of data set
def mean(arr):
	num = len(arr)
	sum = 0
	for i in arr:
		sum = sum + i

	mean = sum/num
	return mean

      均值对极值十分敏感,当数据有极值,尽量不使用均值。

      adv:对每一个观察值都加以利用。可以获得更多信息。

      neg:计算麻烦,对极值敏感。

   极差,range,观察值中最大值与最小值的差。

#get the range of data set
def range(arr):
	minValue = min(arr)
	maxValue = max(arr)
	return maxValue - minValue

    极差对极值十分敏感,去掉某些极端值是一种优秀策略。

    四分位极差,interquartile range,去掉最大的25%数据与最小的25%数据,余下数据的极值之差。

#get the interquartile range of dataset
def quatileRange(arr):
	arr.sort()
	iqR = 0
	if(len(data)%2 == 0):
		q1Pos = (len(data) + 1) * 0.25
		q3Pos = (len(data) + 1) * 0.75
		q1_c = int(q1Pos)
		q1_d = q1Pos - q1_c
		q3_c = int(q3Pos)
		q3_d = q3Pos - q3_c
		q1 = arr[q1_c - 1] + (arr[q1_c + 1 - 1] - arr[q1_c - 1]) * q1_d
		q3 = arr[q3_c - 1] + (arr[q3_c + 1 - 1] - arr[q3_c - 1]) * q3_d
		iqR = q3 - q1
		return iqR
	else:
		q1Pos = int((len(data)+1)*0.25) -1
		q3Pos = int((len(data)+1)*0.75) -1
		iqR = arr[q3Pos] - arr[q1Pos]
		return iqR

#notice,qn_c代表整数部分,qn_d代表小数部分,计算机中数组是从0位开始,所以取值需要减1

    极差/四分位极差适合用盒状图表示出来。

  标准差,standard deviation,观察值与平均值的距离,一般用s表示。

    求标准差,先得出方差,再开根号。求方差同理。方差是标准差的平方。

#get the standatd deviation of data set
def stDev(arr):
	meanValue = mean(arr)
	sum = 0
	for item in arr:
		sum += (item - meanValue) * (item - meanValue)
		s = float(sum)/(len(arr)-1 + 1)
		st = round(math.sqrt(s),2)
	return st

     注意,需要import math

    标准误差,standard error,多个样本均值的标准差。

      均值的标准误差比观测值的标准差小。

      标准误差同样可以由一列中位数或者一列标准差计算得到。

      ?标准误差的计算公式不统一

    标准得分,standard scores,某一观测值减均值的差除以标准差,数值的绝对值越大,更反常规。

      任何变量的标准得分的大部分值都在-2.00至2.00之间,如果它的标准得分超过此区间,那么这个观测值就不合寻常。

#get the standard scores of data set
def standardScores(objValue,arr):
	meanValue = mean(arr)
	stanDevi = stDev(arr)
	stanScores = (objValue - meanValue)/stanDevi
	return stanScores

概率


 

0-1之间的一个数,它告诉我们一件事发生的经常程度。

得到概率:

  1.利用等可能性事件

  2.利用相对频数,基于大量实验。

  3.利用主观概率subjective probability,当事件不能被重复度量 

  计算两个不可能同时发生的事件的概率,可以相加/计算两个事件同时发生的概率,将两个概率相乘   

优势,odds,反对一个事件的优势:一个事件不发生:发生的可能性。

  优势应该用整数表示,如4:9,兑换成概率为(4+9)/9

计算复杂事件的概率的方案:二项分布及Poisson分布

  二项分布公式(binomial distribution):n个实验中成功的次数分布。

  二项变量(binomial variable):问题中两个值中某一个值出现的次数。

    二项分布通常在小样本中应用,大样本使用二项分布的正态相似(normal approximation to the binomial distribution)

#get binomial distrubution 
def binomialDistri(m, n, p):
	calLeft = math.factorial(m)/(math.factorial(n) * math.factorial(m-n))
	calRight = pow(p,n) * pow((1-p),(m-n))
	return calLeft * calRight;

m代表样本众数,n代表成功次数,p代表成功发生的概率,如4个小孩中生2个为女孩的概率,女孩出生率为0.49,则mnp分别为4、2、0.49

  Possion分布,当一个事件出现的可能性非常小,且有很多可能值,使用柏松分布。

#get possion distribution
def possionDistri(u, x):
	p=pow(math.e, -u) * pow(u, x)/ math.factorial(x)
	return p

math.e代表自然对数的底数,u代表事件发生次数的均值,x代表事件发生了几次,如每小时有人发短信的均值为3,求解每小时收到5条短信的概率,u=3,x=5

  超几何分布,hypergeometric distribution,样本很少用于分析两个分类变量。

还可以计算二项分布、泊松分布的均值、标准差。

 

连续变量,continuous variable,任意两个值之间还有其它的值。四个理论变量有助于分析概率,分别为z,t,卡方(x2),F变量。

  标准正态Z分布(钟型曲线),特征是对称性,中点两边曲线下的面积相等。

    标准正态分布Standard normal distribution的均值为0,标准差为1。

    z值比例的和为1。

    z分布的主要作用在于找到一个特别的值及比它更极端的z值的概率。(假设检验中还会讨论)。

  t-分布,t-distribution也叫学生分布,student's t。

    自由度,degrees of freedom,d.f,t分布有一个族,自由度是它们的标记,样本数的大小部分决定使用哪个自由度。

    t分布在其均值周围的聚集程度比正态分布差一些。

    t分布的自由度越大,则越接近正态分布。自由度大于50,t分布与z分布基本相同,d.f最大值为100,此后可以用z代替t分布。

  卡方分布,它是一族分布,编号同样叫自由度。

    它没有负值,形状并不对称。

    我们在某一自由度下计算卡方分布的概率,如果这个概率很小,那么这个值就是不寻常的,意味着样本得到的结果不寻常。(假设检验中深入)。

  F分布,它是两个卡方分布的比率,分子X服从自由度K1的卡方分布,坟墓Y服从自由度K2的卡方分布。

    F分布是非负的,非对称的。

    自由度越小,F值越大。

    在特定的自由度下,如果一个F分布的值大于这个自由度的边缘概率,那么这个值就是一个不寻常值。

  使用T,卡方及F分布,应假定数据服从正态分布,因为它们都衍生于正态分布。 

  任何概率都建立在某种假设为真的前提下。

    作出假设->收集数据->计算概率->假设检验

  尾概率,tail probability,分布于概率分布的尾部。

  P-值,有关总体的某些假设下,观察值或极端值出现的概率。

  风险和利益间达到平衡的过程,叫做决策分析(decision analysis)。

    人们常常对小概率事件作出过度反应。

 

估计


 

转载于:https://www.cnblogs.com/valentineisme/p/4251684.html

你可能感兴趣的:(statistics复习)