大型数据库分析技巧-统计学基础2

3.简单概率论

3.1 概率空间(Wahrscheinlichkeitsraum)

三元式: (Ω,F,P)
Ω: 结果集合(Ergebnismenge)//指可能出现的结果如掷骰子可能出现的结果是1到6
F 2Ω: 事件域(Raum der Ereignisse)//表示感兴趣的事件的集合比如掷骰子得出结果为基数
P(Wahrscheinlichkeitsmass):每个事件的概率
其中F还具有以下属性:
1.F可以包括空事件,全事件//triviale Ereignis
2.F对Vereinigung和Komplement闭合//Vereinigung指联合Komplement指互补,在这里指什么还木弄清楚??待查明
另外P满足下列属性:
1.非负(Nichtnegativitaet):
2.全事件概率为一: P(Ω)=1
3.符合加法属性(Additivitaet):对于所有的事件a,b Fab=:P(ab)=P(a)+P(b)

3.2 多变量分布(Multivariate Verteilungen)

随机变量(Zufallsvariable)://不解释了吧
多变量分布(Multivariate Verteilungen):多维随机变量的概率分布
边缘分布(Randverteilungen):
P(X,Y)是一个多变量分布
边缘分布P(X)= bVal(Y)P(X,Y=b)

3.3 条件分布(Bedingte Verteilungen)

即当一个变量已知的条件下,另一个变量的概率分布
公式 P(X=a|Y=b)=P(X=a,Y=b)P(Y=b)
不相关性(Unabhängigkeit):当一个变量的概率已知时并不会影响另一个变量的概率分布,他符合下面的公式:
P(X)=P(X|Y)
P(X,Y)=P(X)P(Y)

3.4 概率函数(Wahrscheinlichkeitsfunktion)

离散随机变量:
f(x)=P(X=x)
f必须非负且 xf(x)=1
连续随机变量:
密度函数(Dichtfunktion): P(X[a,b]=baf(x)dx)
P(X=v)=0
f(x) 0
f(x)dx=1

3.5 期望与方差(Erwartungswert und Varianz)

离散: E(X)= aVal(X)aP(X=a)
连续: E(X)= Val(x)xf(x)dx
方差: Var(x)= E((XE(X))2)=E(X2)E(X)2

3.6 协方差与相关比(Kovarianz,diverse Korrelationsmasse)

Kovarianz和Korrelationsmasse的区别:协方差是未标准化得(nicht normiert)而相关比是标准化了的,他的值域是 [1,1] //未标准化指不同的背景(上下文Kontext)的值,是不可以进行比较的
两随机变量的协方差的定义: Cov(X,Y)=E((XE(X)(YE(Y))))
//协方差是用来度量什么关系的呢??回头再查吧
一个随机变量的与其自身的协方差就是他的方差
协方差矩阵(Kovarianzmatrix):用矩阵的形式表示向量随机变量不同参数的之间的协方差//他是对称的,可作为PCA的输入

4.统计测试(Statistische Test)

4.0 学习目的

1.学习各种Test的构成
2.了解不同Test的作用
3.学会应用不同的Test
//数学基础和Test的来源将不会被提及

4.1 Chi-Quadrat Test

目的:比较两个分布的关联性(unabhaengigkeit)
方法:对观察值和期望值进行比较
公式: χ2=m1i=1m2j=1(nijeij)2eij
其中 m1 表示第一个属性有m1个取值,n表示观测到的出现的个数,e表示出现个数的期望
结果越小说明关联越大

4.2 Kolmogorov-Smirnov Test

目的:比较两个不同的分布是否统一或者识别一个分布是否与预测的一致//同时适用于离散和连续的数据
方法:以样本的累积频数分布和特定理论分布比较
例子:比较测量的到的天气温度是否与预测的一样
1.首先要进行数据收集,然后画出关于温度的频数分布图
2.然后依据频数分布图,求出相应的累积频数分布
3.用得到的累积频数分布和事前预测的累积频数分布做比较,计算差值
4.差值越小说明预测越准确

4.3 Wilcoxon-Mann-Whitney Test

目的:比较两个分布的差异性
方法:假定检测的两组数据没有差异。首先不管分组,把所有数据进行排序,并按数值大小给定一个值叫秩。秩最小为1,最大为n。如果有相同的值,那么他们的秩相同,其值为各自秩的平均值。如果这两个组的秩之和比较大就会得到较小的p值,那么我们就认为这两个组之间有显著的差距
//注 这里关注的并非分布而是中值
//样本量太小得话效度会很低
//方法这一段是从别人的Blog上照搬过来的 原址早在不知处了

4.4 Bernoulli-Experiment

//跳了 占时没看明白 回看
//名字就是伯努利实验,但老师上课讲得感觉有点不一样 弄明白再补吧

5.数据缩减(Datenreduktion)

是指数据库的一种呈现方式(Repräsentation des Datenabstands),他占用明显比较小得空间,但是他的分析结果确实几乎不变的
他的主要方法有:
1.数量缩减(Numerosity Reduction) 缩减数据量
2.维度缩减(Dimensionality Reduction) 缩减属性
3.离散化(Diskretisierung) 简化存储值

5.1 Numerosity Reduction

针对参数化(parametrisch)和非参数化(nichtparametrisch)的分布有不同的方法
针对参数分布的方法(parametrische Verfahren):
假设数据分布符合特定的模型(Modell)
估计模型参数,并且只存储不在状况内的数据
针对非参数分布的方法(nichtparametrische Verfahren)
没有假设
常用的方法有:Sampling,Clustering,Histogramme

//未完待续 虽然可能会待很久的说

你可能感兴趣的:(Data,mining)