统计学相关(网易公开课笔记)

机器学习算法

  • 要学习数据挖掘十大算法
  • 抽时间学习一下Hadoop集群性能测试,测试一下集群性能

决策树模型

逻辑斯蒂回归

  • 采用了极大似然估计估计模型参数

最大熵模型

  • 使用连续变量的最大熵模型的公式会简单许多
  • 连续变量的熵 S(X)=+fX(x)logfX(x)dx
  • 找几个最大熵模型文本分类的例子
  • http://www.360doc.com/content/13/1124/05/9482_331694586.shtml

支持向量机

  • 训练数据集的样本点中与分离平面距离最近的样本点的实例称为支持向量(support vector)

拉格朗日对偶性

  • 原始问题是极小极大问题

基本的向量运算

元素对向量求导

设 y 是元素, XT=[x1...xn] 是n维向量,则 dy/dx=[dy/dx1,dy/dx2,...,dy/dxn]


统计学

均值、中位数、众数

  • 中位数:偶数个的时候,中间两数字的平均值

极差、中程数

  • 极差: max(X)min(X)
  • 中程数: [max(X)+min(X)]/2

箱线图

集中趋势

  • 平均值(算术平均值)
  • 中位数
  • 众数

样本和总体

  • μ :总体均值 ΣN1xi/N
  • X¯¯¯ :样本均值

总体方差

  • σ2=N1(xiμ)2/N :方差,表示集中趋势

样本方差

  • x¯=n1xi/n
  • S2n=n1(xix¯)2/n :这个公式总是低估总体方差
  • S2=S2n1=n1(xix¯)2/(n1) :总体方差的无偏估计

标准差

  • σ
  • S=S2 ,并不是总体标准差的很好的估计

诸方差公式

  • σ2=N1x2i/Nμ2

随机变量

  • 通常用大写字母表示
  • 随机变量更像是一个从随机过程到数字的函数映射,并且这个数字是随机的
  • 离散和连续的

概率密度

二项分布

  • 将一个硬币抛5次,随机变量 X 表示正面向上的次数
  • Can=n!/[a!(na)!]
  • 所有的概率都可以通过二项式的系数求出
  • 二项分布和正太分布有很大的关系

期望值

  • E(X) :就是平均值

二项分布的期望值

  • E(X)=np

泊松分布

  • 一小时内通过的车辆数, X
  • 经过多个小时的观察泊松分布的 E(X)=λ=np
    • n是时间区间的个数
    • λ 是一个小时内实验成功的总次数
    • p是小区间内成功的概率
  • 两个假设
    • 任意时刻的情况没有差异
    • 一段时间内的流量对另一段时间的流量没有影响
  • 泊松分布实际上来自于二项分布
    • 将一个小时分为3600秒,或者更多
    • 一小时内通过的车辆为 λ ,所以单位时间内通过的车辆的概率 λ/3600
    • P(X=k)=Ck3600(λ/3600)k(1λ/3600)3600k
    • P(X=k)=limxCkn(λ/n)k(1λ/n)nk=λkeλ/k!

大数定律

  • 样本足够大的时候,样本均值接近总体均值或随机变量的期望值
  • 例子:随机变量 X 表示,抛硬币100次,正面向上的次数

正态分布

  • f(x)=1σ2πe12(xμσ)2
  • 二项分布是正态分布的很好的近似,只要试验次数很多的时候
  • (xμσ) :是离均值的距离除以标准差,离均值有几个标准差,又称为标准z分数
  • z分数可以用在任何分布上
  • 中心极限定理:抛一枚硬币,1为正,0为反,随机变量的和接近正态分布
  • f(x)=12πσ2ez2
  • 累积分布函数: CDF(x)=xf(x)dx
  • 经验法则:68-95-99.7法则

中心极限定理

  • 从均值为 μ 、方差为 σ2 ,的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为 μ 、方差为 σ2/n 的正态分布。
  • n代表样本容量
  • 为什么n越大,样本分布越集中?:简单的答案:因为原始分布并不是一个均匀分布,取得的数值越多,即n越大,样本均值就越接近总体均值,所以n越大,越集中,即标准差越小

样本均值的抽样分布

  • 所有样本均值形成的分布
  • 偏度:偏态
  • 峰度:

均值标准误差

  • 样本均值抽样分布的标准差通常称作均值标准差,均值标准误差
  • σ2X¯=σ2n

抽样分布例题

男性在户外活动时平均喝2升水,标准差0.7升,你组织一项全天的户外旅行,50人,准备110升水,这些水不够的概率是多少。

置信区间

从农场收获的20万个苹果中抽取36个作为样本,样本中苹果重量的均值是112克,标准差为40克。问20万个苹果重量均值在100到124克之间的概率是多少?

  • 这其中有几个关键:
    • 样本均值的抽样分布等于总体的均值分布
    • 上面的条件可以将问题转换为:特定的样本均值落在抽样分布均值左右12克范围内

伯努利分布均值和方差公式

  • 成功的概率p,失败的概率1-p
  • μ=p
  • σ2=(1p)(0p)2+p(1p)2=p(1p)

来源

  • 网易公开课:http://open.163.com/movie/2011/6/D/S/M82IC6GQU_M83J9J8DS.html

你可能感兴趣的:(学习笔记)