A. 人工智能 --- 统计学

A. 统计学

数据分类

  • 分类数据:分类数据代表着对象的属性特点。诸如人群的性别、语言、国籍大都属于分类数据。分类数据通常也可以用数值表示(例如1表示女性而0表示男性),但需要注意的是这一数值并没有数学上的意义仅仅是分类的标记而已。
    • 定类数据:是指没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。如性别变量中的男、女取值,可以分别用1、 2表示,民族变量中的各个民族,可以用‘汉’‘回’‘满’等字符表示等。
    • 定序数据:具有内在固有大小或高低顺序,一般可以用数值或字符表示。它相对于定类数据类型来说存在一种程度有序现象。如职称变量可以有低级、中级、高级三个取值,可以分别用1、2、3等表示,年龄段变量可以有老、中、青三个取值,分别用A B C表示等。
  • 数值数据
    • 定距数据:通常是指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据;定距变量用于表示对象等差属性的描述方法。
    • 定比数据:定比数据和定距数据一样都是有序的数据排列,但定比数据存在一个绝对的零值,所描述的都是具有零值基准的变量,包括重量、高度和长度等。
      • 离散数据
      • 连续数据

数据的量度

  • 趋势的量度
    • 均值
      • 问题
        • 异常值导致数据倾斜:向右倾斜和向左倾斜
    • 中位数:奇数个和偶数个的求法
      • 问题
        • 1, 3, 4, 31, 31, 31, 31:中位数有误导作用
    • 众数:一批数据中最常见的数值
      • 适用场景:当众数的数目较少时,或者当数据为类别数据,而不是数值型数据。均值和中位数都不能用于类别数据
      • 不适用场景:当众数很多时
  • 分散性和变异性的量度
    • 分散性量度
      • 全距:用数据集的最大数减去数据集中的最小数
        • 问题
          • 异常值导致的问题,比如说:
            1,1,1,2,2,3,3,4,5,5,51,
            1,1,2,2,3,3,4,5,5,5,10
      • 迷你距
        • 四分位距:上四分位数 - 下四分位数优点:不易受异常值影响的“迷你距”
      • 百分位数
    • 变异性量度
      • 计算平均距离:(|均值 - x1| + |均值 - x2| + |均值 - x3|) / 3
      • 方差/标准方差
        • 标准分:(x - 均值) / 标准方差不同数据集的数据归一化

概率计算

  • 概述
    • 概率、条件概率
    • 用概率树表示条件概率
    • 全概率公式
    • 相互独立事件、相关事件
    • 期望值(知识预测结果)、方差(指示结果的分散性)
      • 4个X 和 X增长4倍,期望值没变,但是方差不一样
  • 排列和组合
    • 排序:n!
    • 排位:C(n, k)
    • 排列:

数据分布

  • 几何分布
    • 连续失败r-1次后,第r次成功:p(r - 1)q
  • 二项分布
    • n次中,成功r次的概率:C(n, r)p®q(n-r)
    • 用正态分布近似代替二项分布:np > 5 && nq > 5
    • 用泊松分布近似代替二项分布:n > 50 && p < 0.1
  • 泊松分布
    • 已知平均次数,求发生了r次的概率
    • 用正态分布代替泊松分布: λ>15
  • 正态分布
    • 连续数据
      • 概率密度,概率=面积
    • 计算正态分布的步骤
      • 确定分布和范围:均值、方差
      • 使其标准化
      • 查找概率
  • T分布
    • 当样本足够小的时候

统计抽样

  • 抽样
    • 步骤
      • 确定目标总体
      • 确定抽样单位
      • 确定抽样空间
    • 问题
      • 样本偏移:原因
        • 抽样空间条目不齐全
        • 抽样单位不正确
        • 为样本选取的一个个抽样单位未出现在实际样本中
        • 调查问卷的问题设计不当
        • 样本缺乏随机性
    • 样本选择方法
      • 简单随机抽样
        • 抽签
        • 随机编号生成器
      • 重复抽样
      • 不重复抽样
      • 分层抽样
      • 整群抽样
      • 系统抽样
  • 预测
    • 概念
      • 总体均值、样本均值、点估计量
      • 总体方差和样本方差的计算公式有区别
    • 中心极限定理:当样本足够大的时候,样本的均值 近似服从正态分布
  • 置信区间:在多大概率上,样本均值所处的区间
    • 步骤
      • 选择总体统计量
      • 求出其抽样分布
      • 决定置信水平
      • 求出置信上下限:90% 1.64 95% 1.96 99% 2.58
  • 假设检验
    • 常规检验
      • 步骤
        • 确定要进行检验的假设
        • 选择检验统计量
        • 确定用于做决策的拒绝域
          • 单尾检验
          • 双尾检验
        • 求出检验统计量的p值
        • 查看样本结果是否位于拒绝域内
        • 做出决策
    • 卡方检验
      • 适用场景
        • 检验拟合优度:检验一组给定的数据与指定分布的吻合程度
        • 检验两个变量的独立性
      • 步骤
        • 确定要进行检验的假设及其备择假设
        • 求出期望频数和自由度
        • 确定用于做决策的拒绝域
        • 计算检验统计量
        • 查看检验统计量是否位于拒绝域以内
        • 做出决策

你可能感兴趣的:(人工智能)