CDA1级习题复习(1)

  1. 数据分析:包括业务理解,数据采集,数据清洗,数据探索,数据可视化,数据建模,模型可视化,分析结果。
  2. 数据挖掘:是在大型数据集中运用人工智能,机器学习,统计学发现模式的过程。
  3. 数据分析八个层次:常规报表,即席查询,多维分析,警报,统计分析,预报,预测性建模和优化。
  4. CRISP-DM方法论:业务理解,数据理解,数据准备,建模,模型评估和模型发布。
  5. SEMMA方法论: 探索—修改—建模—评估—抽样—探索
  6. 数据的计量尺度:分类变量(名义测量),顺序变量(次序测量),数据变量(间距测量,比率测量)
  7. 几何平均数:用于计算平均成长率,n个比率相乘再开n次。
  8. 异众比率:1-(众数个数/总体)
  9. 方差是西格玛平方,标准差是西格玛。
  10. 图像峰值靠左是右偏,图像峰值靠右是左偏。
  11. 峰度是变量两边拖尾的情况。如果一个变量是尖峰的,在统计学中出现超过2倍标准差的数值的概率会大于5%,3倍的会大于1%。
  12. 在正态分布中,均值=中位数=众数。
  13. 在正态分布中,变量取值距离在均值2倍标准差内出现的概率为95%。
  14. 在正态分布中,一个标准差68%,2个标准差95%,3个标准差99.7%。
  15. 点估计命中目标的概率是极低的,所以要用区间估计。其中会用区间估计的平均数估计总体的平均数,区间估计的标准差为总体标准差除以根号下样本数量n。
  16. 在速简方式下,用最大数减去最小数再除以6可以得到标准差。原因是大部分数据会落在6个标准差之内。
  17. 数据分析分为验证性数据分析和探索性数据分析,其中验证性数据分析是传统数据分析的分析方法,探索性数据分析在先验情况不明确时使用。
  18. t检验统计量适用于样本为小样本且总体方差未知。
  19. 错误点:方差分析不能同时检验两组均值是否存在差异问题。正确描述:是可以的,例如在检验条件满足下,t方和F检验的显著性是等价的。
  20. 在一元线性回归中,估计标准误差就意味着样本点到回归线的距离越近,那么2个变量的线性相关性就像越强,相关系数越大。
  21. 在不做特殊说明的情况下,相关系数指的是线性相关的系数。其中r=1完全正相关,r=-1完全负相关,r=0 不存在线性关系,-1>r>0 负相关,0
  22. r的绝对值大于0.8意味着高度相关,在0.5和0.8之间意味着中度相关,在0.3到0.5之间是低度相关,小于0.3是相关性弱可以忽略为不相关。
  23. 线性回归假设:因变量与自变量之间的线性关系,残差必须服从正态分布,残差之间相互独立并且遵循统一分布,误差项与自变量不相关,其期望为0。
  24. 数据清洗:缺失值处理,异常值检测及处理,重复值检测及消除方法。
  25. 数据预处理方法:归一化,标准化,连续数值型变量分箱,有序分类变量One-Hot编码,字符型变量数值化。
  26. 特征工程:特征构建,特征提取,特征选择。
  27. 预测值决定P和N,真实值决定是否预测成功。precision=TP/(TP+FP),Recall=TP/(TP+FN), F1=2倍的precision和recall的均值, accuarcy=(TP+TN)/全体。

你可能感兴趣的:(CDA复习,数据分析,cda)