CDA level1 Part1 易错易混概念总结

  1. 数据分析的层次:常规报表、即席查询、多维分析、警报、统计分析、预报、预测性建模、优化。
  2. crisp-dm方法论:业务理解、数据理解、建模、模型评估、模型发布。
  3. semma方法论:探索-修改-建模-评估-抽样-探索 形成闭环。
  4. 分类变量检查其众数、分类取值的百分比间的差别。
  5. 连续变量检查其中心水平、离散程度、偏度、峰度4个方面。
  6. 正态分布中,均值=中位数=众数。
  7. 正态分布中,变量取值距离均值2倍标准差内出现的概率师95%,即该变量出现大于或者小于2倍标准差的概率约为2.5%。
  8. 从一个均值和方差的一定的总体中抽取n个样本,那么当n足够大时,样本均值和总体一样,方差为原方差除以n,那么标出差为方差开方。当我们做很多次抽样,都会算出一个均值x,那么这些x排列会成正态分布,那么就符合正态分布的策略,95% 2个标准差以内,99.7%3个标准差以内。

你可能感兴趣的:(CDA复习,数据分析,机器学习)