《数据挖掘导论》知识点整理

数据挖掘上课没怎么好好听,反而现在想自己多学一点了。最近发现Kaggle竞赛很有意思,但是自己基础太差了,所以定计划,每天看书30页左右,把自己感觉之前不知道的东西记录在这里。

第3章 探索数据

  • 众数(mode):具有最高频率的值。
  • 百分位数(percentile):第p个百分位数xp是一个x值,使得x的p%的观测值小于xp
  • 截断均值(trimmed mean):丢弃高端和低端(p/2)%的数据,再计算均值。
  • 极差(range):
    ![](http://latex.codecogs.com/gif.latex? range(x)=max(x)-min(x))
  • 方差(variance):
    ![](http://latex.codecogs.com/gif.latex? variance(x)=s_x2=\frac{1}{m-1}\sum_{i=1}{m}(x_i-\bar{x})^2)
  • 协方差矩阵(covariance matrix):两个属性的协方差是两个属性一起变化并依赖于变量大小的度量。
    ![](http://latex.codecogs.com/gif.latex? s_{ij} = covariance(x_i, x_j) = \frac{1}{m-1}\sum_{k-1}^{m}(x_{ki}-\overline{x_i})(x_{kj}-\overline{x_j}))
  • 相关矩阵(correlation matrix):
    ![](http://latex.codecogs.com/gif.latex? r_{ij} = correlation(x_i, x_j) = \frac{covariance(x_i,x_j)}{s_is_j})

你可能感兴趣的:(《数据挖掘导论》知识点整理)