数据挖掘第四讲

数据挖掘第四讲

数据预处理的作用?

  1. 在主要的处理以前对数据进行的一些处理
  2. 现实世界的数据通常无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量需要对现实数据进行处理

常见的数据预处理方法都有哪些,分别如何处理?

  1. 数据清理

    • 现实世界的数据一般是脏的、不完整的和不一致的。数据清理例程试图填充遗漏的值,识别局外者、消除噪音,并纠正数据中的不一致。
  2. 数据集成

  3. 数据变换

  4. 数据归约

  5. 数据清理:

  • 遗漏值
    • 忽略元组
    • 人工填写遗漏值
    • 使用一个全局常量填充遗漏值
    • 使用属性的平均值填充遗漏值
    • 使用与给定元组属同一类的所有样本的平均值
    • 使用最可能的值填充遗漏值
  • 噪音数据
    • 噪音是测量变量的随机错误或偏差
    • 去除噪音需要数据平滑技术
    • 分箱
      • 存储的值被分布到一些“桶”或箱中。
      • 通过考察“邻居”(即,周围的值)来平滑箱中存储数据的值
      • 由于分箱方法导致值相邻,因此它进行局部平滑
    • 聚类:将类似的值组织成群或“聚类”,落在聚类集合之外的值被视为噪声
    • 计算机和人工检查结合
      • 算机根据可能的错误模式进行预搜索
      • 人工对错误模式进行检验
    • 回归
      • 可以通过让数据适合一个函数(如回归函数)来平滑数据
      • 线性回归:找出适合两个变量的直线,使得一个变量能够预测另一个
      • 多线性回归是线性回归的扩展,它涉及多于两个变量,数据要适合一个多维面
    • 不一致数据
      • 格式不一致(实际值相同)
      • 编码/命名不同(同一个对象)
      • 数据冗余(分布式)
  1. 数据集成与变换
    • 数据集成:将多个数据源中的数据结合,存放在一致的数据存储中
    • 数据变换
      • 平滑
      • 聚集
      • 数据泛化(属性该被泛化删除还是保留,大量不同值,)
      • 规范化(最小,最大规范化)(z-score规范化)
      • 属性构造
    • 数据相关性(皮尔森相关性)

TF-IDF算法是什么,有什么实际含义?

  • TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
  • TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。

你可能感兴趣的:(数据挖掘第四讲)