《数据挖掘导论》学习笔记-特征创建

根据原有的属性我们可以创建出新的属性集,而且新的属性数目可能少于原有的属性数目,也就是降维。

创建新的属性的方法有三种:特征提取、映射数据到新的空间、特征构造

1、特征提取

定义:根据原有的数据自己创建新的属性集。
有的数据的属性是非常多的,而特征提取技术都是具体针对某个领域的而不是通用的,因此对数据的处理需要一些较高层次的抽象,提供一些较高层次的属性。比如照片的集合,按照照片是否包含人脸进行分类,而原始数据是像素的集合,因此许多分类算法都不适用,而如果抽象成与人脸高度相关的某些类型的边和区域,则可以对其应用更多的分类技术。

2、映射数据到新的空间

下图的时间序列是包含了3个时间序列的,
《数据挖掘导论》学习笔记-特征创建_第1张图片

而3个时间序列中包含的其中2个时间序列如下图,他们频率分别是7HZ和17HZ,
《数据挖掘导论》学习笔记-特征创建_第2张图片

第三个时间序列则是随机噪声。
我们如果直接对第一个图中包含三个时间序列的数据进行分析的话是没办法进行的。因此我们可以对原始数据进行傅里叶变换,计算功率频谱,如图:
《数据挖掘导论》学习笔记-特征创建_第3张图片

图中的两个尖峰对于包含7HZ和17HZ的时间序列周期。
对于时间序列和其他类型的数据,小波变换也是有用的。

3、特征构造

有时候原始数据的特征不适用于数据挖掘的算法,这时候我们可以由这些原始的特征来构造新的特征。
例如:我们有一个数据集表示人工制品,他的属性包含人工制品的质量和体积。我们希望根据制造材料对这些人工制品进行分类,这时候我们可以根据(质量、体积)=>密度,通过物体的密度直接对人工制品进行分类。

你可能感兴趣的:(《数据挖掘导论》学习笔记)