Weka选择属性算法介绍

在Select attribute标签页中可以指定属性评估器和搜索方法。

Weka选择属性算法介绍_第1张图片

  • 选择属性通常搜索属性子集空间,评估每一个空间,这可以通过组合属性子集评估器搜索方法得以实现。
  • 快捷但准确度不高的方法是评估单个属性并排序,丢弃低于指定截止点的属性,这可以通过组合单个属性评估器属性排名的方法得以实现。

1、属性子集评估器

属性子集评估器选取属性的一个子集,并返回一个指导搜索的度量数值。
CfsSubsetEval评估器评估每个属性的预测能力及其相互之间的冗余度,倾向于选择与类别属性相关度高,但相互之间相关度低的属性。选项迭代添加与类别属性相关度最高的属性,只要子集中不包含与当前属性相关度更高的属性。

WrapperSubsetEval评估器是包装器方法,它使用一个分类器来评估属性集,它对每一个子集采用交叉验证来评估学习方案的准确性。

2、单个属性评估器

InfoGainAttributeEval 评估器通过测量类别对应的属性信息增益来评估属性,它首先使用基于MDL(最小描述长度)的离散化方法(也可以设置为二元化处理)对数值型属性进行离散化。通过测量相应类别的增益率来评估属性。

3、搜索方法

搜索方法遍历属性空间以搜索好的子集,通过所选的属性子集评估器来衡量其质量。
BestFirst 搜索方法执行带回溯的贪婪爬山法。它可以从空属性集开始向前搜索,也可以从全集开始向后搜索,还可以从中间点(通过属性索引列表指定)开始双向搜索并考虑所有可能的单个属性的增删操作。

GreedyStepwise 搜索方法贪婪搜索属性的子集空间。像BestFirst 搜索方法一样,它可以向前和向后搜索。但是,它不进行回溯。只要添加或删除剩余的最佳属性导致评估指标降低,就立即终止。

Ranker 实际上不是搜索属性子集的方法,而是对单个属性进行排名的方法。通过对单个属性评估对属性排序,只能用户单个属性评估器,不能用户属性子集评估器。

你可能感兴趣的:(Weka)