RapidMiner(二)

六、中文网页分类

建立中文网页分类模型并采用交叉验证评估

RapidMiner(二)_第1张图片
RapidMiner(二)_第2张图片

七、中文网页聚类

对中文网页聚类并进行外部指标评估

RapidMiner(二)_第3张图片

部件说明:

  1. 部件Process Documents from Files,设置第一个参数为只能中文网页所在的路径,对应的class name可以任意填写,设置encoding为GB18030,勾选extract text only、add meta information和create word vector。注意添加的元信息字段都不是regular角色的,不会被聚类算法处理。
  2. 使用Generate Attributes部件增加一个cutname字段,使用正则表达式cut(metadata_file,0,4)生成该字段。
  3. 设置正确的label角色的字段,注意数据集中只能有一个label角色的字段。先使用Select Attributes部件,删除原来label角色的字段,即label。然后使用Set Role部件,将cutname字段改成label角色。
  4. 使用K-Means部件,注意参数k的数值要与训练集的类数目一致。
  5. 使用Map Clustering on Labels部件产生predicate(label)字段(这是一个predicate角色的字段)。
  6. 使用Performance部件,对label角色的和predicate角色的字段值进行比较和统计,算出性能评估结果,比如准确率等。


    RapidMiner(二)_第4张图片
RapidMiner(二)_第5张图片

对中文网页聚类并进行内部指标评估

RapidMiner(二)_第6张图片
RapidMiner(二)_第7张图片
RapidMiner(二)_第8张图片

七、关联分析

RapidMiner(二)_第9张图片

部件说明:

  1. Apriori部件参数中find min number of itemsets模式的解释
    min number of itemsets: 挖掘的频繁项集的最小个数。
    max number of retries: 最大的尝试次数。
    Apriori部分从指定的支持度阈值min support开始,每次尝试递减支持度阈值的10%,直到找到指定个数的频繁项集或者尝试次数达到max number of retries时结束。
  2. Create Association Rules部分用到的兴趣度X→Y
    Laplace: (?(X∪Y)+1) / (?(X)+k)
    Gain: s(X∪Y) - q s(X)
    p-s: 平衡度 s(X∪Y) - s(X)s(Y)
    Lift: 提升率 s(X∪Y) / (s(X)s(Y))
    Conviction: 信任度 (s(X) - s(X)s(Y)) / (s(X) - s(X∪Y))


    RapidMiner(二)_第10张图片
RapidMiner(二)_第11张图片
RapidMiner(二)_第12张图片
RapidMiner(二)_第13张图片

你可能感兴趣的:(RapidMiner(二))