rapidminer基础使用

部件

read csv

第一页:
 Regular Expression:
  \s+:空格
 Use Quotes:输出的数据是否要用“”框起来
最后一页:
 第一行:名称
 第二行:数据类型:
  text:可以在后续转为文本进行处理
  polynomial:多项的
 第三行:
  label:要学习的标签
  id:序列号

loop Files

将文件夹里的文件一个个导入,可以双击进入内部

Data to Documents:

把输入的text值转为文档,进行处理,一个记录转为一个文档。其他属性变为文档的原数据

loop collection

循环操作
勾选专家参数:
 产生唯一的序号
 macro:宏
双击可进入内部
后面要加Append部件进行合并

Append

合并数据集

Tokenize

筛选出符合要求的部分为token(一块),即进行切分

Extract Tokens from Documents

将输入的token转为一条记录
add meta information:添加原数据

Generate Attributes

产生新属性
引用宏属性:%{xxx}
允许覆盖原属性

Generate Attributes with Types

可以设置产生的属性类型

Generate Extract

source attribute:针对某属性
eg. 提取“/”前的内容为word,“/”后的内容为pos
 | attribute name | query expression |
 |   word    |    | /    |
 |   pos    | /   |      |

Generate Incremental Attribute

第一次出现的字符为1,后面的值为前面的值加incremental value expression
attribute to be added:新的属性名

Replace

attribute filter type:
 single:单个属性进行替换
 subset:几个
replace what:
 .:每个字符
replace by:
 $0 :原字符后添加空格

Replace Tokens

对文档进行替换

Split Text Attribute

按照split expression进行分割

Select Attribute with Order

可以用来确定输出的排列+数量

Parse Numbers

把属性转为数值属性

Aggregate

将两个或多个对象合并为一个对象
use default aggregation:勾选可设置更详细的参数
aggregation attributes:聚类结果的字段属性
group by attributes:选择进行聚类的属性

Rename

修改属性名称

Multi-label Text Classificatiom

多标签文本分类
sentence attribute:句子属性
other seq attribute:
label separator:类表分隔符
optimization method:优化方法
 RMSprop:
  number of epochs:迭代次数
  number of batches:批处理的数目
  positive weight:正权重值,只对内部最后一个sigmoid部件有影响
  number of threads:线程个数,一般是cpu核数的两倍
  dropout probability:随机地删除隐藏层的单元数量,一般为0
  l2 regularization:L2正则化,一般设为比较小的数字
  layer data file:每次迭代后产生的模型存储位置,下一次运行时会先读取保存好的模型

sigmoid

把每个类别看做二分类,1是预测标签。0不是预测标签

Set Macro

设置宏属性,后续可以用%{}进行使用

Generate Macro

对宏属性进行操作

Write Excel

保存数据集

你可能感兴趣的:(大数据&云计算,大数据)