StringToWorkVector

其实我也不知道这个fileter是干什么的。我只是想看看,写在这是为了以后用到的时候方便,这里没有我的理解,直接翻译的,又我的翻译水不平,所以请绕道,不要看,以免误扰你。

简介

我没搞懂,应该是根据tokenizer将STRING类型的ATTRIBUTE转换为一系列ATTRIBUTE。

设置

IDFTransform-是否将文档中word的频率转化为,fij*log(所有doc的数量/包含i的doc数量),其中fij是在document(instance)j中word i的频率。这里的doc指的是instance?,不懂这个选项。

TFTransform-是否将word的频率转化为,log(1+fij),fij含义同上。

attributeIndices-选择将执行操作的attribute,格式:first-3,5,6-10,last,意思应该是1,2,3,5,6,7,8,9,10有效,而4不执行。

attributeNamePrefix-设置产生的attribute的字首,默认为“”

doNotOperateOnPerClassBasis-没搞懂。

invertSelection-false,选中的attributes执行,true,未选中的执行操作。

lowerCaseTokens-转换为小写字母。(应该是)

minTermFreq-设置最小的term frequency(长期频率?),用于a per-class basis.

normalizeDocLength-设置一个instance的word频率,是否归一化

outputWordCounts-输出为数字而不是布尔型(表示是否存在这个word)

periodicPruning-设置定期修剪dictionary的比率。wordsToKeep在创建完dictionary后修剪。你可能无法为这个方法提供足够的内存。

stemmer-用于words的stemming算法。

stopwords-包含stopwords的文件。

tokenizer-用于string的tokenizing算法。

useStoplist-如果为true,则忽略此列表中的词。

wordsToKeep-要保留的words数。

你可能感兴趣的:(StringToWorkVector)