Spark MLib Word2Vec Error: The vocabulary size should be > 0

语料库,去除停用词

val model = word2vec.fit(v)

一执行就报错如题目错误,经过google发现,spark ml word2vec有一个参数
minCount: 表示输入词在输入语料中至少出现多少次,才会进行向量转化,少于该出现次数的次将会在输入值中直接丢弃。 (>=0整数,默认值: 5)
恍然大悟,语料库输入有问题,我输入了词典当作语料库,词典种词的出现次数当然小于5,发现了问题所在

你可能感兴趣的:(Spark MLib Word2Vec Error: The vocabulary size should be > 0)