大数据进阶之算法——Spark ML库VectorAssemble详解

VectorAssemble是将给定列列表组合成单个向量列的转换器。为了训练逻辑回归和决策树等ML模型,将原始的多个特征列组合成一个特征向量是很有用的。VectorAssemble将接受一下的输入列类型:所有数值类型、布尔类型和向量类型。在每一行中,输入列的值将按照指定的顺序连接到一个向量中。

示例:

以下是我的一些项目模拟数据
原始数据集:
大数据进阶之算法——Spark ML库VectorAssemble详解_第1张图片
处理后的数据集:
大数据进阶之算法——Spark ML库VectorAssemble详解_第2张图片

VecotrAssemble代码实现:

//num_fmt为原始数据集
val va = new VectorAssembler()
.setInputCols(Array("province_id","city_id","district_id","sex","marital_status","education_id","vocation","position","compId","mslevel","reg_date","lasttime","age","user_score","logincount","buycount","pay"))
      .setOutputCol("orign_feature")
val ofdf = va.transform(num_fmt).select("cust_id","orign_feature")
ofdf.show(false)

你可能感兴趣的:(机器学习,机器学习,深度学习,人工智能)