比如数据格式如下:
Attribute1 Attribute2 Attribute3
a 1 3
b 4 2
c 2 3
现在我们要选取其中的Attribute2和Attribute3。val origin_values = origin_data.map(s=>(for{i<-1 to s.split(" +").length-1}
yield s.split(" +")(i).toDouble)).map(_.toArray).map(Vectors.dense(_)
第一行:我们可以得到需要的数据所在的列的下标,由于实际上是按照行来取列,所以是数组的下标
第二行:使用for...yield...语句,生成新的数组,但是由于for后的i是一个IndexedSeq类型,所以返回的新数组也是这个类型。这个问题也是之前一直卡着的,后来才想到可以用多个map来解决。
第三行:类型转换,在这里我们需要Array类型
第四行:我们假设要准备对目标数据进行聚类分析,因此生成kmeans算法所需要的格式