Spark Scala选取面向行数据中的某几列

比如数据格式如下:

Attribute1   Attribute2   Attribute3

       a                   1                 3

       b                   4                 2

       c                   2                 3

现在我们要选取其中的Attribute2和Attribute3。


val origin_values = origin_data.map(s=>(for{i<-1 to s.split(" +").length-1}
                                       yield s.split(" +")(i).toDouble)).map(_.toArray).map(Vectors.dense(_)


第一行:我们可以得到需要的数据所在的列的下标,由于实际上是按照行来取列,所以是数组的下标

第二行:使用for...yield...语句,生成新的数组,但是由于for后的i是一个IndexedSeq类型,所以返回的新数组也是这个类型。这个问题也是之前一直卡着的,后来才想到可以用多个map来解决。

第三行:类型转换,在这里我们需要Array类型

第四行:我们假设要准备对目标数据进行聚类分析,因此生成kmeans算法所需要的格式




你可能感兴趣的:(scala&spark)