Spark上矩阵运算库(五)——高级矩阵操作1

工作回顾


前面我们已经基于Spark设计并实现了常见的分布式矩阵操作,主要包括BLAS1-2的操作,如矩阵相加、相减、相乘等。

接下来的一阶段,我们的工作分类两部分。第一,继续完善基本操作,比如支持一些向量的操作;第二,实现1、2个高级矩阵操作,如矩阵的分解等等。


高级矩阵操作

矩阵的分解操作是众多矩阵高级操作中的一类被广泛研究的操作。很多高级矩阵操作(如矩阵求逆)可以转换为矩阵的分解。本周我们介绍并引入MLlib为实现协同过滤算法而包含的矩阵分解算法——Alternating Least Squares (ALS).



ALS将推荐系统中的评分矩阵看成是有一个low-rank 矩阵和商品矩阵因子相乘得到。算法通过已经观察到的评分数据学习出这两个因子,学习的约束是尽量降低重构出矩阵的误差。一旦我们学习出这两个子矩阵,原来矩阵中其他的元素就可以通过这两个因子相乘得到.ALS是一个迭代的算法,每轮计算过程中算法固定住其中一个因子去优化另一个(这一点和EM很像),不断交替直到收敛。该算法已经在Mllib里面有包含,并在底层采用了LAPACK包进行了优化。

Spark上矩阵运算库(五)——高级矩阵操作1_第1张图片




下图是Databricks网站给出的该算法,在 Amazon Reviews dataset上的运行性能结果,该数据集有35 million 打分,这些打分是由6.6 million 个用户对2.4 million商品打分构成的。


下面,我们会继续该矩阵操作移植到我们实现的统一矩阵操作库中。同时,会引入或设计实现更多的矩阵高级矩阵操作算法。

你可能感兴趣的:(Spark上矩阵运算库(五)——高级矩阵操作1)