GeekStuff

Spark MLlib矩阵分解源码分析

基础知识

特征值分解

如果一个向量 v 是方阵 A 的特征向量，可以表示成下面的形式：

A v = λ v

其中，

λ 为特征向量

v 对应的特征值，矩阵

A 的特征向量是相互正交的。
特征值分解是将矩阵

A 分解为如下形式：

A = Q \sum Q - 1

其中，矩阵

Q 是

A 的特征向量组成的矩阵，

∑ 是对角矩阵。

奇异值分解

如果矩阵 A 不是方阵，是 m∗n 的矩阵， m≥n 。奇异值分解是将矩阵 A 分解成如下形式：

A = U \sum V T

其中，

U 是

m∗m 的方阵，里面的向量为左奇异向量，是相互正交的，

V 是

n∗n 的方阵，里面的向量为右奇异向量，是相互正交的，

∑ 是

m∗n 的对角矩阵，对角线上的元素为奇异值。
关于SVD的详细解释和实际含义，请参考数据降维–SVD&CUR。

两者之间的关系

(A T A) v = λ v

通常，

ATA 是

A 的列向量的格拉姆矩阵，

AAT 是

A 的行向量的格拉姆矩阵。

矩阵分解细节推导，请参考矩阵分解。

求解方法

特征值分解和奇异值分解的计算通常有两种方法：
1、根据对角化矩阵计算所有特征值或者奇异值，计算复杂度为 O(n3) ；
2、使用迭代方法产生部分特征值或者奇异值，迭代方法主要用power iteration、针对对称矩阵的Lanczos iteration、针对非对称矩阵的Arnoldi iteration。
对于上述的三种迭代方法，原理基本类似，以Lanczos方法为例。Lanczos方法具有两端的特征值最先收敛的特点, 通过 Lanczos迭代得到一个三对角矩阵，三对角矩阵的特征值通过迭代，最大的特征值先收敛，其他的特征值则会聚集在最大的特征值周围, 继续迭代求解出其他的特征值和特征向量。更多细节，请参考Lanczos方法：求稀疏矩阵特征值。
利用Lanczos方法计算特征值或者奇异值使用最广的算法包应属ARPACK，ARPACK使用FORTRAN编写，通过netlib-java和breeze接口ARPACK可以在JVM上使用。不过有大神Yixuan Qiu用C++实现了类似于ARPACK功能的算法包Spectra，用于大规模特征向量的计算，同时基于Spectra实现了R版的算法包RSpectra ，使用起来非常方便。例如：

library(Matrix)
library(RSpectra)
n = 20
k = 5
set.seed(111)
A1 = matrix(rnorm(n^2), n)  ## class "matrix"
eigs(A1, k)
## Implicitly define the matrix by a function that calculates A %*% x
## 向量x为任意的向量，如果要计算乘积 A*x，name就需要知道A的所有信息，那么函数f就代表矩阵A本身
f = function(x, args)
{
    as.numeric(args %*% x)
}
eigs(f, k, n = n, args = A1)

ARPACK包

MLlib中SVD的实现

Spark MLlib在RowMatrix类中实现了SVD，使用方法如下：

val mat: RowMatrix = ...
// Compute the top 20 singular values and corresponding singular vectors.
val svd: SingularValueDecomposition[RowMatrix, Matrix] = mat.computeSVD(20, computeU = true)
val U: RowMatrix = svd.U // The U factor is a RowMatrix.
val s: Vector = svd.s // The singular values are stored in a local dense vector.
val V: Matrix = svd.V // The V factor is a local dense matrix.

RowMatrix#computeSVD 将矩阵 A(m∗n) 的形状分为三种：高瘦型（tall and skinny， m≫n ）、矮胖型（short and fat， m≪n ）以及近似方阵（square， m≈n ），根据矩阵形状的不同，采用不同的算法进行计算SVD。由于矮胖型矩阵通过矩阵转置变为高瘦型矩阵，下面主要讨论高瘦型（tall and skinny， m≫n ）矩阵和近似方阵（square， m≈n ）的分布式实现。

Square SVD with ARPACK

对于矩阵 A 为近似方阵，采用ARPACK算法包计算格拉姆矩阵 ATA 的奇异值分解。在单机环境下，ARPACK算法包适合稀疏矩阵或者矩阵-向量乘积（matrix-vector product）形式的矩阵，只需要 O(n) 数量级的浮点数操作和存储。由于ARPACK具有处理任意格式矩阵格式的特性，这样就不用直接操作矩阵，可以通过矩阵-向量乘积预先定义的操作进行处理。调用ARPACK算法包时需要将输入矩阵变成矩阵-向量乘积（matrix-vector product）形式，这样矩阵操作从向量操作中分离出来。当ARPACK需要矩阵操作时，它向调用程序发送矩阵-向量乘积的请求，调用程序执行乘法操作并将结果向量( n∗1 )返回给ARPACK。通过使用Spark的分布式计算功能，就可以利用整个集群的计算资源实现分布式矩阵-向量乘法。因而，一方面利用了ARPACK的数值计算功能，另一方面利用了Spark的分布式计算能力。
为了使用ARPACK，需要计算 ATAv ：具体步骤如下：

上述步骤描述来自Stanford大学公开课： CME 323: Distributed Algorithms and Optimization。
重复上述步骤，直到有足够多的向量，ARPACK在单机上可以用来计算

ATA 中k个最大的特征值。

broadcast v, compute x = A %*% v
broadcast x, compute y = A^T %*% x
store y on driver

Tall and Skinny SVD

矩阵 A 的奇异值和右奇异向量可以通过格拉姆矩阵 ATA 中获得：

A T A = (U \sum V T) T U \sum V T = V \sum U T U \sum V T = V \sum \sum V T

左奇异向量通过如下方式获得：

U = A V s o l v e (\sum)

其中，

solve(∑) 为矩阵

∑ 的逆矩阵。
对于高瘦型的矩阵

A ，当

m≫n ，格拉姆矩阵

ATA 比较小，在单个机器上计算即可。通常，计算矩阵

A 秩为

r 的SVD需要

O(mnr) ，但是对于

ATA 只需要

O(n2r) 次操作。
算法如下：

上述算法描述来自Stanford大学公开课： CME 323: Distributed Algorithms and Optimization。

MLlib SVD源码详解

在MLLib中，RowMatrix#computeSVD分为三步：

1、确定计算模式，即矩阵形状的确定
有三种模式：LocalARPACK, LocalLAPACK, DistARPACK。

val computeMode = mode match {
  case "auto" =>
    if (k > 5000) {
      logWarning(s"computing svd with k=$k and n=$n, please check necessity")
    }
    if (n < 100 || (k > n / 2 && n <= 15000)) {
      // If n is small or k is large compared with n, we better compute the Gramian matrix first
      // and then compute its eigenvalues locally, instead of making multiple passes.
      if (k < n / 3) {
        SVDMode.LocalARPACK
      } else {
        SVDMode.LocalLAPACK
      }
    } else {
      // If k is small compared with n, we use ARPACK with distributed multiplication.
      SVDMode.DistARPACK
    }
  case "local-svd" => SVDMode.LocalLAPACK
  case "local-eigs" => SVDMode.LocalARPACK
  case "dist-eigs" => SVDMode.DistARPACK
  case _ => throw new IllegalArgumentException(s"Do not support mode $mode.")
}

2、计算奇异值和右奇异向量
根据不同的矩阵形状，采用不同的算法求解。

val (sigmaSquares: BDV[Double], u: BDM[Double]) = computeMode match {
  case SVDMode.LocalARPACK =>
    require(k < n, s"k must be smaller than n in local-eigs mode but got k=$k and n=$n.")
    val G = computeGramianMatrix().toBreeze.asInstanceOf[BDM[Double]]
    // tol: termination tolerance 
    EigenValueDecomposition.symmetricEigs(v => G * v, n, k, tol, maxIter)
  case SVDMode.LocalLAPACK =>
    // breeze (v0.10) svd latent constraint, 7 * n * n + 4 * n < Int.MaxValue
    require(n < 17515, s"$n exceeds the breeze svd capability")
    val G = computeGramianMatrix().toBreeze.asInstanceOf[BDM[Double]]
    val brzSvd.SVD(uFull: BDM[Double], sigmaSquaresFull: BDV[Double], _) = brzSvd(G)
    (sigmaSquaresFull, uFull)
  case SVDMode.DistARPACK =>
    if (rows.getStorageLevel == StorageLevel.NONE) {
      logWarning("The input data is not directly cached, which may hurt performance if its"
        + " parent RDDs are also uncached.")
    }
    require(k < n, s"k must be smaller than n in dist-eigs mode but got k=$k and n=$n.")
    EigenValueDecomposition.symmetricEigs(multiplyGramianMatrixBy, n, k, tol, maxIter)
}

3、计算左奇异向量

if (computeU) {
  // N = Vk * Sk^{-1}
  val N = new BDM[Double](n, sk, Arrays.copyOfRange(u.data, 0, n * sk))
  var i = 0
  var j = 0
  while (j < sk) {
    i = 0
    val sigma = sigmas(j)
    while (i < n) {
      N(i, j) /= sigma
      i += 1
    }
    j += 1
  }
  val U = this.multiply(Matrices.fromBreeze(N))
  SingularValueDecomposition(U, s, V)
} else {
  SingularValueDecomposition(null, s, V)
}

格拉姆矩阵 ATA 计算

计算矩阵 A 任意两列之间的相似性，如推荐中找相似的电影，本质上是计算格拉姆矩阵 ATA ，它的元素 (i,j) 为矩阵 A 中的列 ci 和 cj 的点积 (cTi,cj) 。因而需要分布式计算 ATA 。

普通方式

由于 ATA=∑mi=0rirTi ， ri 为矩阵 A 的第i列，因此可以用如下MapReduce方式计算：

设矩阵 A 的每一行至少有 L 个非零元素，那么MapReduce shuffle大小为 O(mL2) ，reduce-key最大为 O(m) ，而 m 通常都比较大（ 108 ），因此需要一种好的采样算法解决问题复杂性。

采样方式

DIMSUM: Dimension Independent Matrix Square Using MapReduce

DIMSUM Mapper与Naive Mapper很相似，只不过每个元素是以某概率的情形下发送出去而非全部元素发送，这样通过采样减少了计算代价。 DIMSUM Reduce汇总Mapper发送过来的数据，用Mapper的发送概率归一（scale）结果。发送概率有由可调参数 γ 控制：
- γ 较小时，保留 ATA 相似性；
- γ 较大时，保留 ATA 的奇异值；
shuffle大小变为 O(nLγ) ，reduce-key最大为 O(γ)

参考资料：
1. CME 323: Distributed Algorithms and Optimization
2. Spectra
3. RSpectra
4. DIMSUM: Dimension Independent Matrix Square Using MapReduce

scrapy 爬取研招网信息 Gowi_fly Python3.7 python
scrapy爬取研招网信息文章目录scrapy爬取研招网信息系统环境安装python第三方库配置相关信息相关步骤系统环境python3+mysql安装python第三方库pipinstallscrapypipinstallpymysqlpipinstallpandas配置相关信息相关步骤项目地址点击项目地址，下载源代码配置相关信息ssml.py其中mldm与yjxkmd来自middlewares.
需要做些什么 __YukiMakino
目前就是1、疯狂的看文章了解ML和DM，然后2、疯狂的python学会接着按这个步骤：零基础学习Python数据挖掘（修改版）1、python学习入门->……（现在需要做的）阅读MLDM相关/学习基础python为了写计划书/为何真正做到python--笨办法学Python（重要）（一周快速熟悉，写一些爬虫作为练习）--Python基础教程（第二版）（重要）--麻省理工学院公开课：计算机科学及编程
2018 年，你可以把论文投给这 13 场 AI 学术会议（附截稿日期） Paper_weekly
在已经过去的2017年，是无数优秀论文在各大AI主题会议频频涌现的一年。随着AI行业的不断升温，机器学习和人工智能也已跃然成为当下最热的科研方向。那么，2018年，AI领域又将迎来哪些重量级会议呢？我们根据截稿日期的先后顺序，整理了下面这样一份「2018年AI学术顶会」投稿清单。MLDM2018#InternationalConferenceonMachineLearningandDataMini
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多