MLlib 第21页

SparkMLlib之三：协同过滤

u012432611·2016-01-12 19:00

SparkMLlib之二Basic Stastics

SummarystatisticsWeprovidecolumnsummarystatisticsforRDD[Vector]throughthefunctioncolStatsavailableinStatistics.importorg.apache.spark.mllib.linalg.Vector

u012432611·2016-01-12 19:00

SparkMLlib之一Data Types

MLlib支持单机局部向量和局部矩阵，也支持基于RDD的分布式矩阵,MLlib中的labeledpoint代表监督学习的训练样本localvectorMLlib支持两种localvector:dense

u012432611·2016-01-12 19:00

Spark MLlib 之 Basic Statistics

SparkMLlib提供了一些基本的统计学的算法，下面主要说明一下：1、Summarystatistics对于RDD[Vector]类型，SparkMLlib提供了colStats的统计方法，该方法返回一个MultivariateStatisticalSummary的实例。他封装了列的最大值，最小值，均值、方差、总数。如下所示：valconf=newSparkConf().setAppName("

ljy2013·2016-01-06 14:00

Spark MLlib 之 Naive Bayes

1、前言：NaiveBayes（朴素贝叶斯）是一个简单的多类分类算法，该算法的前提是假设各特征之间是相互独立的。NaiveBayes训练主要是为每一个特征，在给定的标签的条件下，计算每个特征在该标签的条件下的条件概率。最后用这个训练后的条件概率去预测。由于我使用的Spark的版本是1.3.0。它所包含的NaiveBayes是MultinomialNB。截至到我写该篇文章，最新的Spark1.6.0

ljy2013·2016-01-05 14:00

Spark MLlib Data Type

MLlib支持存放在单机上的本地向量和矩阵，也支持通过多个RDD实现的分布式矩阵。因此MLlib的数据类型主要分为两大类：一个是本地单机向量；另一个是分布式矩阵。

ljy2013·2016-01-05 09:00

Spark 综合应用

本节模拟几个综合应用场景SQLOnSpark:使用sqlContext查询年纪大于等于10岁的人名HiveOnSpark:使用了hiveContext计算每年销售额店铺分类,根据销售额对店铺分类,使用sparkSQL和MLLib

u012432611·2016-01-04 11:00

Spark简介

Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处，Spark以其先进的设计理念，迅速成为社区的热门项目，围绕着Spark推出了SparkSQL、SparkStreaming、MLLib

weitao1026·2016-01-02 00:00

解析Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、SparkSQL数据检索语言、Tachyon文件系统

勿忘初心321·2015-12-23 13:00

机器学习算法的归类

涉及各种各样的算法及知识点，每个人都对其有不同的归类思路，我们结合自己的理解，以及参考spark的归类方式，将其分为以下几类：详见https://spark.apache.org/docs/latest/mllib-guide.html

lujinhong2·2015-12-16 17:00

Vectors.dense()

importorg.apache.spark.mllib.linalg.Vectors importorg.apache.spark.mllib.stat.Statistics valrdd=sc.makeRDD

power0405hf·2015-12-12 15:00

个推 Spark实践教你绕过开发那些“坑”

Spark主要包括SparkSQL，SparkStreaming，Spark MLLib以及图计算。 Spark核心概念简介1、RDD即弹性分布式数据集，通过RDD可以执行各种算子实现数据处理和计算。

HiddlestonCloud·2015-12-08 12:00

个推 Spark实践教你绕过开发那些“坑”

Spark主要包括SparkSQL，SparkStreaming，Spark MLLib以及图计算。

illy安智·2015-12-08 11:00

Spark MLlib知识点学习整理

MLlib的设计原理:把数据以RDD的形式表示，然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。操作步骤:1、用字符串RDD来表示信息。

超大的雪童子·2015-12-06 22:00

使用Spark MLlib给豆瓣用户推荐电影

·2015-11-30 07:00

Spark MLlib之K-Means聚类算法

聚类算法聚类，Clusteranalysis，有时也被翻译为簇类，其核心任务是：将一组目标object划分为若干个簇，每个簇之间的object尽可能的相似，簇与簇之间的object尽可能的相异。聚类算法是机器学习（或者说是数据挖掘更合适）中重要的一部分，除了最为简单的K-Means聚类算法外，较常见的还有：层次法（CURE、CHAMELEON等）、网格算法（STING、WaveCluster等）等

sdujava2011·2015-11-22 18:00

Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark Streaming（一)

本节主要内容本节部分内容来自官方文档：http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operationsSpark

zhouzhihubeyond·2015-11-21 22:46

Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark Streaming（一)

本节主要内容本节部分内容来自官方文档：http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operationsSpark

lovehuangjiaju·2015-11-21 22:00

Spark0.9.0机器学习包MLlib-Classification代码阅读

本章主要讲述MLlib包里面的分类算法实现，目前实现的有LogisticRegression、SVM、NaiveBayes

·2015-11-13 19:12

Spark0.9.0机器学习包MLlib-Optimization代码阅读

基于Spark的一个生态产品--MLlib，实现了经典的机器学算法，源码分8个文件夹， classification文件夹下面包含

·2015-11-13 19:11

spark0.9.0安装

利用周末的时间安装学习了下最近很火的Spark0.9.0(江湖传言，要革hadoop命,O(∩_∩)O)，并体验了该框架下的机器学习包MLlib(spark解决的一个重点就是高效的运行迭代算法)，下面是整个安装过程

·2015-11-13 19:11

Spark Mllib逻辑回归算法分析

原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3816289.html 本文以spark 1.0.0版本MLlib算法为准进行分析

·2015-11-13 14:35

spark(1.1) mllib 源码分析(三)-朴素贝叶斯

原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/4042467.html 本文主要以mllib 1.1版本为基础，分析朴素贝叶斯的基本原理与源码

·2015-11-13 13:41

spark(1.1) mllib 源码分析(二)-相关系数

原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/4024733.html 在spark mllib 1.1版本中增加stat包，里面包含了一些统计相关的函数

·2015-11-13 13:40

spark(1.1) mllib 源码分析(一)-卡方检验

原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/4019131.html 在spark mllib 1.1版本中增加stat包，里面包含了一些统计相关的函数

·2015-11-13 13:39

Spark学习

基于Spark On Yarn的淘宝数据挖掘平台：http://www.doc88.com/p-7804379529208.html Spark之MLLib机器学习库：http://blog.csdn.net

·2015-11-13 07:40

MLlib之NaiveBayes算法源码学习

package org.apache.spark.mllib.classification import breeze.linalg.

·2015-11-13 06:17

MLlib之LR算法源码学习

/** * :: DeveloperApi :: * GeneralizedLinearModel (GLM) represents a model trained using * GeneralizedLinearAlgorithm. GLMs consist of a weight vector and * an intercept. * * @param weight

·2015-11-13 06:17

Spark MLBase分布式机器学习系统入门：以MLlib实现Kmeans聚类算法

1.什么是MLBaseMLBase是Spark生态圈的一部分，专注于机器学习，包含三个组件：MLlib、MLI、ML Optimizer。

·2015-11-12 22:30

MLlib 卡方检验

1、卡方检验理论 1.1、简介总体的分布函数完全未知或只知形式、但不知其参数的情况，为了推断总体的某些未知特性，提出某些关于总体的假设。我们要根据样本对所提出的假设作出是接受，还是拒绝的决策。假设检验是作出这一决策的过程。卡方检验即是假设检验的一种。 1.2、卡方检验基本思想首先假设H0成立，基于此前提计算出χ2值，它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以

·2015-11-11 07:46

MLlib-聚类

聚类例子流聚类例子聚类 MLlib支持k-means聚类，一种最常用的聚类方法

·2015-11-11 03:19

MLlib-分类与回归

MLlib支持二分类，多酚类和回归分析的多种方法，具体如下：问题类别　　支持方法二分类线性支持向量机，逻辑回归，决策树，朴素贝叶斯多分类决策树，朴素贝叶斯回归线性最小二乘

·2015-11-11 03:19

MLlib-协同过滤

MLlib支持基于模型的协同过滤，即使用能够预测缺失值的一个隐藏因素集合来表示用户和产品。MLlib使用交替做小二乘法（alternating least squares, ALS）学习隐藏因子

·2015-11-11 03:17

MLlib 编程指导-spark-1.2.0

本文来自 http://spark.apache.org/docs/latest/mllib-guide.html 官方文档翻译个人翻译 MLlib包括的算法和工具主要有

·2015-11-11 03:16

协同过滤算法 R/mapreduce/spark mllib多语言实现

用户电影评分数据集下载http://grouplens.org/datasets/movielens/1)Item-Based,非个性化的，每个人看到的都一样2)User-Based，个性化的，每个人看到的不一样对用户的行为分析得到用户的喜好后，可以根据用户的喜好计算相似用户和物品，然后可以基于相似用户或物品进行推荐。这就是协同过滤中的两个分支了，基于用户的和基于物品的协同过滤。在计算用户之间的相

jethai·2015-11-05 15:07

协同过滤算法 R/mapreduce/spark mllib多语言实现

用户电影评分数据集下载http://grouplens.org/datasets/movielens/1)Item-Based,非个性化的，每个人看到的都一样2)User-Based，个性化的，每个人看到的不一样对用户的行为分析得到用户的喜好后，可以根据用户的喜好计算相似用户和物品，然后可以基于相似用户或物品进行推荐。这就是协同过滤中的两个分支了，基于用户的和基于物品的协同过滤。在计算用户之间的相

jethai·2015-11-05 15:07

Spark的39个机器学习库－中文

//ApacheSpark本身//1.MLlib>AMPLabSpark最初诞生于伯克利AMPLab实验室，如今依然还是AMPLab所致力的项目，尽管这些不处于ApacheSparkFoundation

啊莫·2015-11-04 23:00

Spark机器学习5

Spark的MLlib库提供

jjfnjit·2015-11-02 12:00

Spark 学习笔记：（四）MLlib基础

MLlib：Machine Learning Library。

·2015-10-31 11:12

Spark随机森林实现学习

前言最近阅读了spark mllib（版本：spark 1.3）中Random Forest的实现，发现在分布式的数据结构上实现迭代算法时，有些地方与单机环境不一样。

·2015-10-26 15:44

[翻译 by Zephyr] README In Spark Building

同时，它也支持一系列丰富高水平的工具，包括用于SQL的SparkSQL和数据结构处理，用于机器学习的MLlib，用于图形处理的GraphX,和实时流处理的SparkStreaming。

u011414200·2015-10-26 10:00

spark mllib 中的tf-idf算法计算文档相似度

importorg.apache.spark.mllib.feature.{HashingTF,IDF} importorg.apache.spark.mllib.linalg.

xiao_jun_0820·2015-10-20 15:00

Spark机器学习库之数据类型——scala版本

我们建议通过 Vectors中实现的工厂方法来创建本地向量:（注意:Scala语言默认引入的是 scala.collection.immutable.Vector,为了使用MLlib的Vector,你必须显示引入

hechenghai·2015-10-11 20:00

Spark MLlib之机器学习（三）

上一篇我们简单了解了SparkMLlib中的SupervisedLearning，那么这一篇，我们主要介绍UnsupervisedLearning。本篇介绍的内容有：KMeans、PCA（PrincipalConponentAnalysis）和SVD（SingularValueDecomposition）。1.UnsupervisedLearning（非监督学习）首先，我们先看下Wikipedia

u010376788·2015-10-05 17:00

Spark MLlib之机器学习（二）

通过上一篇的简介，我们对SparkMLlib的基础有了一些了解。那么，从这一篇开始，我们进入实战阶段。因为是介绍SparkMLlib的应用，所以我这里不会详细介绍算法的推导，后续我会抽时间整理成专题进行介绍。而这一篇主要介绍SparkMLlib中的监督学习算法：LogisticsRegression、NaiveBayes、SVM（SupportVectorMachine）、DecisionTree

u010376788·2015-10-03 12:00

spark on yarn运行产生缺jar包错误及解决办法

/bin/spark-submit/--classorg.apache.spark.examples.mllib.JavaALS/-

javastart·2015-10-03 11:00

Spark MLlib之机器学习（一）

1.定义先看一下机器学习的定义，以下是Wikipedia的定义：Machinelearningisascientificdisciplinethatexplorestheconstructionandstudyofalgorithmsthatcanlearnfromdata.当然，要说的更接地气点儿，就是让机器会学习，那怎么样才能让机器学习呢？那就需要能从数据中学习的算法。简单讲，就是数据和算法。

u010376788·2015-09-29 21:00

Spark MLlib数据类型

MLlib支持几种数据类型:本地向量(localvectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵.1,本地向量(LocalVector)一个本地向量是由从

dabokele·2015-09-24 09:07

Spark MLlib数据类型

MLlib支持几种数据类型:本地向量(localvectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵.1,本地向量(LocalVector)

dabokele·2015-09-24 09:00

spark学习笔记总结-spark入门资料精化

SparkSQL、SparkStreaming、MLlib、GraphX、SparkR等核心组件解决了很

u013719780·2015-09-14 22:00

推荐频道

MLlib

SparkMLlib之三：协同过滤

SparkMLlib之二Basic Stastics

SparkMLlib之一Data Types

Spark MLlib 之 Basic Statistics

Spark MLlib 之 Naive Bayes

Spark MLlib Data Type

Spark 综合应用

Spark简介

解析Spark大数据分析框架的核心部件

机器学习算法的归类

Vectors.dense()

个推 Spark实践教你绕过开发那些“坑”

个推 Spark实践教你绕过开发那些“坑”

Spark MLlib知识点学习整理

使用Spark MLlib给豆瓣用户推荐电影

Spark MLlib之K-Means聚类算法

Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark Streaming（一)

Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark Streaming（一)

Spark0.9.0机器学习包MLlib-Classification代码阅读

Spark0.9.0机器学习包MLlib-Optimization代码阅读

spark0.9.0安装

Spark Mllib逻辑回归算法分析

spark(1.1) mllib 源码分析(三)-朴素贝叶斯

spark(1.1) mllib 源码分析(二)-相关系数

spark(1.1) mllib 源码分析(一)-卡方检验

Spark学习

MLlib之NaiveBayes算法源码学习

MLlib之LR算法源码学习

Spark MLBase分布式机器学习系统入门：以MLlib实现Kmeans聚类算法

MLlib 卡方检验

MLlib-聚类

MLlib-分类与回归

MLlib-协同过滤

MLlib 编程指导-spark-1.2.0

协同过滤算法 R/mapreduce/spark mllib多语言实现

协同过滤算法 R/mapreduce/spark mllib多语言实现

Spark的39个机器学习库－中文

Spark机器学习5

Spark 学习笔记：（四）MLlib基础

Spark随机森林实现学习

[翻译 by Zephyr] README In Spark Building

spark mllib 中的tf-idf算法计算文档相似度

Spark机器学习库之数据类型——scala版本

Spark MLlib之机器学习（三）

Spark MLlib之机器学习（二）

spark on yarn运行产生缺jar包错误及解决办法

Spark MLlib之机器学习（一）

Spark MLlib数据类型

Spark MLlib数据类型

spark学习笔记总结-spark入门资料精化