sparkmllib 第8页

Spark MLlib之矩阵

SparkMLlib的底层组件MLlib的数据存储本地本地向量Localvector标记向量Labeledpoint稀疏数据SparseData本地矩阵Localmatrix分布式矩阵Distributedmatrix

HoiDev·2016-09-19 13:34

Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。

Spark四大组件包括SparkStreaming、SparkSQL、SparkMLlib和SparkGraphX。

山鹰的天空·2016-08-31 14:57

Spark2.0机器学习系列之5：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析

GBDT（梯度提升决策树）作为SparkMLlib实现又一个决策树组合算法（另一个是随机森林），其基本原理也离不开决策树，常常也和随机森林来进行比较。

千寻千梦·2016-08-30 09:33

分类器模型评价指标

Sparkmllib自带了许多机器学习算法，它能够用来进行模型的训练和预测。当使用这些算法来构建模型的时候，我们需要一些指标来评估这些模型的性能，这取决于应用和和其要求的性能。

guohecang·2016-08-22 14:26

完美解决 Spark：java.net.URISyntaxException: Relative path in absolute URI: file:D:/XXX/SparkFaultBench/spark-warehouse

windows下使用intellij开发sparkmllib程序发现如下错误。

Codlife一王家二公子·2016-08-11 15:02

SparkMLlib---基于余弦相似度的用户相似计算

packagemllibimportorg.apache.log4j.{Level,Logger}importorg.apache.spark.{SparkContext,SparkConf}importscala.collection.mutable.Map/***Createdby汪本成on2016/8/4.*/objectUserSimilar{//屏蔽不必要的日志显示在终端上Logger.

汪本成·2016-08-04 21:55

160715_发现md文档是一个很有趣的新奇玩意儿！

这是本人的毕业设计作品，主要针对在Yarn集群环境中运行的SparkMLlib模块。在此基础上尝试了对材料学真实案例数据的分类和回归模型建立。

u012251305·2016-07-15 10:00

Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介

http://www.cnblogs.com/shishanyuan/p/4747761.html1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义：l“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验，以此优化计算机程序的性能

oLevin·2016-06-27 20:00

Spark大数据处理系列之Machine Learning

Spark的机器学习库（SparkMLlib），包括各种机器学习算法：协同过滤算法、聚类算法、分类算法和其他算法。

Srini Penchikala·2016-06-07 00:00

Apache Spark 2.0预览：机器学习模型持久化

SparkMLlib将

Joseph Bradley·2016-06-03 00:00

地铁译：Spark for python developers ---Spark与数据的机器学习

机器学习可以从数据中得到有用的见解.目标是纵观SparkMLlib，采用合适的算法从数据集中生成见解。

wireless_com·2016-05-30 09:00

Spark中组件Mllib的学习3之用户相似度计算

代码：/***@authorxubo*time2016.516*ref《SparkMlLib机器学习实战》P64*/ packageorg.apache.spark.mllib.learning.recommend

bob601450868·2016-05-16 20:00

在Kaggle手写数字数据集上使用Spark MLlib的RandomForest进行手写数字识别

昨天我使用SparkMLlib的朴素贝叶斯进行手写数字识别，准确率在0.83左右，今天使用了RandomForest来训练模型，并进行了参数调优。

LXYTSOS·2016-05-12 20:43

在Kaggle手写数字数据集上使用Spark MLlib的RandomForest进行手写数字识别

昨天我使用SparkMLlib的朴素贝叶斯进行手写数字识别，准确率在0.83左右，今天使用了RandomForest来训练模型，并进行了参数调优。

LXYTSOS·2016-05-12 20:00

在Kaggle手写数字数据集上使用Spark MLlib的RandomForest进行手写数字识别

昨天我使用SparkMLlib的朴素贝叶斯进行手写数字识别，准确率在0.83左右，今天使用了RandomForest来训练模型，并进行了参数调优。

LXYTSOS·2016-05-12 20:00

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

现在我打算使用SparkMLlib中提供的朴素贝叶

LXYTSOS·2016-05-11 22:40

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

现在我打算使用SparkMLlib中提供的朴素贝叶

LXYTSOS·2016-05-11 22:00

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

现在我打算使用SparkMLlib中提供的朴素贝叶

LXYTSOS·2016-05-11 22:00

Spark MLlib 机器学习算法与源码解析（网络课程—第一期）

《SparkMLlib机器学习算法与源码解析》spark是一个开源集群运算框架，最初是由加州大学柏克利分校AMPLab所开发。

sunbow0·2016-05-11 17:00

jblas-1.2.4.jar : spark第三方依赖打包

简介依赖设置应用部署简介在实现基于sparkmllib的ALS协同滤波例子：Spark机器学习_(南非)彭特里思(nickpentreath)(著)蔡立宇;黄章帅;周济民(译)人民邮电出版社2015-09

zhzhji440·2016-05-06 18:00

Spark 定制版：001~Spark Streaming（一）

a.Spark最初只有SparkCore，通过逐步的发展，扩展出了SparkSQL、SparkStreaming、SparkMLlib(machinelearn

zisheng_wang_DATA·2016-05-05 00:00

基于Spark MLlib平台的协同过滤算法---电影推荐系统

本文基于SparkMLlib平台实现一个向用户推荐电影的简单应用。

lhui798·2016-05-04 15:00

Spark 机器学习 —— ALS

AlternatingLeastSquares），交替最小二乘法；以下的三点原因：稀疏的输入数据，可用简单的线性代数运算求解最优解，数据本身的可并行化使得ALS在大规模数据上速度非常快，也解释了为什么到目前为止SparkMLlib

lanchunhui·2016-04-22 09:00

Spark-MLlib机器学习相关的数据类型

kwu_ganymede·2016-04-21 00:00

《Spark MLlib 机器学习》勘误（持续更新）

《SparkMLlib机器学习》勘误（持续更新） 1、 P10原文：valz=sc.parallelize(List(1,2,3,4,5,6),2)z.aggreateByKey(0)(math.max

sunbow0·2016-04-18 14:00

《Spark MLlib 机器学习》第十五章代码

《SparkMLlib机器学习》第十五章代码1、神经网络类packageNN importorg.apache.spark._ importorg.apache.spark.SparkContext.

sunbow0·2016-04-13 15:00

《Spark MLlib 机器学习》第十四章代码

《SparkMLlib 机器学习》第十四章代码1、相似度计算packagerecommend importscala.math._ importorg.apache.spark.rdd.RDD importorg.apache.spark.SparkContext

sunbow0·2016-04-13 15:00

《Spark MLlib 机器学习》第四章至十三章代码

《SparkMLlib机器学习》第四章至第十三章代码，已经上传至网盘代码和数据地址网盘：http://pan.baidu.com/s/1c1J8ZN6

sunbow0·2016-04-13 15:00

《Spark MLlib 机器学习》第三章代码

《SparkMLlib机器学习》第三章代码3.1Breeze介绍packagebook_code importorg.apache.log4j.

sunbow0·2016-04-12 17:00

《Spark MLlib 机器学习》第二章代码

《SparkMLlib机器学习》第二章代码2.1SparkRDD操作importorg.apache.log4j.{Level,Logger} importorg.apache.spark.

sunbow0·2016-04-12 16:00

《Spark MLlib机器学习》已正式上市发售

《SparkMLlib机器学习》已正式上市发售，请大家多多支持！！！！

sunbow0·2016-04-11 11:00

基于Spark MLlib平台的协同过滤算法---电影推荐系统

本文基于SparkMLlib平台实现一个向用户推荐电影的简单应用。

m635674608·2016-03-24 19:29

基于Spark MLlib平台的协同过滤算法---电影推荐系统

本文基于SparkMLlib平台实现一个向用户推荐电影的简单应用。

·2016-03-24 10:00

基于Spark MLlib平台的协同过滤算法---电影推荐系统

本文基于SparkMLlib平台实现一个向用户推荐电影的简单应用。

·2016-03-23 03:00

Spark MLlib机器学习—封面

SparkMLlib机器学习，目前已经正在印刷中，预计4月初可以正式上市，请大家多多关注！封面如下：

sunbow0·2016-03-18 11:00

使用spark mllib识别LED数字

最近在学习sparkmllib，突然有个想法，能否利用mllib来识别LED数字呢？

bluejoe2000·2016-03-13 21:00

基于Spark自动扩展scikit-learn (spark-sklearn)

1、基于Spark自动扩展scikit-learn(spark-sklearn)1.1导论SparkMLlib将传统的单机机器学习算法改造成分布式机器学习算法，比如在梯度下降算法中，单机做法是计算所有样本的梯度值

sunbow0·2016-03-10 17:00

分布式机器学习框架－CaffeOnSpark

SparkMLlib支持各种非深度学习算法用于分类、回归、聚类、推荐等，但目前缺乏深度学习这一关键能力，而CaffeOnSpark旨在填补这一空白。

openthings·2016-03-09 13:00

SparkMLlib之六：Clustering

Spark支持下面的模型K-meansGaussianmixturePoweriterationclustering(PIC)LatentDirichletallocation(LDA)Bisectingk-meansStreamingk-meansK-meansk-means是最常用的已知聚类数的聚类算法，spark.mllib的实现还包括了k-means++的并行变体kmeans||.它有下面

u012432611·2016-01-16 14:00

SparkMLlib之 logistic regression源码分析

最近在研究机器学习，使用的工具是spark，本文是针对spar最新的源码Spark1.6.0的MLlib中的 logisticregression,linearregression进行源码分析，其理论部分参考：http://www.cnblogs.com/ljy2013/p/5129610.html下面我们跟随我的demo来一步一步解剖源码，首先来看一下我的demo：1packageorg.apa

ljy2013·2016-01-16 11:00

Spark上如何做分布式AUC计算

by王犇20160115AUC是分类模型常用的评价手段，目前的Sparkmllib里面evaluation包中所提供的auc方法是拿到了roc曲线中的各个点之后再进行auc的计算，但是实际应用场景中（以逻辑回归为例

yihucha166·2016-01-15 14:00

SparkMLlib之五：优化

数学描述梯度下降梯度下降和随即梯度下降这样的一阶优化问题非常适合大规模分布式运算，计算梯度时需要对所有参数求导，但是当凸函数不是对所有参数都可导时，次梯度sub-gradient就是梯度的推广，计算它需要遍历整个数据集。随机梯度下降随机次梯度是一个随机选择的向量，使得我们得到原目标函数真正次梯度的期望。

u012432611·2016-01-13 20:00

SparkMLlib之四：Linear Methods

数学公式很多标准的机器学系算法都可以表示为一个凸优化问题，即找到使得凸函数f最小的参数向量。正则部分控制模型复杂度，loss函数L表示模型在训练集上的误差，通常是w的凸函数。参数labmda用来权衡两者。lossfunctionsspark支持的loss函数正则化由于平滑性，L2正则比L1正则要简单，但是L1正则有助于改善权重稀疏而得到更小且更易解释的模型，L1有助于特征选择。不建议不使用任何正则

u012432611·2016-01-13 19:00

SparkMLlib之三：协同过滤

u012432611·2016-01-12 19:00

SparkMLlib之二Basic Stastics

SummarystatisticsWeprovidecolumnsummarystatisticsforRDD[Vector]throughthefunctioncolStatsavailableinStatistics.importorg.apache.spark.mllib.linalg.Vector importorg.apache.spark.mllib.stat.{Multivariat

u012432611·2016-01-12 19:00

SparkMLlib之一Data Types

MLlib支持单机局部向量和局部矩阵，也支持基于RDD的分布式矩阵,MLlib中的labeledpoint代表监督学习的训练样本localvectorMLlib支持两种localvector:dense和sparse.dense比较简单例如：[1.0,0.0,3.0]代表向量(1.0,0.0,3.0)如果用sparse格式则为：(3,[0,2],[1.0,3.0])其中3是向量的大小，[0,2]代

u012432611·2016-01-12 19:00

Spark MLlib 之 Basic Statistics

SparkMLlib提供了一些基本的统计学的算法，下面主要说明一下：1、Summarystatistics对于RDD[Vector]类型，SparkMLlib提供了colStats的统计方法，该方法返回一个

ljy2013·2016-01-06 14:00

Kmeans算法学习与SparkMlLib Kmeans算法尝试

K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。该算法接受参数k；然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象

超大的雪童子·2015-12-15 22:00

个推 Spark实践教你绕过开发那些“坑”

Spark主要包括SparkSQL，SparkStreaming，SparkMLLib以及图计算。Spark核心概念简介1、RDD即弹性分布式数据集，通过RDD可以执行各种算子实现数据处理和计算。

个推·2015-12-08 00:00

为豆瓣电影实现User-based协同过滤的推荐系统

在前一篇文章使用SparkMLlib给豆瓣用户推荐电影中，在那篇文章我

·2015-12-02 05:00

推荐频道

sparkmllib

Spark MLlib之矩阵

Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。

Spark2.0机器学习系列之5：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析

分类器模型评价指标

完美解决 Spark：java.net.URISyntaxException: Relative path in absolute URI: file:D:/XXX/SparkFaultBench/spark-warehouse

SparkMLlib---基于余弦相似度的用户相似计算

160715_发现md文档是一个很有趣的新奇玩意儿！

Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介

Spark大数据处理系列之Machine Learning

Apache Spark 2.0预览： 机器学习模型持久化

地铁译：Spark for python developers ---Spark与数据的机器学习

Spark中组件Mllib的学习3之用户相似度计算

在Kaggle手写数字数据集上使用Spark MLlib的RandomForest进行手写数字识别

在Kaggle手写数字数据集上使用Spark MLlib的RandomForest进行手写数字识别

在Kaggle手写数字数据集上使用Spark MLlib的RandomForest进行手写数字识别

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

Spark MLlib 机器学习算法与源码解析（网络课程—第一期）

jblas-1.2.4.jar : spark第三方依赖打包

Spark 定制版：001~Spark Streaming（一）

基于Spark MLlib平台的协同过滤算法---电影推荐系统

Spark 机器学习 —— ALS

Spark-MLlib机器学习相关的数据类型

《Spark MLlib 机器学习》勘误（持续更新）

《Spark MLlib 机器学习》第十五章代码

《Spark MLlib 机器学习》第十四章代码

《Spark MLlib 机器学习》第四章至十三章代码

《Spark MLlib 机器学习》第三章代码

《Spark MLlib 机器学习》第二章代码

《Spark MLlib机器学习》已正式上市发售

基于Spark MLlib平台的协同过滤算法---电影推荐系统

基于Spark MLlib平台的协同过滤算法---电影推荐系统

基于Spark MLlib平台的协同过滤算法---电影推荐系统

Spark MLlib机器学习—封面

使用spark mllib识别LED数字

基于Spark自动扩展scikit-learn (spark-sklearn)

分布式机器学习框架－CaffeOnSpark

SparkMLlib之六：Clustering

SparkMLlib之 logistic regression源码分析

Spark上如何做分布式AUC计算

SparkMLlib之五：优化

SparkMLlib之四：Linear Methods

SparkMLlib之三：协同过滤

SparkMLlib之二Basic Stastics

SparkMLlib之一Data Types

Spark MLlib 之 Basic Statistics

Kmeans算法学习与SparkMlLib Kmeans算法尝试

个推 Spark实践教你绕过开发那些“坑”

为豆瓣电影实现User-based协同过滤的推荐系统

Apache Spark 2.0预览：机器学习模型持久化