MLlib 第20页

Spark 机器学习 —— 从决策树到随机森林

构造训练数据importorg.apache.spark.mllib.linalg.Vectors importorg.apache.spark.mllib.regression.LabeledPoint

lanchunhui·2016-04-22 11:00

《Spark MLlib 机器学习》细节解释（持续更新）

1、 P220对该段文字的解决：得到最大bin数量后，求最大split数量。对于无序特征，split=bin数目/2；对于有序特征，split=bin数目–1。其中有读者问到：对于无序特征，split=bin数目/2这个的由来，解释如下： 1）首先计算numBins： //当前的特征数量小于m值，则认为无序 if(numCategories>1 }else{

sunbow0·2016-04-21 18:00

Spark-MLlib机器学习相关的数据类型

kwu_ganymede·2016-04-21 00:00

《Spark MLlib 机器学习》勘误（持续更新）

《SparkMLlib机器学习》勘误（持续更新） 1、 P10原文：valz=sc.parallelize(List(1,2,3,4,5,6),2)z.aggreateByKey(0)(math.max(_,_),_+_)修改为： val z = sc.parallelize(List((1, 3), (1, 2), (1, 4), (2, 3))) z.aggregateByK

sunbow0·2016-04-18 14:00

Spark-MLlib实例——垃圾邮件分类

Spark-MLlib实例——垃圾邮件分类1、垃圾邮件分类，使用Spark-MLlib中的两个函数： 1）HashingTF：从文本数据构建词频（termfrequency）特征向量2）LogisticRegressionWithSGD

kwu_ganymede·2016-04-17 23:00

零售户logistics回归分类

._ importorg.apache.spark.mllib.classification.

u012432611·2016-04-14 15:00

maven两个错误的解决方式

错误二：maven下载mllib依赖包mllib_2.111.6.1报错，failedtoreadartifactdescriptorformllib2.11jar1.6。

qq_23617681·2016-04-14 15:00

零售户决策树分类

._ importorg.apache.spark.mllib.clustering.KMeans importorg.apache.spark.mllib.evaluation.BinaryClassificationMetrics

u012432611·2016-04-14 14:00

基于spark mllib的LDA模型训练源码解析

一直想写一篇关于LDA模型训练的源代码走读，但是因为个人水平以及时间原因未能如愿，今天想起来就记录了一下源码走读过程。有什么解释的不太清楚或者错误的地方请大家指正。LDA模型训练大致经过以下这些步骤：输入数据（已转换为Vector）和参数设置根据LDA选择的算法初始化优化器迭代优化器获得LDA模型下面对每一步的源码进行代码跟进。完整的项目可以到我的github下载 1.输入数据和参数设置文件：ck

yhao2014·2016-04-13 17:00

《Spark MLlib 机器学习》第十五章代码

._ importorg.apache.spark.rdd.RDD importorg.apache.spark.Logging importorg.apache.spark.mllib.linalg

sunbow0·2016-04-13 15:00

《Spark MLlib 机器学习》第十四章代码

《SparkMLlib 机器学习》第十四章代码1、相似度计算packagerecommend importscala.math._ importorg.apache.spark.rdd.RDD importorg.apache.spark.SparkContext._ /** *用户评分. *@paramuserid用户 *@paramitemid评分物品 *@parampref评分 */ c

sunbow0·2016-04-13 15:00

《Spark MLlib 机器学习》第四章至十三章代码

《SparkMLlib机器学习》第四章至第十三章代码，已经上传至网盘代码和数据地址网盘：http://pan.baidu.com/s/1c1J8ZN6

sunbow0·2016-04-13 15:00

Spark 1.6.1 MLlib

TF-IDFTF-IDF是一种特征向量化方法，这种方法多用于文本挖掘，通过算法可以反应出词在语料库中某个文档中的重要性。文档中词记为t，文档记为d,语料库记为D.词频TF(t,d)是词t在文档d中出现的次数。文档频次DF(t,D)是语料库中包括词t的文档数。如果使用词在文档中出现的频次表示词的重要程度，那么很容易取出反例，即有些词出现频率高反而没多少信息量，如,”a”,“the”,“of”。如果一

LW_GHY·2016-04-12 22:00

《Spark MLlib 机器学习》第三章代码

《SparkMLlib机器学习》第三章代码3.1Breeze介绍packagebook_code importorg.apache.log4j.{Level,Logger} importorg.apache.spark.{SparkConf,SparkContext} importbreeze.linalg._ importbreeze.numerics._ importorg.apache.s

sunbow0·2016-04-12 17:00

《Spark MLlib 机器学习》第二章代码

《SparkMLlib机器学习》第二章代码2.1SparkRDD操作importorg.apache.log4j.{Level,Logger} importorg.apache.spark.{SparkConf,SparkContext} importorg.apache.spark.SparkContext._ objectrdd_test01{ defmain(args:Array[Str

sunbow0·2016-04-12 16:00

《Spark MLlib机器学习》已正式上市发售

http://product.dangdang.com/23934484.htmlhttp://item.jd.com/11902946.htmlhttps://www.amazon.cn/Spark-MLlib

sunbow0·2016-04-11 11:00

使用Spark-MLlib进行内容推荐

在许多的现实生活中的很多场景中，我们常常只能接触到隐性的反馈（例如游览，点击，购买，喜欢，分享等等）在MLlib中所用到的处理这种数据的方法来源于文献： CollaborativeFilteringforImplicitFeedbackDatasets

·2016-04-11 00:00

Spark MLlib 编程

数据集的构造valrawData=sc.textFile("...") valdata=rawdata.map{line=> valrow=line.split(',').map(_.toDouble) valfeatVec=Vectors.dense(row.init) vallabel=row.last LabeledPoint(label,featVec) }训练集，交叉验证集（CV），测试

lanchunhui·2016-04-09 13:00

Spark中组件Mllib的学习1之Kmeans错误解决

txt文件格式不对，用WPS转存的是UTF-16，spark跑的时候有问题代码和数据请参考【1】【2】问题：hadoop@Master:~/cloud/testByXubo/sh_spark_xubo/mllib

bob601450868·2016-03-29 18:00

基于Spark MLlib平台的协同过滤算法---电影推荐系统

又好一阵子没有写文章了，阿弥陀佛...最近项目中要做理财推荐，所以，回过头来回顾一下协同过滤算法在推荐系统中的应用。说到推荐系统，大家可能立马会想到协同过滤算法。本文基于SparkMLlib平台实现一个向用户推荐电影的简单应用。其中，主要包括三部分内容：协同过滤算法概述基于模型的协同过滤应用---电影推荐实时推荐架构分析一、协同过滤算法概述本人对算法的研

m635674608·2016-03-24 19:29

基于Spark MLlib平台的协同过滤算法---电影推荐系统

又好一阵子没有写文章了，阿弥陀佛...最近项目中要做理财推荐，所以，回过头来回顾一下协同过滤算法在推荐系统中的应用。说到推荐系统，大家可能立马会想到协同过滤算法。本文基于SparkMLlib平台实现一个向用户推荐电影的简单应用。其中，主要包括三部分内容：协同过滤算法概述基于模型的协同过滤应用---电影推荐实时推荐架构分析一、协同过滤算法概述本人对算法的研究，目前还不是很深入，这里简单的介绍下其工作

·2016-03-24 10:00

基于Spark MLlib平台的协同过滤算法---电影推荐系统

又好一阵子没有写文章了，阿弥陀佛...最近项目中要做理财推荐，所以，回过头来回顾一下协同过滤算法在推荐系统中的应用。说到推荐系统，大家可能立马会想到协同过滤算法。本文基于SparkMLlib平台实现一个向用户推荐电影的简单应用。其中，主要包括三部分内容：协同过滤算法概述基于模型的协同过滤应用---电影推荐实时推荐架构分析一、协同过滤算法概述本人对算法的研

·2016-03-23 03:00

Spark MLlib 1.6 -- 特征抽取和变换

·TF-IDF·Word2Vec·Model·Example·StandardScaler·ModelFitting·Example·Normalizer·Example·ChiSqSelector·ModelFitting·Example·ElementwiseProduct·Example·PCA·Example7.1TF-IDFTF-IDF是一种特征向量化方法，这种方法多用于文本挖掘，通过算

hopeatme·2016-03-21 12:35

Kafka+Spark Streaming+Redis实时系统实践

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像SparkStreaming、SparkSQL、MLlib、GraphX，这些内建库都提供了高级抽象

LW_GHY·2016-03-18 21:00

Spark MLlib机器学习—封面

SparkMLlib机器学习，目前已经正在印刷中，预计4月初可以正式上市，请大家多多关注！封面如下：

sunbow0·2016-03-18 11:00

基于机器学习的银行卡消费数据预测与推荐

这个分享将讨论我们如何基于Spark的MLlib和若干内部开发的算法，构建机器学习pipeline，预测银行卡用户的消费行为以及对应的商品推荐。个人简介梁堰波,

梁堰波·2016-03-17 00:00

使用spark mllib识别LED数字

最近在学习sparkmllib，突然有个想法，能否利用mllib来识别LED数字呢？

bluejoe2000·2016-03-13 21:00

Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像SparkStreaming、SparkSQL、MLlib、GraphX，这些内建库都提供了高级抽象

openthings·2016-03-11 16:00

分布式机器学习框架－CaffeOnSpark

CaffeOnSparkAPI支持dataframes，以便易于连接准备使用Spark应用程序的训练数据集，以及提取模型的预测或中间层的特征，用于MLLib或SQL数据分析。许多现有的DL框架

openthings·2016-03-09 13:00

Spark MLlib LDA 基于GraphX实现原理及源码分析

LDA背景LDA（隐含狄利克雷分布）是一个主题聚类模型，是当前主题聚类领域最火、最有力的模型之一，它能通过多轮迭代把特征向量集合按主题分类。目前，广泛运用在文本主题聚类中。LDA的开源实现有很多。目前广泛使用、能够分布式并行处理大规模语料库的有微软的LightLDA，谷歌plda、plda+，sparkLDA等等。下面介绍这3种LDA：LightLDA依赖于微软自己实现的multiverso参数服

tanglizhe1105·2016-02-25 22:00

转载lr spark细节

原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3816289.html本文以spark1.0.0版本MLlib算法为准进行分析一、代码结构逻辑回归代码主要包含三个部分

codemosi·2016-02-22 17:22

MLlib算法简介

之前Mahout或者自己写的MR来解决复杂的机器学习，导致效率低，spark特别适合迭代式的计算，这正是机器学习算法训练所需要的，MLlib是基于spark之上算法组件，基于spark平台来实现。

zhoubl668·2016-02-19 19:00

《Machine Learning with Spark》书评与作者访谈

ApacheSpark及其机器学习库MLlib为开发可伸缩的机器学习应用，提供了多种有用的算法。

Srini Penchikala·2016-02-19 00:00

spark下线性模型 spark.mllib

数学公式许多的机器学习的算法实际上可以被写成凸优化的问题，比如说寻找凸函数f的极小值，它取决于权重向量ｗ，那么我们可以将优化目标函数写成：这里xi∈Rd是训练数据，yi∈R是它们对应的标签，线性方法可以表示成L(w;x,y)，有几类mllib

free_lock·2016-02-16 16:56

[Spark] spark dense vector 与 breeze dense vector互转换

因而在MLlib外部，以及用户自己使用时，不能将SDV与BDV进行互转换（toBreeze,fromBreeze）--封装互转函数如下importbreeze.linalg._ importbreeze.linalg

逸之·2016-02-03 15:00

[Spark] spark dense vector 与 breeze dense vector互转换

因而在MLlib外部，以及用户自己使用时，不能将SDV与BDV进行互转换（toBreeze,fromBreeze）--封装互转函数如下importbreeze.linalg._ importbreeze.linalg

逸之·2016-02-03 15:00

大数据挖掘: FPGrowth初识--进行商品关联规则挖掘

@(hadoop)[Spark,MLlib,数据挖掘,关联规则,算法][TOC]〇、简介经典的关联规则挖掘算法包括Apriori算法和FP-growth算法。

王安琪·2016-02-02 10:00

大数据挖掘: FPGrowth初识--进行商品关联规则挖掘

@(hadoop)[Spark,MLlib,数据挖掘,关联规则,算法][TOC]〇、简介经典的关联规则挖掘算法包括Apriori算法和FP-growth算法。

王安琪·2016-02-02 10:00

4.Spark之简介MLlib

MLlib是ApacheSpark处理机器学习的库。下面介绍几个它的特点。易用性：可以在Java、Scala、Python和SparkR中使用。

鞋底留个洞·2016-01-27 13:00

Spark MLlib实现的广告点击预测–Gradient-Boosted Trees

本文尝试使用Spark提供的机器学习算法Gradient-BoostedTrees来预测一个用户是否会点击广告。训练和测试数据使用KaggleAvazuCTR比赛的样例数据，下载地址：https://www.kaggle.com/c/avazu-ctr-prediction/data数据格式如下：包含24个字段：1-id:adidentifier2-click:0/1fornon-click/cl

雪晴数据·2016-01-25 12:00

MLlib决策树与集成树

MLlib决策树与集成树DecisionTreeandEnsembles模型简介决策树是一种常见的分类与回归机器学习算法，由于其模型表达性好，便于理解，并能取得较好的效果，而受到广泛的应用。

Sharkd·2016-01-22 20:00

[置顶] SparkR

也支持使用MLlib分布式机器学习。SparkR数据框类似于R中的数据框，数据源有结构化数据文件，Hive表，外部数据库或者本地R数据框。

u012432611·2016-01-17 16:00

SparkMLlib之六：Clustering

PIC)LatentDirichletallocation(LDA)Bisectingk-meansStreamingk-meansK-meansk-means是最常用的已知聚类数的聚类算法，spark.mllib

u012432611·2016-01-16 14:00

SparkMLlib之 logistic regression源码分析

最近在研究机器学习，使用的工具是spark，本文是针对spar最新的源码Spark1.6.0的MLlib中的 logisticregression,linearregression进行源码分析，其理论部分参考

ljy2013·2016-01-16 11:00

Spark上如何做分布式AUC计算

曲线中的各个点之后再进行auc的计算，但是实际应用场景中（以逻辑回归为例），我们常常是对每个样本进行打分之后整合样本的label直接进行auc的计算，输入可能是（label,predict_score）这样的形式，mllib

yihucha166·2016-01-15 14:00

[置顶] SparkML实战之五：SVM

{SparkContext,SparkConf} importorg.apache.spark.mllib.classification.

u012432611·2016-01-14 10:00

[置顶] SparkML实战之四：回归

{SparkContext,SparkConf} importorg.apache.spark.mllib.regression.LabeledPoint importorg.apache.spark.mllib.regression.LinearRegressionModel

u012432611·2016-01-14 10:00

[置顶] SparkML实战之三：Logistic回归

packageMLlib importorg.apache.spark.SparkConf importorg.apache.spark.SparkContext importorg.apache.spark.mllib.classification

u012432611·2016-01-14 10:00

[置顶] SparkML实战之二：Kmeans

{SparkConf,SparkContext} importorg.apache.spark.mllib.clustering.KMeans importorg.apache.spark.mllib.linalg.Vectors

u012432611·2016-01-14 09:00

[置顶] SparkML实战之一：线性回归

{SparkConf,SparkContext} importorg.apache.spark.mllib.linalg.Vectors importorg.apache.spark.mllib.regression

u012432611·2016-01-14 09:00

推荐频道

MLlib

Spark 机器学习 —— 从决策树到随机森林

《Spark MLlib 机器学习》细节解释（持续更新）

Spark-MLlib机器学习相关的数据类型

《Spark MLlib 机器学习》勘误（持续更新）

Spark-MLlib实例——垃圾邮件分类

零售户logistics回归分类

maven两个错误的解决方式

零售户决策树分类

基于spark mllib的LDA模型训练源码解析

《Spark MLlib 机器学习》第十五章代码

《Spark MLlib 机器学习》第十四章代码

《Spark MLlib 机器学习》第四章至十三章代码

Spark 1.6.1 MLlib

《Spark MLlib 机器学习》第三章代码

《Spark MLlib 机器学习》第二章代码

《Spark MLlib机器学习》已正式上市发售

使用Spark-MLlib进行内容推荐

Spark MLlib 编程

Spark中组件Mllib的学习1之Kmeans错误解决

基于Spark MLlib平台的协同过滤算法---电影推荐系统

基于Spark MLlib平台的协同过滤算法---电影推荐系统

基于Spark MLlib平台的协同过滤算法---电影推荐系统

Spark MLlib 1.6 -- 特征抽取和变换

Kafka+Spark Streaming+Redis实时系统实践

Spark MLlib机器学习—封面

基于机器学习的银行卡消费数据预测与推荐

使用spark mllib识别LED数字

Kafka+Spark Streaming+Redis实时计算整合实践

分布式机器学习框架－CaffeOnSpark

Spark MLlib LDA 基于GraphX实现原理及源码分析

转载lr spark细节

MLlib算法简介

《Machine Learning with Spark》书评与作者访谈

spark下线性模型 spark.mllib

[Spark] spark dense vector 与 breeze dense vector互转换

[Spark] spark dense vector 与 breeze dense vector互转换

大数据挖掘: FPGrowth初识--进行商品关联规则挖掘

大数据挖掘: FPGrowth初识--进行商品关联规则挖掘

4.Spark之简介MLlib

Spark MLlib实现的广告点击预测–Gradient-Boosted Trees

MLlib决策树与集成树

[置顶] SparkR

SparkMLlib之六：Clustering

SparkMLlib之 logistic regression源码分析

Spark上如何做分布式AUC计算

[置顶] SparkML实战之五：SVM

[置顶] SparkML实战之四：回归

[置顶] SparkML实战之三：Logistic回归

[置顶] SparkML实战之二：Kmeans

[置顶] SparkML实战之一：线性回归