E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MLlib
Spark 机器学习 —— 从决策树到随机森林
构造训练数据importorg.apache.spark.
mllib
.linalg.Vectors importorg.apache.spark.
mllib
.regression.LabeledPoint
lanchunhui
·
2016-04-22 11:00
《Spark
MLlib
机器学习》细节解释(持续更新)
1、 P220对该段文字的解决:得到最大bin数量后,求最大split数量。对于无序特征,split=bin数目/2;对于有序特征,split=bin数目–1。 其中有读者问到:对于无序特征,split=bin数目/2这个的由来,解释如下: 1)首先计算numBins: //当前的特征数量小于m值,则认为无序 if(numCategories>1 }else{
sunbow0
·
2016-04-21 18:00
spark
机器学习
MLlib
Spark-
MLlib
机器学习相关的数据类型
Spark-
MLlib
机器学习相关的数据类型,位于org.apache.sparkmllib包内。1、Vector 数学向量,
MLlib
既支持稠密向量也支持稀疏向量。稠密向量:向量的每一位都存储下来。
kwu_ganymede
·
2016-04-21 00:00
spark
《Spark
MLlib
机器学习》勘误(持续更新)
《SparkMLlib机器学习》勘误(持续更新) 1、 P10原文:valz=sc.parallelize(List(1,2,3,4,5,6),2)z.aggreateByKey(0)(math.max(_,_),_+_)修改为: val z = sc.parallelize(List((1, 3), (1, 2), (1, 4), (2, 3))) z.aggregateByK
sunbow0
·
2016-04-18 14:00
spark
MLlib
Spark-
MLlib
实例——垃圾邮件分类
Spark-
MLlib
实例——垃圾邮件分类1、垃圾邮件分类,使用Spark-
MLlib
中的两个函数: 1)HashingTF:从文本数据构建词频(termfrequency)特征向量2)LogisticRegressionWithSGD
kwu_ganymede
·
2016-04-17 23:00
spark
零售户logistics回归分类
._ importorg.apache.spark.
mllib
.classification.
u012432611
·
2016-04-14 15:00
spark
Logistic
烟草
maven两个错误的解决方式
错误二:maven下载
mllib
依赖包
mllib
_2.111.6.1报错,failedtoreadartifactdescriptorformllib2.11jar1.6。
qq_23617681
·
2016-04-14 15:00
maven
pom报错
零售户决策树分类
._ importorg.apache.spark.
mllib
.clustering.KMeans importorg.apache.spark.
mllib
.evaluation.BinaryClassificationMetrics
u012432611
·
2016-04-14 14:00
spark
决策树
基于spark
mllib
的LDA模型训练源码解析
一直想写一篇关于LDA模型训练的源代码走读,但是因为个人水平以及时间原因未能如愿,今天想起来就记录了一下源码走读过程。有什么解释的不太清楚或者错误的地方请大家指正。LDA模型训练大致经过以下这些步骤:输入数据(已转换为Vector)和参数设置根据LDA选择的算法初始化优化器迭代优化器获得LDA模型下面对每一步的源码进行代码跟进。完整的项目可以到我的github下载 1.输入数据和参数设置文件:ck
yhao2014
·
2016-04-13 17:00
源码
spark
机器学习
LDA
《Spark
MLlib
机器学习》第十五章代码
._ importorg.apache.spark.rdd.RDD importorg.apache.spark.Logging importorg.apache.spark.
mllib
.linalg
sunbow0
·
2016-04-13 15:00
spark
机器学习
MLlib
《Spark
MLlib
机器学习》第十四章代码
《SparkMLlib 机器学习》第十四章代码1、相似度计算packagerecommend importscala.math._ importorg.apache.spark.rdd.RDD importorg.apache.spark.SparkContext._ /** *用户评分. *@paramuserid用户 *@paramitemid评分物品 *@parampref评分 */ c
sunbow0
·
2016-04-13 15:00
spark
机器学习
MLlib
《Spark
MLlib
机器学习》第四章至十三章代码
《SparkMLlib机器学习》第四章至第十三章代码,已经上传至网盘代码和数据地址网盘:http://pan.baidu.com/s/1c1J8ZN6
sunbow0
·
2016-04-13 15:00
spark
机器学习
MLlib
Spark 1.6.1
MLlib
TF-IDFTF-IDF是一种特征向量化方法,这种方法多用于文本挖掘,通过算法可以反应出词在语料库中某个文档中的重要性。文档中词记为t,文档记为d,语料库记为D.词频TF(t,d)是词t在文档d中出现的次数。文档频次DF(t,D)是语料库中包括词t的文档数。如果使用词在文档中出现的频次表示词的重要程度,那么很容易取出反例,即有些词出现频率高反而没多少信息量,如,”a”,“the”,“of”。如果一
LW_GHY
·
2016-04-12 22:00
spark
《Spark
MLlib
机器学习》第三章代码
《SparkMLlib机器学习》第三章代码3.1Breeze介绍packagebook_code importorg.apache.log4j.{Level,Logger} importorg.apache.spark.{SparkConf,SparkContext} importbreeze.linalg._ importbreeze.numerics._ importorg.apache.s
sunbow0
·
2016-04-12 17:00
spark
机器学习
MLlib
《Spark
MLlib
机器学习》第二章代码
《SparkMLlib机器学习》第二章代码2.1SparkRDD操作importorg.apache.log4j.{Level,Logger} importorg.apache.spark.{SparkConf,SparkContext} importorg.apache.spark.SparkContext._ objectrdd_test01{ defmain(args:Array[Str
sunbow0
·
2016-04-12 16:00
spark
机器学习
MLlib
《Spark
MLlib
机器学习》已正式上市发售
http://product.dangdang.com/23934484.htmlhttp://item.jd.com/11902946.htmlhttps://www.amazon.cn/Spark-
MLlib
sunbow0
·
2016-04-11 11:00
使用Spark-
MLlib
进行内容推荐
在许多的现实生活中的很多场景中,我们常常只能接触到隐性的反馈(例如游览,点击,购买,喜欢,分享等等)在
MLlib
中所用到的处理这种数据的方法来源于文献: CollaborativeFilteringforImplicitFeedbackDatasets
·
2016-04-11 00:00
java
数据挖掘
大数据
Spark
MLlib
编程
数据集的构造valrawData=sc.textFile("...") valdata=rawdata.map{line=> valrow=line.split(',').map(_.toDouble) valfeatVec=Vectors.dense(row.init) vallabel=row.last LabeledPoint(label,featVec) }训练集,交叉验证集(CV),测试
lanchunhui
·
2016-04-09 13:00
Spark中组件
Mllib
的学习1之Kmeans错误解决
txt文件格式不对,用WPS转存的是UTF-16,spark跑的时候有问题代码和数据请参考【1】【2】问题:hadoop@Master:~/cloud/testByXubo/sh_spark_xubo/
mllib
bob601450868
·
2016-03-29 18:00
基于Spark
MLlib
平台的协同过滤算法---电影推荐系统
又好一阵子没有写文章了,阿弥陀佛...最近项目中要做理财推荐,所以,回过头来回顾一下协同过滤算法在推荐系统中的应用。 说到推荐系统,大家可能立马会想到协同过滤算法。本文基于SparkMLlib平台实现一个向用户推荐电影的简单应用。其中,主要包括三部分内容: 协同过滤算法概述 基于模型的协同过滤应用---电影推荐实时推荐架构分析 一、协同过滤算法概述 本人对算法的研
m635674608
·
2016-03-24 19:29
基于Spark
MLlib
平台的协同过滤算法---电影推荐系统
又好一阵子没有写文章了,阿弥陀佛...最近项目中要做理财推荐,所以,回过头来回顾一下协同过滤算法在推荐系统中的应用。说到推荐系统,大家可能立马会想到协同过滤算法。本文基于SparkMLlib平台实现一个向用户推荐电影的简单应用。其中,主要包括三部分内容:协同过滤算法概述基于模型的协同过滤应用---电影推荐实时推荐架构分析一、协同过滤算法概述本人对算法的研究,目前还不是很深入,这里简单的介绍下其工作
·
2016-03-24 10:00
spark
mllib
平台
基于Spark
MLlib
平台的协同过滤算法---电影推荐系统
又好一阵子没有写文章了,阿弥陀佛...最近项目中要做理财推荐,所以,回过头来回顾一下协同过滤算法在推荐系统中的应用。 说到推荐系统,大家可能立马会想到协同过滤算法。本文基于SparkMLlib平台实现一个向用户推荐电影的简单应用。其中,主要包括三部分内容: 协同过滤算法概述 基于模型的协同过滤应用---电影推荐实时推荐架构分析 一、协同过滤算法概述 本人对算法的研
·
2016-03-23 03:00
spark
协同过滤
MLlib
Spark
MLlib
1.6 -- 特征抽取和变换
·TF-IDF·Word2Vec·Model·Example·StandardScaler·ModelFitting·Example·Normalizer·Example·ChiSqSelector·ModelFitting·Example·ElementwiseProduct·Example·PCA·Example7.1TF-IDFTF-IDF是一种特征向量化方法,这种方法多用于文本挖掘,通过算
hopeatme
·
2016-03-21 12:35
Kafka+Spark Streaming+Redis实时系统实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像SparkStreaming、SparkSQL、
MLlib
、GraphX,这些内建库都提供了高级抽象
LW_GHY
·
2016-03-18 21:00
Spark
MLlib
机器学习—封面
SparkMLlib机器学习,目前已经正在印刷中,预计4月初可以正式上市,请大家多多关注!封面如下:
sunbow0
·
2016-03-18 11:00
spark
机器学习
MLlib
基于机器学习的银行卡消费数据预测与推荐
这个分享将讨论我们如何基于Spark的
MLlib
和若干内部开发的算法,构建机器学习pipeline,预测银行卡用户的消费行为以及对应的商品推荐。个人简介梁堰波,
梁堰波
·
2016-03-17 00:00
使用spark
mllib
识别LED数字
最近在学习sparkmllib,突然有个想法,能否利用
mllib
来识别LED数字呢?
bluejoe2000
·
2016-03-13 21:00
机器学习
分类
MLlib
Kafka+Spark Streaming+Redis实时计算整合实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像SparkStreaming、SparkSQL、
MLlib
、GraphX,这些内建库都提供了高级抽象
openthings
·
2016-03-11 16:00
redis
spark
kafka
分布式机器学习框架-CaffeOnSpark
CaffeOnSparkAPI支持dataframes,以便易于连接准备使用Spark应用程序的训练数据集,以及提取模型的预测或中间层的特征,用于
MLLib
或SQL数据分析。许多现有的DL框架
openthings
·
2016-03-09 13:00
spark
机器学习
CaffeOnSpark
Spark
MLlib
LDA 基于GraphX实现原理及源码分析
LDA背景LDA(隐含狄利克雷分布)是一个主题聚类模型,是当前主题聚类领域最火、最有力的模型之一,它能通过多轮迭代把特征向量集合按主题分类。目前,广泛运用在文本主题聚类中。LDA的开源实现有很多。目前广泛使用、能够分布式并行处理大规模语料库的有微软的LightLDA,谷歌plda、plda+,sparkLDA等等。下面介绍这3种LDA:LightLDA依赖于微软自己实现的multiverso参数服
tanglizhe1105
·
2016-02-25 22:00
源码
spark
GraphX
MLlib
LDA
转载lr spark细节
原创文章,转载请注明:转载自http://www.cnblogs.com/tovin/p/3816289.html本文以spark1.0.0版本
MLlib
算法为准进行分析一、代码结构逻辑回归代码主要包含三个部分
codemosi
·
2016-02-22 17:22
spark
MLlib
算法简介
之前Mahout或者自己写的MR来解决复杂的机器学习,导致效率低,spark特别适合迭代式的计算,这正是机器学习算法训练所需要的,
MLlib
是基于spark之上算法组件,基于spark平台来实现。
zhoubl668
·
2016-02-19 19:00
《Machine Learning with Spark》书评与作者访谈
ApacheSpark及其机器学习库
MLlib
为开发可伸缩的机器学习应用,提供了多种有用的算法。
Srini Penchikala
·
2016-02-19 00:00
spark下线性模型 spark.
mllib
数学公式许多的机器学习的算法实际上可以被写成凸优化的问题,比如说寻找凸函数f的极小值,它取决于权重向量w,那么我们可以将优化目标函数写成:这里xi∈Rd是训练数据,yi∈R是它们对应的标签,线性方法可以表示成L(w;x,y),有几类
mllib
free_lock
·
2016-02-16 16:56
分布式计算
机器学习算法
[Spark] spark dense vector 与 breeze dense vector互转换
因而在
MLlib
外部,以及用户自己使用时,不能将SDV与BDV进行互转换(toBreeze,fromBreeze)--封装互转函数如下importbreeze.linalg._ importbreeze.linalg
逸之
·
2016-02-03 15:00
[Spark] spark dense vector 与 breeze dense vector互转换
因而在
MLlib
外部,以及用户自己使用时,不能将SDV与BDV进行互转换(toBreeze,fromBreeze)--封装互转函数如下importbreeze.linalg._ importbreeze.linalg
逸之
·
2016-02-03 15:00
大数据挖掘: FPGrowth初识--进行商品关联规则挖掘
@(hadoop)[Spark,
MLlib
,数据挖掘,关联规则,算法][TOC]〇、简介经典的关联规则挖掘算法包括Apriori算法和FP-growth算法。
王安琪
·
2016-02-02 10:00
大数据挖掘: FPGrowth初识--进行商品关联规则挖掘
@(hadoop)[Spark,
MLlib
,数据挖掘,关联规则,算法][TOC]〇、简介经典的关联规则挖掘算法包括Apriori算法和FP-growth算法。
王安琪
·
2016-02-02 10:00
4.Spark之简介
MLlib
MLlib
是ApacheSpark处理机器学习的库。下面介绍几个它的特点。易用性:可以在Java、Scala、Python和SparkR中使用。
鞋底留个洞
·
2016-01-27 13:00
Spark
MLlib
实现的广告点击预测–Gradient-Boosted Trees
本文尝试使用Spark提供的机器学习算法Gradient-BoostedTrees来预测一个用户是否会点击广告。训练和测试数据使用KaggleAvazuCTR比赛的样例数据,下载地址:https://www.kaggle.com/c/avazu-ctr-prediction/data数据格式如下:包含24个字段:1-id:adidentifier2-click:0/1fornon-click/cl
雪晴数据
·
2016-01-25 12:00
MLlib
决策树与集成树
MLlib
决策树与集成树DecisionTreeandEnsembles模型简介决策树是一种常见的分类与回归机器学习算法,由于其模型表达性好,便于理解,并能取得较好的效果,而受到广泛的应用。
Sharkd
·
2016-01-22 20:00
[置顶] SparkR
也支持使用
MLlib
分布式机器学习。SparkR数据框类似于R中的数据框,数据源有结构化数据文件,Hive表,外部数据库或者本地R数据框。
u012432611
·
2016-01-17 16:00
spark
机器学习
r
SparkMLlib之六:Clustering
PIC)LatentDirichletallocation(LDA)Bisectingk-meansStreamingk-meansK-meansk-means是最常用的已知聚类数的聚类算法,spark.
mllib
u012432611
·
2016-01-16 14:00
spark
聚类
SparkMLlib
SparkMLlib之 logistic regression源码分析
最近在研究机器学习,使用的工具是spark,本文是针对spar最新的源码Spark1.6.0的
MLlib
中的 logisticregression,linearregression进行源码分析,其理论部分参考
ljy2013
·
2016-01-16 11:00
Spark上如何做分布式AUC计算
曲线中的各个点之后再进行auc的计算,但是实际应用场景中(以逻辑回归为例),我们常常是对每个样本进行打分之后整合样本的label直接进行auc的计算,输入可能是(label,predict_score)这样的形式,
mllib
yihucha166
·
2016-01-15 14:00
[置顶] SparkML实战之五:SVM
{SparkContext,SparkConf} importorg.apache.spark.
mllib
.classification.
u012432611
·
2016-01-14 10:00
spark
机器学习
SVM
ml
[置顶] SparkML实战之四:回归
{SparkContext,SparkConf} importorg.apache.spark.
mllib
.regression.LabeledPoint importorg.apache.spark.
mllib
.regression.LinearRegressionModel
u012432611
·
2016-01-14 10:00
spark
机器学习
ml
[置顶] SparkML实战之三:Logistic回归
packageMLlib importorg.apache.spark.SparkConf importorg.apache.spark.SparkContext importorg.apache.spark.
mllib
.classification
u012432611
·
2016-01-14 10:00
spark
机器学习
ml
Logistic
[置顶] SparkML实战之二:Kmeans
{SparkConf,SparkContext} importorg.apache.spark.
mllib
.clustering.KMeans importorg.apache.spark.
mllib
.linalg.Vectors
u012432611
·
2016-01-14 09:00
spark
机器学习
kmeans
ml
[置顶] SparkML实战之一:线性回归
{SparkConf,SparkContext} importorg.apache.spark.
mllib
.linalg.Vectors importorg.apache.spark.
mllib
.regression
u012432611
·
2016-01-14 09:00
spark
机器学习
ml
上一页
16
17
18
19
20
21
22
23
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他