E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MLlib
Spark Example
valdataset=spark.read.format("libsvm").load("data/
mllib
/sample_kmeans_data.txt")HADOOP_CONF_DIR设置的话取的是
迪兰布鲁斯
·
2017-07-09 11:43
Spark 运维实战简介
目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、
MLlib
等子项目,本章只进行简要介绍,后续章节再详细阐述。
我不是九爷
·
2017-07-07 13:38
简介
spark
运维实战
Spark
spark
mllib
之分类和回归
ProblemTypeSupportedMethods二分类:线性SVM(inearSVMs,),罗辑回归(logisticregression),决策树(decisiontrees),随机森林(randomforests),梯度增强树(gradient-boostedtrees),朴素贝叶斯(naiveBayes)多分类器:罗辑回归(logisticregression),决策树(decisio
chuwanfei
·
2017-07-06 14:44
spark
mllib
spark
mllib
之基本数据统计
importorg.apache.spark.
mllib
.linalg.Vectorsimportorg.apache.spark.
mllib
.stat.
chuwanfei
·
2017-07-03 12:19
spark
mllib
Spark入门(2)——生态系统
它还支持一系列更高级别的工具,包括用于SQL和SQL数据处理的SparkSQL,用于机器学习的
MLlib
,用于图形处理的GraphX和用于实时流处理的SparkStreaming。
飞鸟2010
·
2017-06-28 22:56
spark入门
Spark入门(2)——生态系统
它还支持一系列更高级别的工具,包括用于SQL和SQL数据处理的SparkSQL,用于机器学习的
MLlib
,用于图形处理的GraphX和用于实时流处理的SparkStreaming。
飞鸟2010
·
2017-06-28 22:56
spark入门
Spark Streaming 实战案例(一)
本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html#
mllib
-operationsSpark
Soyoger
·
2017-06-28 18:53
Spark
spark
mllib
之音乐推荐
首先该例子取自spark高级数据分析第二章的样例原始数据集来自http://www-etud.iro.umontreal.ca/~bergstrj/audioscrobbler_data.html主要包括三个文件:主要的数据集在文件user_artist_data.txt中,它包含141000个用户和160万个艺术家,记录了约2420万条用户播放艺术家歌曲的信息,其中包括播放次数信息。数据集在ar
chuwanfei
·
2017-06-27 23:32
spark
mllib
2017年6月27日
上班主要内容就是熟悉scala和
mllib
,然后比我想象的要复杂很多,最后进步也比较缓慢……话说今天是我工作整整一年来着,就以今天为分界线以后都努力干活好了!
真昼之月
·
2017-06-27 20:15
Spark机器学习(3):保序回归算法
MLlib
使用的是PAVA(PoolAdjac
MSTK
·
2017-06-15 18:00
Spark机器学习(2):逻辑回归算法
MLLib
的逻辑回归类有两个:LogisticRegressionWithSGD和LogisticRegressionWithLBFGS,前者基于随机梯度下降,只支持2分类,后者基于LBFGS优化损失函数
MSTK
·
2017-06-15 17:00
java 中Spark中将对象序列化存储到hdfs
java中Spark中将对象序列化存储到hdfs摘要:Spark应用中经常会遇到这样一个需求:需要将JAVA对象序列化并存储到HDFS,尤其是利用
MLlib
计算出来的一些模型,存储到hdfs以便模型可以反复利用
小水熊
·
2017-06-09 14:18
Spark
MLlib
入门学习笔记 - KMeans聚类
MLlibKMeans的使用说明详见文档。deftrain(data:RDD[Vector],k:Int,maxIterations:Int,runs:Int,initializationMode:String,seed:Long):KMeansModel Trainsak-meansmodelusingthegivensetofparameters. dataTrainingpointsasan
hjh00
·
2017-06-03 17:00
spark
MLlib
kmeans
SPARK模型实例:两种方法实现随机森林模型(
MLlib
和ML)
//Loadandparsethedatafile.valdata=MLUtils.loadLibSVMFile(sc,"data/
mllib
/sample_libsvm_data.txt"
O白马非马O
·
2017-06-02 17:18
数据挖掘
spark
Spark
MLlib
入门学习笔记 - GradientBoostedTree和随机森林
GradientBoostedTreesModelMethodtotrainagradientboostingmodel.inputTrainingdataset:RDDoforg.apache.spark.
mllib
.r
hjh00
·
2017-06-01 19:13
Spark
SPARK官方实例:两种方法实现随机森林模型(ML/
MLlib
)
在spark2.0以上版本中,存在两种对机器学习算法的实现库
MLlib
与ML,比如随机森林:org.apache.spark.
mllib
.tree.RandomForest和org.apache.spark.ml.classification.RandomForestClassificationModel
O白马非马O
·
2017-05-31 17:24
数据挖掘
spark
使用 Spark
MLlib
做 K-means 聚类分析
本文转载自:https://my.oschina.net/xiaoluobutou/blog/680638摘要:
MLlib
是Spark生态系统里用来解决大数据机器学习问题的模块。
chvalrous
·
2017-05-23 15:10
Machine
Learning
Scala
Spark中决策树源码分析
from __future__ import print_functionfrom pyspark import SparkContextfrom pyspark.
mllib
.tree import Dec
jjjssswww
·
2017-05-19 09:29
开发
import
future
Spark-
mllib
特征转换算法
Tokenization(分词器)算法介绍:Tokenization将文本划分为独立个体(通常为单词)。RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下,参数“pattern”为划分文本的分隔符。或者可以指定参数“gaps”来指明正则“patten”表示“tokens”而不是分隔符,这样来为分词结果找到所有可能匹配的情况。调用:Scala:importorg.apache.
unity_kw_do
·
2017-05-17 14:05
算法
Spark
spark厦大----KMeans聚类算法 -- spark.
mllib
来源:http://mocom.xmu.edu.cn/article/show/586df21caa2c3f280956e7b3/0/1聚类(Clustering)是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性,根据某一给定的相似度度量方式(如欧式距离)找到相似的样本,并根据距离将样本划分成不同的组。聚类属于典型的无监督学习(UnsupervisedLearning)方法。与监督学习
qq_34941023
·
2017-05-03 22:00
spark厦大-----协同过滤算法 -- spark.
mllib
包
来源:http://mocom.xmu.edu.cn/article/show/586cac76aa2c3f280956e7b2/0/1一、方法简介协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐,它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。关于协同过滤的一个经典的例子就是看电影。如果你不知道哪一部电影是自己喜欢的或者评分比较高的,那么通常的做法就是问问周围的
小丁丁_ddxdd
·
2017-05-03 22:10
技术层-spark
spark厦大-----协同过滤算法 -- spark.
mllib
包
来源:http://mocom.xmu.edu.cn/article/show/586cac76aa2c3f280956e7b2/0/1一、方法简介协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐,它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。关于协同过滤的一个经典的例子就是看电影。如果你不知道哪一部电影是自己喜欢的或者评分比较高的,那么通常的做法就是问问周围
qq_34941023
·
2017-05-03 22:00
《循序渐进学Spark》一第1章
第1章Spark架构与集群环境本章首先介绍Spark大数据处理框架的基本概念,然后介绍Spark生态系统的主要组成部分,包括SparkSQL、SparkStreaming、
MLlib
和GraphX,接着简要描述了
weixin_34119545
·
2017-05-02 14:00
scala
大数据
运维
spark厦大-----逻辑斯蒂回归分类器--spark.
mllib
来源:http://mocom.xmu.edu.cn/article/show/58578f482b2730e00d70f9fc/0/1方法简介逻辑斯蒂回归(logisticregression)是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的,也可以是多分类的。基本原理logistic分布设X是连续随机变量,X服从logistic分布是指X具有下列分布函数
小丁丁_ddxdd
·
2017-04-29 22:14
技术层-spark
Spark
MLlib
架构解析(含分类算法、回归算法、聚类算法和协同过滤)
SparkMLlib架构解析
MLlib
的底层基础解析
MLlib
的算法库分析分类算法回归算法聚类算法协同过滤
MLlib
的实用程序分析从架构图可以看出
MLlib
主要包含三个部分:底层基础:包括Spark的运行库
weixin_33896726
·
2017-04-29 14:00
人工智能
大数据
scala
日月的弯刀关注大数据相关技术
HadoopHBase(4)Hibernate(1)Hive(1)html/css/javascriptJavaEE(18)JavaSE(5)JSP(2)JSTL(1)Kafka(1)MapReduce案例(3)
MLlib
Albert陈凯
·
2017-04-25 18:31
计算回归曲线的MSE
importorg.apache.spark.
mllib
.linalg.Vectorsimportorg.apache.spark.
mllib
.regression.
kimiYangfly
·
2017-04-25 09:41
matplotlib
spark厦大---
MLlib
基本数据类型(2)
它可以分布式地存储在一个或多个RDD上,
MLlib
提供了三种
qq_34941023
·
2017-04-25 08:00
厦大spark-----
MLlib
基本数据类型(1)
来源:http://mocom.xmu.edu.cn/article/show/58481eb2e083c990247075a5/0/1
MLLib
提供了一序列基本数据类型以支持底层的机器学习算法。
qq_34941023
·
2017-04-24 22:00
spark.
mllib
源码阅读-聚类算法1-KMeans
KMeans聚类是聚类分析比较简单的一种,由于其简单、高效、易于理解实现等优点被广泛用于探索性数据分析中。 关于KMeans算法的介绍、分析的相关文章可谓汗牛充栋,留给我能写的东西并不多了,在这里,我通过罗列相关文章的方式,将涉及KMeans聚类的各方面做一个尽量详尽的总结。最后简单介绍一下Spark下KMeans聚类的实现过程。KMeans聚类算法原理:关于KMeans算法的原理及单机版实现,可
zbc1090549839
·
2017-04-21 15:00
spark
机器学习
聚类
kmeans
k均值
spark.
mllib
源码阅读-分类算法5-GradientBoostedTrees
Gradient-BoostedTrees(GBT或者GBDT)和RandomForests都属于集成学习的范畴,相比于单个模型有限的表达能力,组合多个basemodel后表达能力更加丰富。关于集成学习的理论知识,包括GBT和RandomForests的一些比较好的参考资料:周志华教授的"EnsembleMethods:FoundationsandAlgorithms",系统的介绍了集成学习的理论
zbc1090549839
·
2017-04-19 15:00
spark
GBDT
decisiontree
GBT
Spark入门实战系列--8.Spark
MLlib
(上)--机器学习及SparkMLlib简介
1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:Acomputerprogramissaidtolearnfr
bbbeoy
·
2017-04-15 23:00
Spark机器学习之模型选择和超参数调整
MLlib
支持使用CrossValidator和TrainValidationSplit等工具进行模型选择。这些工具需要以下项目:Esti
dingcheng998
·
2017-04-12 18:40
spark
机器学习
spark的生态圈
Spark系统中,其核心框架是sparkcore,同时涵盖支持结构化数据SQL查询与分析的查询引擎SparkSQL和shark,提供机器学习功能的系统MLbase及底层的分布式机器学习库
MLlib
,并行图计算框架
蜗牛0
·
2017-04-11 19:08
Spark
Spark入门实战系列--8.Spark
MLlib
(上)--机器学习及SparkMLlib简介
原文地址:http://www.cnblogs.com/shishanyuan/p/4747761.html【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、机器学习概念1.1机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是
kinglin_zy
·
2017-04-09 16:35
Spark进阶(八)
MLlib
目前支持分类算法有:逻辑回归、支持向量机、朴素贝叶斯和决策树。案例:导入训练数据集,然后在训练集上执行训练算法
a_victory
·
2017-03-31 09:35
Spark
Spark之训练分类模型练习(2)
每一行为某一样本的特征向量importorg.apache.spark.
mllib
.linalg.distributed.RowMatrixvalvectors=data.map(lp=>lp.features
_飞奔的蜗牛_
·
2017-03-28 23:24
机器学习与数据挖掘
MLlib
spark
spark ml pipelines
sparkMLPipelines在spark2.0里
mllib
分为两个包,spark.
mllib
里是基于RDD的API,spark.ml里是基于DataFrame的API。
Dillon2015
·
2017-03-21 17:24
机器学习
spark
Spark
MLlib
算法调用展示平台及其实现过程
1.软件版本:IDE:IntellijIDEA14,Java:1.7,Scala:2.10.6;Tomcat:7,CDH:5.8.0;Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0;Hadoop:hadoop2.6.0-cdh5.8.0;(使用的是CDH提供的虚拟机)2.工程下载及部署:Scala封装Spark算法工程:https://github.com/fa
fansy1990
·
2017-03-17 12:36
Spark
MLlib
算法调用展示平台及其实现过程
1.软件版本:IDE:IntellijIDEA14,Java:1.7,Scala:2.10.6;Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0; Hadoop:hadoop2.6.0-cdh5.8.0;(使用的是CDH提供的虚拟机)2.工程下载及部署:Scala封装Spark算法工程:https://github.com/
fansy1990
·
2017-03-17 12:00
spark
spark
on
yarn
MLlib
MapReduc监控
使用Spark KMeans对地点发生重量进行聚类
聚类Spark的机器学习库分成两类,一类是针对RDD的,在org.apache.spark.
mllib
包下,另一类则是针对DataFrame的,在org.apache.spark.ml包下。
见丰
·
2017-03-15 16:21
IDEA运行spark
MLlib
程序遇到java.lang.OutOfMemoryError:GC overhead limit exceeded
IDEA运行sparkMLlib程序遇到java.lang.OutOfMemoryError:GCoverheadlimitexceeded查看了下别的博客,发现是在导入数据时IEDA内存不够。修改IEDA内存设置,bin目录下idea64.exe.vmoptions和idea.exe.vmoptions分别对应64位和32位-Xms128m-Xmx750m-XX:MaxPermSize=350m
jyli2_11
·
2017-03-08 11:00
Spark机器学习
Spark机器学习Pipelines中的主要概念
MLlib
提供的API可以通过Pipelines将多个复杂的机器学习算法结合成单个pipeline或者单个工作流。
Spark贵1
·
2017-03-07 19:44
机器学习
spark
Spark2.1.0官方文档
它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的SparkSQL,用于机器学习的
MLlib
,用于图形处理的GraphX和SparkStreaming。
FlinkMe
·
2017-03-04 15:00
Spark-
MLlib
实例——决策树
Spark-
MLlib
实例——决策树通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:[plain]viewplaincopy女儿:多大年纪了?
javastart
·
2017-02-18 18:02
spark
算法
机器学习
Spark ML机器学习
Spark提供了常用机器学习算法的实现,封装于spark.ml和spark.
mllib
中.spark.
mllib
是基于RDD的机器学习库,spark.ml是基于DataFrame的机器学习库.相对于RDD
-Finley-
·
2017-02-12 10:00
MAC Spark no snappyjava in java.library.path
1.7.0_79;IDEA:14;问题描述:在Mac上运行Spark程序时(采用local生成SparkContext的方式,具体参考:https://github.com/fansy1990/Spark_
MLlib
_Algorithm
fansy1990
·
2016-12-31 11:35
spark
intellij
idea
cdh
mac
MAC Spark no snappyjava in java.library.path
1.7.0_79;IDEA:14;问题描述:在Mac上运行Spark程序时(采用local生成SparkContext的方式,具体参考:https://github.com/fansy1990/Spark_
MLlib
_Algorithm
fansy1990
·
2016-12-31 11:00
[汪榕]会调用Spark-
Mllib
库就是懂Data Mining?我却不以为然
//会调用Spark-
Mllib
库就是懂DataMining?
葡萄喃喃呓语
·
2016-12-27 21:00
会调用Spark-
Mllib
库就是懂Data Mining?我却不以为然
前言:在数据圈子里,有很多数据工具来辅助做一些简单的数据挖掘工作,最常听到的就是Python和R的算法库,毕竟大部分业务人员接触单机环境下的场景会比较多。当然也有做大数据开发的工程师,迎着潮流接触些Spark相关的算法库,做些调参的工作。有了这些尝试以后,很多人会自然而然认为数据挖掘也就这么回事,我也要跳槽,要高薪。说明:本文槽点不少,仅限于有一定心理承受能力的读者继续阅读下去。快年底了,跳槽频繁
乐平汪二
·
2016-12-15 16:34
上一页
13
14
15
16
17
18
19
20
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他