E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MLlib
SparkMLlib之三:协同过滤
协同过滤用于推荐系统,目的在于填补用户-物品同现矩阵,spark目前支持基于模型的协同过滤,用户和产品由一个小的可以用于预测缺失值的潜在因子集描述,spark.
mllib
采用交叉最小二乘算法学习潜在因子
u012432611
·
2016-01-12 19:00
spark
MLlib
SparkMLlib之二Basic Stastics
SummarystatisticsWeprovidecolumnsummarystatisticsforRDD[Vector]throughthefunctioncolStatsavailableinStatistics.importorg.apache.spark.
mllib
.linalg.Vector
u012432611
·
2016-01-12 19:00
spark
MLlib
SparkMLlib之一Data Types
MLlib
支持单机局部向量和局部矩阵,也支持基于RDD的分布式矩阵,
MLlib
中的labeledpoint代表监督学习的训练样本localvectorMLlib支持两种localvector:dense
u012432611
·
2016-01-12 19:00
spark
MLlib
Spark
MLlib
之 Basic Statistics
SparkMLlib提供了一些基本的统计学的算法,下面主要说明一下:1、Summarystatistics对于RDD[Vector]类型,SparkMLlib提供了colStats的统计方法,该方法返回一个MultivariateStatisticalSummary的实例。他封装了列的最大值,最小值,均值、方差、总数。如下所示:valconf=newSparkConf().setAppName("
ljy2013
·
2016-01-06 14:00
Spark
MLlib
之 Naive Bayes
1、前言:NaiveBayes(朴素贝叶斯)是一个简单的多类分类算法,该算法的前提是假设各特征之间是相互独立的。NaiveBayes训练主要是为每一个特征,在给定的标签的条件下,计算每个特征在该标签的条件下的条件概率。最后用这个训练后的条件概率去预测。由于我使用的Spark的版本是1.3.0。它所包含的NaiveBayes是MultinomialNB。截至到我写该篇文章,最新的Spark1.6.0
ljy2013
·
2016-01-05 14:00
Spark
MLlib
Data Type
MLlib
支持存放在单机上的本地向量和矩阵,也支持通过多个RDD实现的分布式矩阵。因此
MLlib
的数据类型主要分为两大类:一个是本地单机向量;另一个是分布式矩阵。
ljy2013
·
2016-01-05 09:00
Spark 综合应用
本节模拟几个综合应用场景SQLOnSpark:使用sqlContext查询年纪大于等于10岁的人名HiveOnSpark:使用了hiveContext计算每年销售额店铺分类,根据销售额对店铺分类,使用sparkSQL和
MLLib
u012432611
·
2016-01-04 11:00
spark
Spark简介
Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了SparkSQL、SparkStreaming、
MLLib
weitao1026
·
2016-01-02 00:00
Spark简介
解析Spark大数据分析框架的核心部件
Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、
MLlib
机器学习支持框架、SparkSQL数据检索语言、Tachyon文件系统
勿忘初心321
·
2015-12-23 13:00
机器学习算法的归类
涉及各种各样的算法及知识点,每个人都对其有不同的归类思路,我们结合自己的理解,以及参考spark的归类方式,将其分为以下几类:详见https://spark.apache.org/docs/latest/
mllib
-guide.html
lujinhong2
·
2015-12-16 17:00
算法
spark
机器学习
Vectors.dense()
importorg.apache.spark.
mllib
.linalg.Vectors importorg.apache.spark.
mllib
.stat.Statistics valrdd=sc.makeRDD
power0405hf
·
2015-12-12 15:00
个推 Spark实践教你绕过开发那些“坑”
Spark主要包括SparkSQL,SparkStreaming,Spark
MLLib
以及图计算。 Spark核心概念简介1、RDD即弹性分布式数据集,通过RDD可以执行各种算子实现数据处理和计算。
HiddlestonCloud
·
2015-12-08 12:00
spark
开源
数据
个推 Spark实践教你绕过开发那些“坑”
Spark主要包括SparkSQL,SparkStreaming,Spark
MLLib
以及图计算。
illy安智
·
2015-12-08 11:00
spark
Spark
MLlib
知识点学习整理
MLlib
的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。
MLlib
就是RDD上一系列可供调用的函数的集合。操作步骤:1、用字符串RDD来表示信息。
超大的雪童子
·
2015-12-06 22:00
使用Spark
MLlib
给豆瓣用户推荐电影
推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。随着电子商务规模的不断扩大,商品数量和种类不断增长,用户对于检索和推荐提出了更高的要求。由于不同用户在兴趣爱好、关注领域、个人经历等方面的不同,以满足不同用户的不同推荐需求为目的、不同人可以获得不同推荐为重要特征的个性化推荐系统应运而生。推荐系统成为一个相对独立的研究方向一般被认为始自1994年明尼苏达大学GroupLen
·
2015-11-30 07:00
spark
大数据
recommendation
mklib
Spark
MLlib
之K-Means聚类算法
聚类算法聚类,Clusteranalysis,有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能的相似,簇与簇之间的object尽可能的相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,较常见的还有:层次法(CURE、CHAMELEON等)、网格算法(STING、WaveCluster等)等
sdujava2011
·
2015-11-22 18:00
spark
数据挖掘
机器学习
kmeans
Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark Streaming(一)
本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html#
mllib
-operationsSpark
zhouzhihubeyond
·
2015-11-21 22:46
Spark
Spark修炼之道
Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark Streaming(一)
本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html#
mllib
-operationsSpark
lovehuangjiaju
·
2015-11-21 22:00
spark
流式计算
Spark0.9.0机器学习包
MLlib
-Classification代码阅读
本章主要讲述
MLlib
包里面的分类算法实现,目前实现的有LogisticRegression、SVM、NaiveBayes 
·
2015-11-13 19:12
spark
Spark0.9.0机器学习包
MLlib
-Optimization代码阅读
基于Spark的一个生态产品--
MLlib
,实现了经典的机器学算法,源码分8个文件夹, classification文件夹下面包含
·
2015-11-13 19:11
spark
spark0.9.0安装
利用周末的时间安装学习了下最近很火的Spark0.9.0(江湖传言,要革hadoop命,O(∩_∩)O),并体验了该框架下的机器学习包
MLlib
(spark解决的一个重点就是高效的运行迭代算法),下面是整个安装过程
·
2015-11-13 19:11
spark
Spark
Mllib
逻辑回归算法分析
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3816289.html 本文以spark 1.0.0版本
MLlib
算法为准进行分析
·
2015-11-13 14:35
spark
spark(1.1)
mllib
源码分析(三)-朴素贝叶斯
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4042467.html 本文主要以
mllib
1.1版本为基础,分析朴素贝叶斯的基本原理与源码
·
2015-11-13 13:41
spark
spark(1.1)
mllib
源码分析(二)-相关系数
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4024733.html 在spark
mllib
1.1版本中增加stat包,里面包含了一些统计相关的函数
·
2015-11-13 13:40
spark
spark(1.1)
mllib
源码分析(一)-卡方检验
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4019131.html 在spark
mllib
1.1版本中增加stat包,里面包含了一些统计相关的函数
·
2015-11-13 13:39
spark
Spark学习
基于Spark On Yarn的淘宝数据挖掘平台:http://www.doc88.com/p-7804379529208.html Spark之
MLLib
机器学习库:http://blog.csdn.net
·
2015-11-13 07:40
spark
MLlib
之NaiveBayes算法源码学习
package org.apache.spark.
mllib
.classification import breeze.linalg.
·
2015-11-13 06:17
lib
MLlib
之LR算法源码学习
/** * :: DeveloperApi :: * GeneralizedLinearModel (GLM) represents a model trained using * GeneralizedLinearAlgorithm. GLMs consist of a weight vector and * an intercept. * * @param weight
·
2015-11-13 06:17
lib
Spark MLBase分布式机器学习系统入门:以
MLlib
实现Kmeans聚类算法
1.什么是MLBaseMLBase是Spark生态圈的一部分,专注于机器学习,包含三个组件:
MLlib
、MLI、ML Optimizer。
·
2015-11-12 22:30
spark
MLlib
卡方检验
1、卡方检验理论 1.1、 简介 总体的分布函数完全未知或只知形式、但不知其参数的情况,为了推断总体的某些未知特性,提出某些关于总体的假设。我们要根据样本对所提出的假设作出是接受,还是拒绝的决策。假设检验是作出这一决策的过程。卡方检验即是假设检验的一种。 1.2、卡方检验基本思想 首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以
·
2015-11-11 07:46
lib
MLlib
-聚类
聚类 例子 流聚类 例子 聚类
MLlib
支持k-means聚类,一种最常用的聚类方法
·
2015-11-11 03:19
lib
MLlib
-分类与回归
MLlib
支持二分类,多酚类和回归分析的多种方法,具体如下: 问题类别 支持方法 二分类 线性支持向量机, 逻辑回归,决策树,朴素贝叶斯 多分类 决策树,朴素贝叶斯 回归 线性最小二乘
·
2015-11-11 03:19
lib
MLlib
-协同过滤
MLlib
支持基于模型的协同过滤,即使用能够预测缺失值的一个隐藏因素集合来表示用户和产品。
MLlib
使用交替做小二乘法(alternating least squares, ALS)学习隐藏因子
·
2015-11-11 03:17
协同过滤
MLlib
编程指导-spark-1.2.0
本文来自 http://spark.apache.org/docs/latest/
mllib
-guide.html 官方文档翻译 个人翻译
MLlib
包括的算法和工具主要有
·
2015-11-11 03:16
spark
协同过滤算法 R/mapreduce/spark
mllib
多语言实现
用户电影评分数据集下载http://grouplens.org/datasets/movielens/1)Item-Based,非个性化的,每个人看到的都一样2)User-Based,个性化的,每个人看到的不一样对用户的行为分析得到用户的喜好后,可以根据用户的喜好计算相似用户和物品,然后可以基于相似用户或物品进行推荐。这就是协同过滤中的两个分支了,基于用户的和基于物品的协同过滤。在计算用户之间的相
jethai
·
2015-11-05 15:07
协同过滤
推荐系统
数据结构与算法
协同过滤算法 R/mapreduce/spark
mllib
多语言实现
用户电影评分数据集下载http://grouplens.org/datasets/movielens/1)Item-Based,非个性化的,每个人看到的都一样2)User-Based,个性化的,每个人看到的不一样对用户的行为分析得到用户的喜好后,可以根据用户的喜好计算相似用户和物品,然后可以基于相似用户或物品进行推荐。这就是协同过滤中的两个分支了,基于用户的和基于物品的协同过滤。在计算用户之间的相
jethai
·
2015-11-05 15:07
推荐系统
协同过滤
Spark的39个机器学习库-中文
//ApacheSpark本身//1.
MLlib
>AMPLabSpark最初诞生于伯克利AMPLab实验室,如今依然还是AMPLab所致力的项目,尽管这些不处于ApacheSparkFoundation
啊莫
·
2015-11-04 23:00
Spark机器学习5
Spark的
MLlib
库提供
jjfnjit
·
2015-11-02 12:00
spark
机器学习
Spark 学习笔记:(四)
MLlib
基础
MLlib
:Machine Learning Library。
·
2015-10-31 11:12
spark
Spark随机森林实现学习
前言 最近阅读了spark
mllib
(版本:spark 1.3)中Random Forest的实现,发现在分布式的数据结构上实现迭代算法时,有些地方与单机环境不一样。
·
2015-10-26 15:44
spark
[翻译 by Zephyr] README In Spark Building
同时,它也支持一系列丰富高水平的工具,包括用于SQL的SparkSQL和数据结构处理,用于机器学习的
MLlib
,用于图形处理的GraphX,和实时流处理的SparkStreaming。
u011414200
·
2015-10-26 10:00
spark
mllib
中的tf-idf算法计算文档相似度
importorg.apache.spark.
mllib
.feature.{HashingTF,IDF} importorg.apache.spark.
mllib
.linalg.
xiao_jun_0820
·
2015-10-20 15:00
Spark机器学习库之数据类型——scala版本
我们建议通过 Vectors中实现的工厂方法来创建本地向量:(注意:Scala语言默认引入的是 scala.collection.immutable.Vector,为了使用
MLlib
的Vector,你必须显示引入
hechenghai
·
2015-10-11 20:00
Spark
MLlib
之机器学习(三)
上一篇我们简单了解了SparkMLlib中的SupervisedLearning,那么这一篇,我们主要介绍UnsupervisedLearning。本篇介绍的内容有:KMeans、PCA(PrincipalConponentAnalysis)和SVD(SingularValueDecomposition)。1.UnsupervisedLearning(非监督学习)首先,我们先看下Wikipedia
u010376788
·
2015-10-05 17:00
spark
机器学习
MLlib
Spark
MLlib
之机器学习(二)
通过上一篇的简介,我们对SparkMLlib的基础有了一些了解。那么,从这一篇开始,我们进入实战阶段。因为是介绍SparkMLlib的应用,所以我这里不会详细介绍算法的推导,后续我会抽时间整理成专题进行介绍。而这一篇主要介绍SparkMLlib中的监督学习算法:LogisticsRegression、NaiveBayes、SVM(SupportVectorMachine)、DecisionTree
u010376788
·
2015-10-03 12:00
spark
机器学习
MLlib
spark on yarn运行产生缺jar包错误及解决办法
/bin/spark-submit/--classorg.apache.spark.examples.
mllib
.JavaALS/-
javastart
·
2015-10-03 11:00
Spark
MLlib
之机器学习(一)
1.定义先看一下机器学习的定义,以下是Wikipedia的定义:Machinelearningisascientificdisciplinethatexplorestheconstructionandstudyofalgorithmsthatcanlearnfromdata.当然,要说的更接地气点儿,就是让机器会学习,那怎么样才能让机器学习呢?那就需要能从数据中学习的算法。简单讲,就是数据和算法。
u010376788
·
2015-09-29 21:00
算法
spark
机器学习
Spark
MLlib
数据类型
MLlib
支持几种数据类型:本地向量(localvectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵.1,本地向量(LocalVector)一个本地向量是由从
dabokele
·
2015-09-24 09:07
Spark
原理
machine
learning
Spark
MLlib
数据类型
MLlib
支持几种数据类型:本地向量(localvectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵.1,本地向量(LocalVector)
dabokele
·
2015-09-24 09:00
spark学习笔记总结-spark入门资料精化
SparkSQL、SparkStreaming、
MLlib
、GraphX、SparkR等核心组件解决了很
u013719780
·
2015-09-14 22:00
上一页
17
18
19
20
21
22
23
24
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他