E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MLlib
Spark
MLlib
NaiveBayes 贝叶斯分类器
1.1朴素贝叶斯公式贝叶斯定理: 其中A为事件,B为类别,P(B|A)为事件A条件下属于B类别的概率。朴素贝叶斯分类的正式定义如下: 1、设为一个待分类项,而每个a为x的一个特征属性。 2、有类别集合。 3、计算。 4、如果,则。 那么现在的关键就是如何计算第3步中的各个条件概率: 1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集
sunbow0
·
2015-04-29 11:00
spark
MLlib
NaiveBayes
Kafka+Spark Streaming+Redis实时计算整合实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像SparkStreaming、SparkSQL、
MLlib
、GraphX,这些内建库都提供了高级抽象
Yanjun
·
2015-04-28 13:00
spark
开源技术
Spark
MLlib
核心基础:向量 And 矩阵
1、SparkMLlib核心基础:向量And矩阵1.1Vector1.1.1densevector源码定义: *Createsadensevectorfromitsvalues. */ @varargs defdense(firstValue:Double,otherValues:Double*):Vector= newDenseVector((firstValue+:otherValue
sunbow0
·
2015-04-23 17:00
spark
MLlib
随机森林&GBDT算法以及在
MLlib
中的实现
决策树的一个缺点是容易出现过拟合,可以把利用融合的方式把各个弱模型集成起来,解决过拟合,提高模型的泛化能力。决策树和bagging、boosting的思想结合在一起,诸如随机森林、GBDT,在数据挖掘中的预测分类、推荐广告以及搜索中的排序算法模型、搜索关键词的扩展推荐等等应用的非常广泛。先讲一下bagging和boosting方式的区别。Bagging的方式算是比较简单的,训练多个模型,利用每个模
杨步涛的博客
·
2015-04-18 17:42
spark
机器学习(广告
推荐
数据挖掘)
Spark
MLlib
中的协同过滤
MLlib
当前支持基于模型的协同过滤,其中用户和商品通过一小组隐语义因子进行表达,并且这些因子也用于预测缺失的元素。SparkMLlib实现了交替最小二乘法(ALS)来学习这些隐性语义因子。
·
2015-04-16 16:00
spark
协同过滤
MLlib
Movie Recommendation with
MLlib
参考链接:https://databricks-training.s3.amazonaws.com/movie-recommendation-with-
mllib
.htmlStep1背景知识学习如何使用
smile_zjw
·
2015-04-13 21:00
spark
recommendation
MLlib
隐语义模型
逻辑回归算法分析及在
MLlib
中的实现剖析
本文简要介绍逻辑回归的算法,以及在
MLlib
中的实现解析。
杨步涛的博客
·
2015-04-11 15:33
机器学习(广告
推荐
数据挖掘)
算法
spark
Apache Spark
MLlib
学习笔记(七)
MLlib
决策树类算法源码解析 3
上篇已经分析到SparkMLlib库的决策树最终实现使用了randomforrest的run方法,这篇将对run方法进行详细的剖析和解释。上篇提到input先被转换成Metadata处理,因此首先看一下buildMetadata方法可以看出DecisionTreeMetadata确定了叶子节点数在不同情况下的范围,将数据的属性分为了有序和无序两种情况。将二元分类和回归问题放在了一起考虑。另外,在分
qiao1245
·
2015-04-10 20:00
apache
源码
spark
Apache Spark
MLlib
学习笔记(六)
MLlib
决策树类算法源码解析 2
上篇说道建立分类决策树模型调用了trainClassifier方法,这章分析trainClassifier方法相关内容按照以下路径打开源码文件:/home/yangqiao/codes/spark/
mllib
qiao1245
·
2015-04-08 18:00
apache
源码
spark
Apache Spark
MLlib
学习笔记(五)
MLlib
决策树类算法源码解析 1
首先看下官方给的java使用决策树的例子,路径是/home/yangqiao/codes/spark/examples/src/main/java/org/apache/spark/examples/
mllib
qiao1245
·
2015-04-08 16:00
apache
源码
spark
MLlib
Apache Spark
MLlib
学习笔记(四)Intellij上部署Spark源码
源码分析是一件工作量很大的工作,尤其是spark这样的大工程,因此一定要使用IDE才能较好的理顺各个类的关系。看别人经验,都推荐使用intelliJ编辑器。在此也要介绍一下ubuntu系统下spark在intelliJ上的部署。1,配置java和scala开发环境spark依赖java和scala环境,因此要先安装JDK,具体方法可以参看以前的一篇博客。2,安装intellij首先去官网下载安装包
qiao1245
·
2015-04-08 15:00
apache
源码
spark
Apache Spark
MLlib
学习笔记(三)
MLlib
统计指标之关联/抽样/汇总
决策树利用树形结构进行分类和回归,构建树的指标有多种,其中一种就是方差。在介绍决策树类算法前,首先介绍一下SparkMLlib中基本的统计。Spark官方提供了summarystatistics、correlations、stratifiedsampling、hypothesistesting、randomdatageneration。即汇总统计、关联、分层抽样、假设检验、随机数据生成。参考文档如
qiao1245
·
2015-04-03 15:00
apache
源码
spark
统计
Apache Spark
MLlib
学习笔记(二)Spark RDD简介和基本操作
第二篇介绍一下Spark的基本数据抽象——RDD,RDD来自伯克利的一篇论文,也就是http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf下面就选取一些主要的特性进行介绍:一、什么是RDDRDD(ResilientDistributedDatasets)即弹性分布式数据集,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录
qiao1245
·
2015-04-03 11:00
apache
spark
RDD
spark概述
它还支持一组丰富的更高级的工具,包括:SQL方面的SparkSQL和结构化数据处理,机器学习方面的
MLlib
,图形处理方面的GraphX以及SparkStreaming。
newlife111
·
2015-04-03 10:00
Apache Spark
MLlib
学习笔记(一)
MLlib
数据存储Vector/Matrix/LablePoint
在进行具体算法模型剖析之前,首先要清楚
MLlib
采用的数据结构,spark官方文档也提供了英文的数据结构介绍,地址如下:http://spark.apache.org/docs/latest/
mllib
-data-types.htmlMLlib
qiao1245
·
2015-04-02 15:00
数据结构
spark
MLlib
蜗龙徒行-Spark学习笔记【二】Spark shell下kmeans聚类算法的应用
在终端打开spark-shell然后在scala编辑模式下依次输入以下命令://导入算法执行所需函数库importorg.apache.spark.
mllib
.clustering.KMeansimportorg.apache.spark.
mllib
.linalg.Vectors
cafuc46wingw
·
2015-03-26 12:00
算法
spark
孙其功陪你学之——Spark
MLlib
之K-Means聚类算法
看到 程序员的自我修养–SelfUp.cn 里面有SparkMLlib之K-Means聚类算法。但是是java语言的,于是我按照例程用Scala写了一个,分享在此。由于在学习sparkmllib但是如此详细的资料真的很难找,在此分享。测试数据0.00.00.0 0.10.10.10.20.20.2 9.09.09.0 9.19.19.19.29.29.215.115.115.118.017.019
a350203223
·
2015-03-18 17:00
scala
spark
MLlib
孙其功陪你学之——Spark
MLlib
之协同过滤
转自 程序员的自我修养–SelfUp.cn由于在学习sparkmllib但是如此详细的资料真的很难找,在此分享。1,220次浏览什么是协同过滤协同过滤(CollaborativeFiltering,简称CF),wiki上的定义是:简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选资
a350203223
·
2015-03-18 10:00
spark
协同过滤
MLlib
孙其功陪你学之——Spark
MLlib
之K-Means聚类算法
转自 程序员的自我修养–SelfUp.cn由于在学习sparkmllib但是如此详细的资料真的很难找,在此分享。聚类算法聚类,Clusteranalysis,有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能的相似,簇与簇之间的object尽可能的相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算
a350203223
·
2015-03-18 10:00
spark
MLlib
k-means
聚类算法
MLlib
中的Random Forests和Boosting
在Spark 1.2中,
MLlib
引入了RandomForests和Gradient-BoostedTrees(GBTs)。在分类和回归处理上,这两个算法久经验证,同时也是部署最广泛的两个方法。
xiao_jun_0820
·
2015-03-17 10:00
Apache Spark源码走读之22 -- 浅谈
mllib
中线性回归的算法实现
ApacheSpark源码走读之22--浅谈
mllib
中线性回归的算法实现欢迎转载,转载请注明出处,徽沪一郎。
javastart
·
2015-03-13 20:00
spark向量、矩阵类型
Array(1.0,2,3,4) arr:Array[Double]=Array(1.0,2.0,3.0,4.0)可以将它转换成一个Vector:scala>importorg.apache.spark.
mllib
.linalg
bluejoe2000
·
2015-03-12 10:00
Spark入门到精通视频学习资料--第六章:Machine Learning on Spark(1讲)
MLlib
isApacheSpark'sscalablemachinelearninglibrary.(如下图所示) 很明显:
MLlib
是一个广泛的机器学习的libray。
dongzhumao86
·
2015-03-04 13:00
learning
machine
Spark 1.2.1 发布,开源集群计算系统
Spark1.2.1发布,此版本是个维护版本,包括69位贡献者,修复了一些Spark的bug,包括核心API,Streaming,PySpark,SQL,GraphX和
MLlib
方面的。
黑肚皮的窝
·
2015-02-25 10:06
spark
Spark
MLlib
系列(二):基于协同过滤的电影推荐系统
前言随着大数据时代的到来,数据当中挖取金子的工作越来越有吸引力。利用Spark在内存迭代运算、机器学习领域强悍性能的优势,使用spark处理数据挖掘问题就显得很有实际价值。这篇文章给大家分享一个sparkMLlib的推荐实战例子。我将会分享怎样用sparkMLlib做一个电影评分的推荐系统。使用到的算法是user-based协同过滤。如果对SparkMLlib不太了解的,请阅读我的上一篇博客。推荐
shifenglov
·
2015-02-13 16:00
spark
机器学习
MLlib
协同过滤算法
[原]Spark
MLlib
系列(二):基于协同过滤的电影推荐系统
前言随着大数据时代的到来,数据当中挖取金子的工作越来越有吸引力。利用Spark在内存迭代运算、机器学习领域强悍性能的优势,使用spark处理数据挖掘问题就显得很有实际价值。这篇文章给大家分享一个sparkMLlib的推荐实战例子。我将会分享怎样用sparkMLlib做一个电影评分的推荐系统。使用到的算法是user-based协同过滤。如果对SparkMLlib不太了解的,请阅读我的上一篇博客。推荐
shifenglov
·
2015-02-13 16:00
Spark
MLlib
系列(一):入门介绍
前言最新的情况是国内BAT已经都上了spark,而且spark在hadoop上的应用,大有为大象插上翅膀的效果。个人估计在未来两到三年,spark大有代替hadoop的mapreduce的趋势。应该说spark的在使用上面的经济成本,性能优势,一站式解决能力,一定会使其大放异彩。因为个人对spark很感兴趣,加上项目中需要使用它解决一些机器学习的问题,在网上搜集资料时发现,sparkmachine
shifenglov
·
2015-02-12 15:00
hadoop
spark
机器学习
learning
machine
spark
mllib
k-means算法实现
packageiie.udps.example.spark.
mllib
;importjava.util.regex.Pattern;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaRDD
DF_XIAO
·
2015-02-09 11:19
spark
Spark
MLLib
示例
import org.apache.spark.
mllib
.tree.DecisionTree import org.apache.spark.
mllib
.util.MLUtils val data
南洋牧师
·
2015-02-03 17:00
Spark
MLlib
炼数成金课程1、机器学习分类1)监督学习,收集特征,把某一类特征归为归为一个目标,目标是由人标注的。如回归分析和统计分类,二元分类,如垃圾邮件判断。多远分类,如网页归为体育,新闻,政治等。2)无监督学习,没有认为标注,常见无监督学习有聚类。3)半监督学习,介于监督与无监督之间。4)增强学习,通过观察来学习学习做成如何的动作,每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈做出判断。2
escaflone
·
2015-02-01 20:00
sparkSQL1.1
Spark1.1.0中变化较大是sparkSQL和
MLlib
,sparkSQL1.1
·
2015-01-22 15:00
mr与spark的比较
spark生态圈更具优势,spark sql、spark streaming、spark graphx、spark
mllib
都基于spark core,之间可以无缝串联。
南洋牧师
·
2015-01-22 11:00
Spark 1.2 发布,开源集群计算系统
此版本包括Spark核心操作和性能改进;添加新的网络传输子系统,进行了较大的改进;SparkSQL引入了一个外部数据源的支持,支持Hive13;动态分区;fixed-precisiondecimaltype;
MLlib
openthings
·
2015-01-20 20:00
Spark1.1.1
MLlib
部分算法基础封装笔记
sc:SparkContextsummarystatistics概要统计valarray:Array[Double]=Array[Double](1.0,0.0,3.0)valarray2:Array[Double]=Array[Double](1.1,0.0,3.2)valarray3:Array[Double]=Array[Double](2.0,0.0,3.0)valdv:Vector=Ve
hzwljy
·
2015-01-06 09:21
spark
大数据
研究机器学习之
MLlib
实践经验
机器学习任务主要分为两种:SupervisedMachineLearning和 UnsupervisedMachineLearning。其中SupervisedMachineLearning主要包括Classification和Regression,UnsupervisedMachineLearning主要包括Clustering。除了这些核心的算法以外,还有一些辅助处理的模块,例如Preproc
fengbin2005
·
2015-01-04 21:00
机器学习
spark 1.1
mllib
中 NaiveBayes 源码阅读
代码:
mllib
/api/classification/NaiveBayes.scala模型主要是三个变量,labels存储类别,pi存储各个label的prior,thetamatrix存储各个词在各个类别中的条件概率
guoyilin
·
2014-12-30 18:00
源码
spark
NaiveBayes
spark
MLlib
决策树
1.决策树以及它的组合模型是在机器学习中常用的分类和回归方法。决策树结果容易解释,处理分类特征,可拓展到多类。决策树是一个贪婪算法,递归的二分特征空间。决策树预测具有相同的叶子节点的属于同一类标签。每次划分的时候,都从一系列可能的划分中选择最佳的,使得根节点的信息增益最大,argmax(s): IG(D,s)。IG(D,s)=Impurity(D)-a*Impurity(D1eft)-(1-a)
jhonephone
·
2014-12-12 17:00
spark on yarn运行产生缺jar包错误及解决办法
/bin/spark-submit\--classorg.apache.spark.examples.
mllib
.JavaALS\--masterlocal[*]\/opt/cloudera/parcels
mach_learn
·
2014-12-09 15:05
机器学习
spark
hadoop
yarn
Spark MLBase分布式机器学习系统入门:以
MLlib
实现Kmeans聚类算法
1.什么是MLBaseMLBase是Spark生态圈的一部分,专注于机器学习,包含三个组件:
MLlib
、MLI、MLOptimizer。
超人学院
·
2014-11-25 10:00
spark
MLhase
关于SparkMLlib的基础数据结构Spark-
MLlib
-Basics
此部分主要关于
MLlib
的基础数据结构1、本地向量
MLlib
的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种
canglingye
·
2014-11-20 17:00
spark
Matrix
MLlib
sparkSQL1.1入门
Spark1.1.0中变化较大是sparkSQL和
MLlib
,sparkSQL1.1.0主要
白乔
·
2014-11-18 15:15
大数据技术与系统
sparkSQL1.1入门
Spark1.1.0中变化较大是sparkSQL和
MLlib
,sparkSQL1.1
bluejoe2000
·
2014-11-18 15:00
sparkSQL1.1入门之一:为什么sparkSQL
Spark1.1.0中变化较大是sparkSQL和
MLlib
,sparkSQL1.1.0主要的变动有:增加了JDBC/ODBCServer(ThriftServer),用户可以在应用程序中连接
哭你吃完
·
2014-11-14 09:00
spark
sparksql
spark-
mllib
-TFIDF实现
TF就是词在一篇文章中的词频,IDF就是逆词频,IFIDF就是两者乘积,常用来表示词在文章中重要性,公式表示为:官网上给出使用IF-IDF的例子代码:objectTfIdfTest{ defmain(args:Array[String]){ valconf=newSparkConf().setAppName("TfIdfTest") valsc=newSparkContext(conf) /
suqier1314520
·
2014-11-04 15:00
spark
MLlib
TF-IDF
DenseVector
SparseVector
spark-
mllib
-kmeans向量表示和距离计算
mllib
在实现kmeans的过程中,对于距离的计算,使用了一些技巧。
suqier1314520
·
2014-11-04 15:00
spark
机器学习
源码分析
MLlib
kmeans
spark(1.1)
mllib
源码分析(三)-朴素贝叶斯
原创文章,转载请注明:转载自http://www.cnblogs.com/tovin/p/4042467.html本文主要以
mllib
1.1版本为基础,分析朴素贝叶斯的基本原理与源码一、基本原理理论上,
tovin
·
2014-10-22 16:00
学习
MLlib
半监督学习pptMLlib数据类型
MLlib
支持保存在本地的,或者由RDD所表示的分布式向量和矩阵。代数运算由Breeze和jblas支持。
jhonephone
·
2014-10-14 17:00
spark(1.1)
mllib
源码分析(二)-相关系数
原创文章,转载请注明:转载自http://www.cnblogs.com/tovin/p/4024733.html在sparkmllib1.1版本中增加stat包,里面包含了一些统计相关的函数,本文主要分析其中的相关系数计算的原理与实现:一、基本原理在stat包中实现了皮尔逊(Pearson)与斯皮尔曼(Spearman)两类相关系数的计算(1)Pearson:(x,y)协方差/[(x标准方差)*
tovin
·
2014-10-14 16:00
spark(1.1)
mllib
源码分析(一)-卡方检验
原创文章,转载请注明:转载自http://www.cnblogs.com/tovin/p/4019131.html在sparkmllib1.1版本中增加stat包,里面包含了一些统计相关的函数,本文主要分析其中的卡方检验的原理与实现:一、基本原理在stat包中实现了皮尔逊卡方检验,它主要包含以下两类(1)适配度检验(GoodnessofFittest):验证一组观察值的次数分配是否异于理论上的分配
tovin
·
2014-10-13 10:00
Apache Spark技术实战之5 -- SparkR的安装及使用
SparkR和Spark
MLLIB
将共同构建出Spark在机器学习方面的优势地
·
2014-09-28 21:00
apache
上一页
17
18
19
20
21
22
23
24
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他