E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MLlib
逻辑回归算法原理及Spark
MLlib
调用实例(Scala/Java/python)
逻辑回归算法原理:逻辑回归是一个流行的二分类问题预测方法。它是GeneralizedLinearmodels的一个特殊应用以预测结果概率。它是一个线性模型如下列方程所示,其中损失函数为逻辑损失:对于二分类问题,算法产出一个二值逻辑回归模型。给定一个新数据,由x表示,则模型通过下列逻辑方程来预测:其中。默认情况下,如果,结果为正,否则为负。和线性SVMs不同,逻辑回归的原始输出有概率解释(x为正的概
liulingyuan6
·
2016-12-01 11:43
MLlib
Spark
三种特征选择方法及Spark
MLlib
调用实例(Scala/Java/python)
VectorSlicer算法介绍:VectorSlicer是一个转换器输入特征向量,输出原始特征向量子集。VectorSlicer接收带有特定索引的向量列,通过对这些索引的值进行筛选得到新的向量集。可接受如下两种索引1.整数索引,setIndices()。2.字符串索引代表向量中特征的名字,此类要求向量列有AttributeGroup,因为该工具根据Attribute来匹配名字字段。指定整数或者字
liulingyuan6
·
2016-11-30 20:25
MLlib
Spark
Spark ALS推荐系统简单例子(python)
100k.zip#-*-coding:utf-8-*-#spark-submitmovie_rec.pyfrompysparkimportSparkConf,SparkContextfrompyspark.
mllib
.recommendationimportALS
walk walk
·
2016-11-30 10:53
数据挖掘
python
spark
二十种特征变换方法及Spark
MLlib
调用实例(Scala/Java/python)(一)
Tokenizer(分词器)算法介绍:Tokenization将文本划分为独立个体(通常为单词)。下面的例子展示了如何把句子划分为单词。RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下,参数“pattern”为划分文本的分隔符。或者,用户可以指定参数“gaps”来指明正则“patten”表示“tokens”而不是分隔符,这样来为分词结果找到所有可能匹配的情况。示例调用:Sc
liulingyuan6
·
2016-11-29 19:15
MLlib
Spark
三种文本特征提取(TF-IDF/Word2Vec/CountVectorizer)及Spark
MLlib
调用实例(Scala/Java/python)
SparkMLlib提供三种文本特征提取方法,分别为TF-IDF、Word2Vec以及CountVectorizer其各自原理与调用代码整理如下:TF-IDF算法介绍:词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档d中出现的次数。文件频率DF(
liulingyuan6
·
2016-11-29 11:52
MLlib
Spark
数据挖掘
机器学习
算法
MLlib
异常用户发现(Spark
MLlib
+Spark SQL+DataFrame)
环境:Amabri2.2.2、HDP2.4.2、Spark1.6.1***这是我自己东拼西凑整出来的,错误在所难免,但应该也有部分可借鉴之处...***整体思路:对原始数据提取特征后,使用KMeans做聚类,把元素明显少的类视为异常类,类中的用户视为异常用户,打上标签,之后用随机森林进行分类,训练出模型后对新数据进行分类,找出异常用户。之前统计分析、特征工程部分用的MySQL,聚类用了R和Maho
光于前裕于后
·
2016-11-25 16:31
Hadoop
Spark
大数据动物园
数据挖掘
Spark
MLlib
RandomForest(随机森林)建模与预测
所以对原始数据进行清洗、特征工程、降维后用Mahout/R做的聚类,打上了标签,本来打算继续用Mahout/R做分类,Mahout太慢,而用R实现KNN、RandomForest之后发现无法应用到真实项目上,所以用了
MLlib
光于前裕于后
·
2016-11-21 12:57
Spark
大数据动物园
数据挖掘
R
Spark
MLlib
RandomForest(随机森林)建模与预测
所以对原始数据进行清洗、特征工程、降维后用Mahout/R做的聚类,打上了标签,本来打算继续用Mahout/R做分类,Mahout太慢,而用R实现KNN、RandomForest之后发现无法应用到真实项目上,所以用了
MLlib
光于前裕于后
·
2016-11-21 12:57
Spark
大数据动物园
数据挖掘
R
使用Spark
MLlib
训练和提供自然语言处理模型
SparkML和
MLlib
中的机器学习库使得我们可以创建一个自适应的机器智能环境,可以分析任何语言的文本,而且是远超过Twitter每秒产生的单词数量规模的文本量。
a3301
·
2016-11-19 12:31
整理系列-20161111-Spark学习周记_4
Spark机器学习2016.02.29NeuralNetworksandDeepLearning.MichaelNielsen.2016.02.29尹绪森.Spark与
MLlib
:当机器学习遇见分布式系统
u012251305
·
2016-11-12 00:00
spark
机器学习
Spark
MLlib
做 K-means 聚类分析
第4部分:使用SparkMLlib做K-means聚类分析https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice4/
MLlib
葡萄喃喃呓语
·
2016-11-11 18:06
使用
mllib
的的贝叶斯算法进行文本分类
原理解释:用朴素贝叶斯进行文本分类代码解释:SparkMLlib实现的中文文本分类–NaiveBayes模型训练importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.ml.feature.HashingTFimportorg.apache.spark.ml.feature.
csdncjh
·
2016-10-17 17:37
spark
Spark
MLLib
简介
SparkMLLibMLMachineLearningDataScienceStepsinaMachineLearningProgramRecommandationEngineFraudDetectionSparkMLlibSparkMLDataPipelinesMLPipelineComponentsSparkMLLib&MLSpark机器学习API包含两个package:spark.
mllib
HoiDev
·
2016-10-16 21:13
Spark
Spark
MLlib
— Word2Vec
Word2vec是Google在2013年开源的一款将词表征为实数值向量的高效工具。能够将单词映射到K维向量空间,同时由于算法考虑了每个单词的上下文环境,因此词向量表示同时具有语义特性。本文对Word2Vec的算法原理以及其在sparkMLlib中的实现进行了对应分析。(PS:第一次用latex打这么多公式,真是心累~)1.背景知识1.1词向量NLP中词向量通常有两种表示方式:One-hotRep
zhangchen2449
·
2016-10-12 11:00
算法
spark
使用Spark
MLlib
训练和提供自然语言处理模型
SparkML和
MLlib
中的机器学习库使得我们可以创建一个自适应的机器智能环境,可以分析任何语言的文本,而且是远超过Twitter每秒产生的单词数量规模的文本量。
OReillyData
·
2016-10-12 07:03
Mllib
系列之决策树
决策树是机器学习领域的经典算法之一,这里借鉴了一位博友的博客文章http://blog.sina.com.cn/s/blog_8095e51d01013chj.html.决策树并不需要很强的数学知识,理解上面也比较直观.首先看如下的一组数据:(各个属性的含义:年龄,0:青年,1:中年.身高,0:高,1:低.收入,0:低,1:高,满意度,0:不满意,1:满意)客户ID年龄身高收入满意度 001001
sihuahaisifeihua
·
2016-10-06 11:00
spark
机器学习
MLlib
spark-
mllib
-lda 实践与说明
一、
MLlib
简介
MLlib
是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。
红红火火恍恍惚惚
·
2016-10-01 21:46
机器学习
Spark
Mllib
回归学习笔记一(java):线性回归(线性,lasso,岭),广义回归
本博使用spark2.0.0版本,对于每一个回归这里不详讲原理,附上链接,有兴趣的伙伴可以点开了解。其他参考资料:官方文档官方接口文档线性回归线性拟合,就是预测函数是一条直线,对于眼前一堆分布貌似有规律的点,我们假定一条直线拟合这些点:h(x)=a0+a1x1+a2x2+..+anxn方程系数ai是我们要求的变量xi是i个变量或者说属性J(θ)是损失函数(也称成本函数):我们假定的这条直线的输出与
yinglish_
·
2016-10-01 16:56
java
spark
spark
java
机器学习
mllib
回归
Spark
MLlib
学习笔记之二——Spark
Mllib
矩阵向量
但是在
MLlib
里面同时也提供了Vector和Linalg等的实现。在使用Breeze库时,需要导入相关包:Importbreeze.linalg._Importbreeze.numeric.
hoikin-yiu
·
2016-09-25 15:58
机器学习&推荐系统
pyspark中使用categoricalFeaturesInfo来标记分类型变量
/usr/bin/python3#-*-coding:utf-8-*-frompysparkimportSparkContext,SparkConffrompyspark.
mllib
.regressionimportLabeledPointfrompyspark.
mllib
.classificationimportLogisticRegressionWi
老胡当道卧
·
2016-09-23 16:58
spark
将hdfs上多个文本数据生成
mllib
的训练集测试集
每个文本有一列数据,将选中的几个文本按要求合并为训练集供机器学习算法使用将单个文本的hdfs路径设置为参数,提高程序的通用性,将所有文本都追加为一个数组,随后按规定切分读写,速度不是很慢。测试效果还可以packagepackimportjava.io.{File,PrintWriter}importorg.apache.spark.{SparkConf,SparkContext}importsca
鱼香土豆丝
·
2016-09-23 10:24
机器学习
Spark
MLlib
之矩阵
SparkMLlib的底层组件
MLlib
的数据存储本地本地向量Localvector标记向量Labeledpoint稀疏数据SparseData本地矩阵Localmatrix分布式矩阵Distributedmatrix
HoiDev
·
2016-09-19 13:34
Spark
spark2.0中逻辑回归模型
今天上午看了下spark2.0中的逻辑回归模型,相比以前
mllib
版本确实改进不少,逻辑回归模型再次不再多说,原理较为简单,模型中的一些参数设定,自己要主要,代码主要是用maven跟git进行管理,数据是官方自带的数据
旭旭_哥
·
2016-09-03 11:56
apache
spark
Spark四大组件包括Spark Streaming、Spark SQL、Spark
MLlib
和Spark GraphX。
Spark四大组件包括SparkStreaming、SparkSQL、SparkMLlib和SparkGraphX。它们的主要应用场景是:SparkStreaming:SparkStreaming基于微批量方式的计算和处理,可以用于处理实时的流数据。它使用DStream,简单来说就是一个弹性分布式数据集(RDD)系列,处理实时数据。SparkSQL:SparkSQL可以通过JDBCAPI将Spar
山鹰的天空
·
2016-08-31 14:57
spark
Windows下Spark-mlib保存模型到本地报空指针解决方案
代码如下:importorg.apache.spark.
mllib
.classification.
早上好小桑葚
·
2016-08-26 19:28
spark
异常
mlib
空指针
Spark
Spark2.0机器学习系列之3:决策树及Spark 2.0-
MLlib
、Scikit代码分析
概述分类决策树模型是一种描述对实例进行分类的树形结构。决策树可以看为一个if-then规则集合,具有“互斥完备”性质。决策树基本上都是采用的是贪心(即非回溯)的算法,自顶向下递归分治构造。生成决策树一般包含三个步骤:特征选择决策树生成剪枝决策树算法种类决策树主要有ID3,C4.5,C5.0andCART几种,ID3,C4.5,和CART实际都采用的是贪心(即非回溯)的算法,自顶向下递归分治构造。对
千寻千梦
·
2016-08-26 18:45
ml
spark
spark
机器学习
Spark大数据学习资源汇总
AMPLab官网Databricks博客2Spark生态系统资源分享2.1SparkSparkhanson教程2.2SparkSQLandShark2.3GraphX2.4SparkStreaming2.5
MLlib
3Spa
kingzone_2008
·
2016-08-24 15:58
Spark
数据产品设计专题(5)- 分布式数据仓库技术架构
一、分布式数据仓库技术架构 二、核心内容解读 (1)分布式数据仓库存储技术:hive+hdfs; (2)事实计算平台技术框架:spark; (3)数据挖掘算法技术框架:
mllib
+sparkR
张子良
·
2016-08-19 08:00
安装sparklyr包过程中遇到的几个ERROR
该包具有以下几个功能:实现R与Spark的连接—sparklyr包提供了一个完整的dplyr后端筛选并聚合Spark数据集,接着在R中实现分析与可视化利用Spark的
MLlib
机器学习库在R中实现分布式机器学习算法可以创建一个扩展
faith默默
·
2016-08-12 19:28
R
Spark
完美解决 Spark:java.net.URISyntaxException: Relative path in absolute URI: file:D:/XXX/SparkFaultBench/spark-warehouse
varspark=SparkSession.builder().master("local").appName("spark_
mllib
").getOrCreate()运行发现如下错误:16/08/1115
Codlife一王家二公子
·
2016-08-11 15:02
如何做Spark 版本兼容
案例在Spark1.6时,大部分机器学习相关的类使用的向量还是org.apache.spark.
mllib
.linalg.V
祝威廉
·
2016-08-05 21:00
spark
mllib
协同过滤算法,基于余弦相似度的用户相似度计算
为什么80%的码农都做不了架构师?>>>运行代码如下/***协同过滤算法,基于余弦相似度的用户相似度计算*一般来说欧几里得相似度用来表现不同目标的绝对差异性,分析目标之间的相似性与差异情况.*而余弦相似度更多的是对目标从前进趋势上进行区分.*/packagespark.collaborativeFilteringimportorg.apache.spark.{SparkConf,SparkCont
weixin_33963189
·
2016-07-27 16:00
人工智能
大数据
java
Flume+Spark+Hive+Spark SQL离线分析系统
还提供了许多功能强大的组件,比如说,SparkStreaming组件做实时计算,和Kafka等消息系统也有很好的兼容性;SparkSql,可以让用户通过标准SQL语句操作从不同的数据源中过来的结构化数据;还提供了种类丰富的
MLlib
若水三千你是一千
·
2016-07-27 10:23
Spark
Flume+Spark+Hive+Spark SQL离线分析系统
还提供了许多功能强大的组件,比如说,SparkStreaming组件做实时计算,和Kafka等消息系统也有很好的兼容性;SparkSql,可以让用户通过标准SQL语句操作从不同的数据源中过来的结构化数据;还提供了种类丰富的
MLlib
ymh198816
·
2016-07-27 03:00
spark
hive
Flume
spark高级数据分析---网络流量异常检测(升级实战)
今天花了很长时间写完和完整的运行测试完这个代码,篇幅很长,都是结合我前面写的加上自己完善的异常检测部分,废话不多说,直接代码实战:packageinternetimportorg.apache.spark.
mllib
.clustering
汪本成
·
2016-07-24 22:10
大数据-SparkMllib
Spark上的决策树(Decision Tree On Spark)
MLlib
正好是以Spark为基础的开源机器学习库,便借机学习
MLlib
是如何利用Spark实现分布式决策树。
aws3217150
·
2016-07-15 14:00
scala
spark
分布式
机器学习
机器学习库(
MLlib
)指南
机器学习库(
MLlib
)指南
MLlib
是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。
oywl2008
·
2016-07-10 15:44
修改后的电影推荐系统(基于
MLlib
、SparkSQL、MYSQL、HDFS)
之前写的太简单,这次加点存储和修改点代码来做次比较完善的推荐流程,但是只是基于离线,没有写实时模块,大家可以关注,接下来有时间会写到代码如下:packagemllib importjava.text.SimpleDateFormat importjava.util.Date importorg.apache.log4j.{Level,Logger} importorg.apache.spark
sinat_31726559
·
2016-07-06 11:00
SparkML之特征提取(一)主成分分析(PCA)
--------------------------目录--------------------------------------------------------理论和数据见附录Spark源码(
mllib
legotime
·
2016-07-06 07:00
源码
spark机器学习
Spark.
MLlib
之线性分类模型学习笔记
在Spark的学习过程中
MLlib
的学习至关重要,分类模型作为其中的一个重要模块应对其有更深的了解。
McQueen64
·
2016-07-02 18:25
Spark
Spark入门实战系列--8.Spark
MLlib
(上)--机器学习及SparkMLlib简介
http://www.cnblogs.com/shishanyuan/p/4747761.html1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验,以此优化计算机程序的性能
oLevin
·
2016-06-27 20:00
【Spark
Mllib
】TF-IDF&Word2Vec——文本相似度
http://blog.csdn.net/u011239443/article/details/517286591从数据中抽取合适的特征1.1TF-IDF短语加权表示TF-IDF公式的含义是:在一个文档中出现次数很多的词相比出现次数少的词应该在词向量表示中得到更高的权值。而IDF归一化起到了减弱在所有文档中总是出现的词的作用。最后的结果就是,稀有的或者重要的词被给予了更高的权值,而更加常用的单词(
卓寿杰_SoulJoy
·
2016-06-21 16:02
Spark
机器学习
自然语言处理
Spark机器学习
【Spark
Mllib
】K-均值聚类——电影类型
http://blog.csdn.net/u011239443/article/details/51707802K-均值聚类K-均值算法试图将一系列样本分割成K个不同的类簇(其中K是模型的输入参数),其形式化的目标函数称为类簇内的方差和(withinclustersumofsquarederrors,WCSS)。K-均值聚类的目的是最小化所有类簇中的方差之和。标准的K-均值算法初始化K个类中心(为
卓寿杰_SoulJoy
·
2016-06-18 23:26
机器学习
Spark
基于spark ALS做的电影推荐,参考网上的做的,能跑起来
._ importorg.apache.spark.
mllib
.recommendation.
sinat_31726559
·
2016-06-10 01:00
MLlib
数据类型
我们建议通过 Vectors中实现的工厂方法来创建本地向量:(注意:Scala语言默认引入的是 scala.collection.immutable.Vector,为了使用
MLlib
的Vector,你必须显示引入
sinat_29581293
·
2016-06-03 22:00
Spark Sreaming与
MLlib
机器学习
SparkSreaming与
MLlib
机器学习本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写LearningSpark最后一部分内容了。
HackerVirus
·
2016-05-30 22:00
【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与
MLlib
机器学习
第10-11章主要讲的是SparkStreaming和
MLlib
方面的内容。我们知道Spark在离线处理数据上的性能很好,那么它在实时数据上的表现怎么样呢?
Charlotte77
·
2016-05-30 12:00
【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与
MLlib
机器学习
第10-11章主要讲的是SparkStreaming和
MLlib
方面的内容。我们知道Spark在离线处理数据上的性能很好,那么它在实时数据上的表现怎么样呢?
Charlotte77
·
2016-05-30 12:00
spark简介
并且提供了用于机器学习(
MLlib
),流计算(Streaming),图计算(GraphX)等子模块,1.4.0版本更是提供了与R语言的集成,这使得Spark几乎成为了多领域通吃的全能技术。
gongpulin
·
2016-05-29 23:00
spark 数据类型(Data Types)
在有监督机器学习中,
MLlib
使用标记点(labeledpoint
mllhxn
·
2016-05-29 00:07
spark
上一页
14
15
16
17
18
19
20
21
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他