E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark机器学习
SparkML-初探-文本分类
Spark机器学习
文本分类背景相关知识分词英文分词中文分词词向量转化工具TF-IDFWord2Vec回归和分类回归模型分类模型实践总结背景由于项目组需要对爬虫获取的文本进行归类,最初使用正则表达式按照想到的规则进行解析分类
it_xhf
·
2018-11-25 20:24
spark
机器学习
人工智能初学--
spark机器学习
whatisspark?spark是一种对大规模数据集进行处理的快速而公用的计算引擎。spark据用四大特性,高效,简单易用,通用性,以及可以运行在任何地方。spark提供了核心抽象,即RDD,RDD是一种集群节点数据的集合,提供了并行操作的APIwhatisSparkMlib?Mlib基于Spark的一种机器学习库,目标是提供一个简单易用,扩展性强的机器学习库,主要包括常用的算法和工具类,包括分
linzihahaha
·
2018-11-13 21:33
AI
我从事技术的这些年(第八年)
阅读更多学习AINLP,
spark机器学习
学习AINLP,
spark机器学习
学习AINLP,
spark机器学习
学习AINLP,
spark机器学习
学习AINLP,
spark机器学习
学习AINLP,
spark
男人50
·
2018-11-04 20:00
3
Spark机器学习
spark MLlib 矩阵向量、矩阵运算Breeze库-1
机器学习里矩阵是必不可少的,无论Python、Java能做机器学习的语言,都会提供比较优质的矩阵库。sparkmllib中提供的矩阵库是Breeze,可以简单看看Breeze库的情况。ScalaNLP是一套机器学习和数值计算的库,主要是关于科学计算、机器学习和自然语言处理(NLP)的,里面包含三个库,Breeze、Epic和Puck。其中Breeze是机器学习和数值计算库,Epic是一种高性能统计
天涯泪小武
·
2018-09-20 15:38
机器学习
spark
2
Spark机器学习
spark MLlib Statistics统计入门
spark中比较核心的是RDD操作,主要用于对数据的处理、转换。在机器学习中,数据的处理也非常重要,矩阵、统计什么的都很常见。这一篇看一下Statistics统计相关的操作。本系列文章是边看书学边写,书是看的黄美灵的sparkmllib机器学习。我会抽取比较靠谱的有用的知识写成文章。MLlibStatistics是基础统计模块,能对RDD数据进行统计,包括汇总统计、相关系数、分层抽样、假设检验、随
天涯泪小武
·
2018-09-18 16:16
机器学习
spark
1
Spark机器学习
spark MLlib 入门
开始学习sparkml了,都知道spark是继hadoop后的大数据利器,很多人都在使用spark的分布式并行来处理大数据。spark中也提供了机器学习的包,就是MLlib。MLlib中也包含了大部分常用的算法,分类、回归、聚类等等,借助于spark的分布式特性,机器学习在spark将能提高很多的速度。MLlib底层采用数值计算库Breeze和基础线性代数库BLAS。还是从helloworld开始
天涯泪小武
·
2018-09-17 10:14
机器学习
Spark-KMeans聚类分析
目录
Spark机器学习
库简介K-means聚类算法原理K-means实现运行示例K值的选择
Spark机器学习
库简介MLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习可扩展且简单。
雷禄辉
·
2018-09-14 14:27
算法
Spark机器学习
中的正则化项的理解
正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的
那记忆微凉
·
2018-08-13 15:59
Spark
大数据技术学习路线
目录学习规划技术说明大数据技术基础离线计算Hadoop流式计算Storm内存计算
Spark机器学习
算法学习规划总共分为五大部分,分别是:大数据技术基础离线计算Hadoop流式计算Storm内存计算
Spark
哎呦、不错哦
·
2018-08-11 23:34
大数据
Spark机器学习
案例 spark-example: spark mllib example
#这是一个SparkMLlib实例##1K-means基础实例###1.1数据准备准备好如下数据:0.00.00.00.10.10.10.20.20.29.09.09.09.19.19.19.29.29.20.30.20.29.19.59.10.20.20.20.10.20.28.99.59.1命名为kmeans_data.txt,且上传到hdfs的/spark/mllib/data/路径中。##
·
2018-08-03 22:00
Redis在Centos7(只有基本依赖)中无法安装问题
最近因为公司项目较忙,没空写下日常遇到的问题,待公司项目完成后,也会根据公司项目遇到的问题写一篇文章(Springboot的
Spark机器学习
)。
嘎嘎哇啦哈
·
2018-08-01 21:05
Spark机器学习
之线性回归---LinearRegression
版本1:importorg.apache.spark.SparkContextimportorg.apache.spark.mllib.regression.LinearRegressionWithSGDimportorg.apache.spark.mllib.regression.LabeledPoint/***Createdbyshaokaion14-9-12.*/objectLinearRe
那记忆微凉
·
2018-07-19 21:07
机器学习
Spark Machine Learning Library(MLlib)
MLlib:
Spark机器学习
(ML)库,包含:ML算法:分类classification,回归regression,聚类clustering,协同过滤collaborativefiltering特征化
0_0
·
2018-07-05 15:43
Spark
ML
spark ML之特征处理(1)
我的原创地址:https://dongkelun.com/2018/05/17/sparkMlFeatureProcessing1/前言最近在学习总结机器学习常用算法,在看
spark机器学习
决策树的官方示例时
董可伦
·
2018-05-18 16:06
spark
大数据
ml
Spark
spark 将DataFrame所有的列类型改为double
我的原创地址:https://dongkelun.com/2018/04/27/dfChangeAllColDatatypes/前言由于
spark机器学习
要求输入的DataFrame类型为数值类型,所以如果原始数据读进来的列为
董可伦
·
2018-05-09 17:14
spark
大数据
scala
DataFrame
Spark
Py
Spark机器学习
(4)——KMeans和GMM
本文主要在PySpark环境下实现经典的聚类算法KMeans(K均值)和GMM(高斯混合模型),实现代码如下所示:1.KMeans实现代码:%pysparkfrompyspark.ml.clusteringimportKMeansfrompyspark.ml.featureimportStringIndexerfrompyspark.ml.linalgimportVectors#1.读取数据,构造
飞鸟2010
·
2018-05-07 15:27
PySpark机器学习
Py
Spark机器学习
(3)——LR和SVM
本文主要在PySpark环境下实现LR和SVM算法,实现代码如下所示:1.LR实现代码:%pysparkfrompyspark.sqlimportRowfrompyspark.ml.linalgimportVectorsfrompyspark.ml.classificationimportLogisticRegression#1.训练#1.1读取数据trainData=spark.sql("""s
飞鸟2010
·
2018-05-03 16:46
PySpark机器学习
Py
Spark机器学习
(1)——随机森林
本文主要在PySpark环境中实现随机森林算法:%pysparkfrompyspark.ml.linalgimportVectorsfrompyspark.ml.featureimportStringIndexerfrompyspark.ml.classificationimportRandomForestClassifierfrompyspark.sqlimportRow#任务目标:通过随机森林
飞鸟2010
·
2018-04-23 18:36
PySpark机器学习
ALS推荐算法
在我的机器学习学习和实践之路的一个本书是《
Spark机器学习
》,这本书虽然比较旧,但是写的还是比较好。书里讲了各种常见的机器学习算法,并且在spark平台上进行了实战。
CWS_chen
·
2018-04-09 13:22
推荐系统
Spark机器学习
之特征提取、选择、转换
本节介绍了处理特征的算法,大致分为以下几组:1、提取:从“原始”数据提取特征2、转换:缩放,转换或修改要素3、选择:从一组较大的要素中选择一个子集4、局部敏感哈希(LSH):这类算法将特征变换的方面与其他算法相结合。1、特征提取1.1TF-IDF(termfrequency–inversedocumentfrequency/词频-逆文本/文档频率)词频-逆文本频率(TF-IDF)是在文本挖掘中广泛
meng_shangjy
·
2018-04-03 09:16
Spark视频王家林大神 第7课:
Spark机器学习
内幕剖析
Spark视频王家林大神第7课:
Spark机器学习
内幕剖析本节讲解
Spark机器学习
内幕,
Spark机器学习
的本质是什么,
Spark机器学习
的内部构成到底是什么?
段智华
·
2018-01-26 21:12
AI
&
Big
Data案例实战课程
《
Spark机器学习
》笔记——Spark Streaming 在实时机器学习中的应用
此前我们一直讨论的是批量数据处理,也就是我们所有的分析、特征提取和模型训练都被应用于一组固定不变的数据。这很好地适用于Spark对RDD的核心抽象,即不可变的分布式数据集。尽管可以使用Spark的转换函数和行动算子从原始的RDD创建新RDD,但是RDD一旦创建,其中包含的数据就不会改变。我们的注意力一直集中于批量机器学习模型,训练模型的固定训练集通常表示为一个特征向量(在监督学习模型的例子中是标签
土豆拍死马铃薯
·
2018-01-20 19:28
大数据
《
Spark机器学习
》笔记——Spark应用于数据降维
我们将学习无监督学习模型中降低数据维度的方法。不同于我们之前学习的回归、分类和聚类模型,降维方法并不是用来做模型预测的。降维方法从一个D维的数据输入提取出一个远小于D的k维表示。因此,降维本身是一种预处理方法,或者说特征转换的方法。降维方法中最重要的是:被抽取出的维度表示应该仍能捕捉大部分的原始数据的变化和结构。这源于一个基本思想:大部分数据源包含某种内部结构,这种结构一般来说应该是未知的(常称为
土豆拍死马铃薯
·
2018-01-18 20:12
大数据
机器学习
《
Spark机器学习
》笔记——Spark构建聚类模型
importbreeze.plot.{Figure,hist,plot}importorg.apache.spark.mllib.clustering.KMeansimportorg.apache.spark.mllib.linalg.Vectorsimportorg.apache.spark.mllib.linalg.distributed.RowMatriximportorg.apache.s
土豆拍死马铃薯
·
2018-01-16 21:11
大数据
《
Spark机器学习
》笔记——Spark高级文本处理技术(NLP、特征哈希、TF-IDF、朴素贝叶斯多分类、Word2Vec)
importorg.apache.spark.mllib.classification.NaiveBayesimportorg.apache.spark.mllib.evaluation.MulticlassMetricsimportorg.apache.spark.mllib.feature.{HashingTF,IDF,Word2Vec}importorg.apache.spark.{Spar
土豆拍死马铃薯
·
2018-01-10 21:03
大数据
《
Spark机器学习
》笔记——Spark分类模型(线性回归、朴素贝叶斯、决策树、支持向量机)
一、分类模型的种类1.1、线性模型1.1.1、逻辑回归1.2.3、线性支持向量机1.2、朴素贝叶斯模型1.3、决策树模型二、从数据中抽取合适的特征MLlib中的分类模型通过LabeledPoint(label:Double,features:Vector)对象操作,其中封装了目标变量(标签)和特征向量从Kaggle/StumbleUponevergreen分类数据集中抽取特征该数据集设计网页中推荐
土豆拍死马铃薯
·
2018-01-06 12:35
大数据
机器学习
构建基于Spark的推荐引擎(Python)
构建基于Spark的推荐引擎(Python)推荐引擎背后的想法是预测人们可能喜好的物品并通过探寻物品之间的联系来辅助这个过程在学习
Spark机器学习
这本书时,书上用scala完成,自己不熟悉遂用pyshark
NULL
·
2017-12-19 18:00
机器学习
大数据
python
spark
Spark机器学习
环境搭建
最近几天在研究上拉加载啊,下拉刷新啊什么的。然而坑爹的事情总是那么多。在xamarin.forms中,list自带的,并没有上拉加载的这个属性(难道当初他们封装方法时,就不会想到数据多了会咋整吗?)抱怨归抱怨,问题总是要解决的。既然没有,那就自己写一个喽~思路我的思路是这样的,什么是上拉刷新,那是不是就是说,在当前页面,看到最后一个item的时候,我需要加载一些新的数据,那我是不是可以写一个,只要
xianyingyi
·
2017-10-12 00:07
s
二
Spark机器学习
MLlib: LogisticRegression
一MLlib简单介绍MLllib目前分为两个代码包:spark.mllib包含基于RDD的原始算法API。spark.ml则提供了基于DataFrames高层次的API,可以用来构建机器学习管道。本文用基于DataFrame的API,DataFrame结构与MySQL表基本一致,处理数据比较方便。基于DataFrame的API,包名为:org.apache.spark.ml.*;数据对象引用地址为
drawsky
·
2017-09-19 23:16
spark快速大数据分析
spark机器学习
电影推荐
packagerecommendimportorg.apache.log4j.{Level,Logger}importorg.apache.spark.mllib.recommendation.{ALS,MatrixFactorizationModel,Rating}importorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.SparkSess
光与热
·
2017-09-07 09:35
spark
机器学习
Spark机器学习
之协同过滤算法使用-Java篇
协同过滤通常用于推荐系统,这些技术旨在填补用户和项目关联矩阵里面缺少的值。Spark目前实现基于模型的协同过滤,其中模型的用户和项目由一组小的潜在因素所描述,可用于预测缺少的值。Spark使用交替最小二乘法alternatingleastsquares(ALS)算法来学习这些潜在因素。1.ALS的参数numBlocks:用户和项目将会被分区的块数,以便并行化计算(默认值为10)rank:模型中潜在
煉心_
·
2017-08-30 17:14
Spark
Spark on Angel:
Spark机器学习
的核心加速器
Spark的核心概念是RDD,而RDD的关键特性之一是其不可变性,来规避分布式环境下复杂的各种并行问题。这个抽象,在数据分析的领域是没有问题的,它能最大化的解决分布式问题,简化各种算子的复杂度,并提供高性能的分布式数据处理运算能力。然而在机器学习领域,RDD的弱点很快也暴露了。机器学习的核心是迭代和参数更新。RDD凭借着逻辑上不落地的内存计算特性,可以很好的解决迭代的问题,然而RDD的不可变性,却
腾讯开源
·
2017-08-02 00:00
机器学习
Spark机器学习
(12):神经网络算法
1.神经网络基础知识1.1神经元神经网络(NeuralNet)是由大量的处理单元相互连接形成的网络。神经元是神经网络的最小单元,神经网络由若干个神经元组成。一个神经元的结构如下:上面的神经元x1,x2,x3和1是输入,hw,b(x)是输出。其中f(x)是激活函数,常用的激活函数有sigmoid函数和tanh(双曲正切)函数。sigmoid函数:tanh(双曲正切)函数:1.2神经网络神经网络由若干
MSTK
·
2017-07-27 17:00
Spark机器学习
(11):协同过滤算法
协同过滤(CollaborativeFiltering,CF)算法是一种常用的推荐算法,它的思想就是找出相似的用户或产品,向用户推荐相似的物品,或者把物品推荐给相似的用户。怎样评价用户对商品的偏好?可以有很多方法,如用户对商品的打分、购买、页面停留时间、保存、转发等等。得到了用户对商品的偏好,就可以给用户推荐商品。有两种方法:用户A喜欢物品1,商品2和物品1很相似,于是把物品2推荐给用户A;或者用
MSTK
·
2017-07-21 19:00
Spark机器学习
(10):ALS交替最小二乘算法
1.AlternatingLeastSquareALS(AlternatingLeastSquare),交替最小二乘法。在机器学习中,特指使用最小二乘法的一种协同推荐算法。如下图所示,u表示用户,v表示商品,用户给商品打分,但是并不是每一个用户都会给每一种商品打分。比如用户u6就没有给商品v3打分,需要我们推断出来,这就是机器学习的任务。由于并不是每个用户给每种商品都打了分,可以假设ALS矩阵是低
MSTK
·
2017-07-19 23:00
Spark机器学习
(9):FPGrowth算法
关联规则挖掘最典型的例子是购物篮分析,通过分析可以知道哪些商品经常被一起购买,从而可以改进商品货架的布局。1.基本概念首先,介绍一些基本概念。(1)关联规则:用于表示数据内隐含的关联性,一般用X表示先决条件,Y表示关联结果。(2)支持度(Support):所有项集中{X,Y}出现的可能性。(3)置信度(Confidence):先决条件X发生的条件下,关联结果Y发生的概率。2.Apriori算法Ap
MSTK
·
2017-07-16 20:00
Spark机器学习
(8):LDA主题模型算法
1.LDA基础知识LDA(LatentDirichletAllocation)是一种主题模型。LDA一个三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA是一个生成模型,可以用来生成一篇文档,生成时,首先根据一定的概率选择一个主题,然后在根据概率选择主题里面的一个单词,这样反复进行,就可以生成一篇文档;反过来,LDA又是一种非监督机器学习技术,可以识别出大规模文档集或语料库中的主题。LDA原始
MSTK
·
2017-07-12 12:00
Spark机器学习
(7):KMenas算法
KMenas算法比较简单,不详细介绍了,直接上代码。importorg.apache.log4j.{Level,Logger}importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.mllib.linalg.Vectorsimportorg.apache.spark.mllib.clustering._/***Cr
MSTK
·
2017-07-11 18:00
Spark机器学习
(6):决策树算法
1.决策树基本知识决策树就是通过一系列规则对数据进行分类的一种算法,可以分为分类树和回归树两类,分类树处理离散变量的,回归树是处理连续变量。样本一般都有很多个特征,有的特征对分类起很大的作用,有的特征对分类作用很小,甚至没有作用。如决定是否对一个人贷款是,这个人的信用记录、收入等就是主要的判断依据,而性别、婚姻状况等等就是次要的判断依据。决策树构建的过程,就是根据特征的决定性程度,先使用决定性程度
MSTK
·
2017-07-06 21:00
Spark机器学习
(5):SVM算法
1.SVM基本知识SVM(SupportVectorMachine)是一个类分类器,能够将不同类的样本在样本空间中进行分隔,分隔使用的面叫做分隔超平面。比如对于二维样本,分布在二维平面上,此时超平面实际上是一条直线,直线上面是一类,下面是另一类。定义超平面为:f(x)=w0+wTx可以想象出,这样的直线可以有很多条,到底哪一条是超平面呢?规定超平面应该是距离两类的最近距离之和最大,因为只有这样才是
MSTK
·
2017-07-05 23:00
解决Spark导入jblas包提示不存在的问题
最近仍然在研究《
Spark机器学习
》,在学习到4.4.2节“物品推荐”时,需要用到jblas包,书中一如既往地直接粗暴导入importorg.jblas.DoubleMatrix,然后便提示包不存在,陷入僵局上网查询解决办法
chun19920827
·
2017-07-04 16:27
Spark机器学习
(Chapter 04)推荐系统
代码:#coding:utf-8frompysparkimportSparkContextsc=SparkContext("local[4]","MovieLensSparkApp")rawData=sc.textFile("../02/ml-100k/u.data")printrawData.first()rawRating=rawData.map(lambdax:x.split('\t'))p
星之空殇
·
2017-06-26 22:19
spark
spark机器学习
(Chapter 03)--使用spark-python进行数据预处理和特征提取
1、首先需要准备MovieLens数据集,并查看数据基本情况数据主要包含3个数据集:u.data,是用户对电影的评分数据,u.item是电影的基本数据,u.user是用户的基本数据。2、数据分析及可视化表示2.1用户数据分析及可视化对用户数据进行基本统计如下:#coding:utf-8frompysparkimportSparkContextsc=SparkContext("local[4]","
星之空殇
·
2017-06-24 23:03
spark
Spark机器学习
(4):朴素贝叶斯算法
1.贝叶斯定理条件概率公式:这个公式非常简单,就是计算在B发生的情况下,A发生的概率。但是很多时候,我们很容易知道P(A|B),需要计算的是P(B|A),这时就要用到贝叶斯定理:2.朴素贝叶斯分类朴素贝叶斯分类的推导过程就不详述了,其流程可以简单的用一张图来表示:举个简单的例子来说,下面这张表说明了各地区的人口构成:这个时候如果一个黑皮肤的人走过来(一个待分类项(0,0,1)),他是来自欧美,亚洲
MSTK
·
2017-06-23 14:00
Spark机器学习
(3):保序回归算法
保序回归即给定了一个无序的数字序列,通过修改其中元素的值,得到一个非递减的数字序列,要求是使得误差(预测值和实际值差的平方)最小。比如在动物身上实验某种药物,使用了不同的剂量,按理说剂量越大,有效的比例就应该越高,但是如果发现了剂量大反而有效率降低了,这个时候就只有把无序的两个元素合并了,重新计算有效率,直到计算出来的有效率不大于比下一个元素的有效率。MLlib使用的是PAVA(PoolAdjac
MSTK
·
2017-06-15 18:00
Spark机器学习
(2):逻辑回归算法
逻辑回归本质上也是一种线性回归,和普通线性回归不同的是,普通线性回归特征到结果输出的是连续值,而逻辑回归增加了一个函数g(z),能够把连续值映射到0或者1。MLLib的逻辑回归类有两个:LogisticRegressionWithSGD和LogisticRegressionWithLBFGS,前者基于随机梯度下降,只支持2分类,后者基于LBFGS优化损失函数,支持多分类。直接上代码:importo
MSTK
·
2017-06-15 17:00
Spark机器学习
(1):线性回归算法
线性回归算法,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。1.梯度下降法线性回归可以使用最小二乘法,但是速度比较慢,因此一般使用梯度下降法(GradientDescent),梯度下降法又分为批量梯度下降法(BatchGradientDescent)和随机梯度下降法(StochasticGradientDescent)。批量梯度下降法每次迭代需要使用训练
MSTK
·
2017-06-13 18:00
Spark机器学习
之协同过滤算法
一)、协同过滤1.1概念协同过滤是一种借助"集体计算"的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义1.2分类1.在基于用户的方法的中,如果两个用户表现出相似的偏好(即对相同物品的偏好大体相同),那就认为他们的兴趣类似。要对他们中的一个用户推荐一个未知物品,便可选取若干与其类似的用户并根据他们的喜好计算出对各个物品的综合得分,再以得分来推荐物品。其
jjjyyy66
·
2017-05-15 14:24
用户
协同
Spark机器学习
-1
MLPipelinesMLPipelines提供了一套基于DataFrames的高层API来帮助用户创建和调整实战中的机器学习流水线。Pipelines主要名词DataFrame:DataFrame可以存储不同类型的数据,类似于mysql数据库中的表,有不同的列可以存储文本,特征或者预测值,是MLAPI操作的数据集。DataFrame是从SparkSQL生成的。Transformer:能把一个Da
shelmi
·
2017-05-11 20:00
机器学习
Spark机器学习
之模型选择和超参数调整
模型选择(超参数调谐)ML中的一个重要任务是模型选择,或使用数据找到给定任务的最佳模型或参数。这也叫调音。可以针对个体估算器(如Logistic回归)或包括多个算法,特征化和其他步骤的整个管道完成调整。用户可以一次调整整个流水线,而不是单独调整管道中的每个元素。MLlib支持使用CrossValidator和TrainValidationSplit等工具进行模型选择。这些工具需要以下项目:Esti
dingcheng998
·
2017-04-12 18:40
spark
机器学习
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他