E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2.0
Spark2.0
特征提取、转换、选择之一:数据规范化,String-Index、离散-连续特征相互转换
数据规范化(标准化)在数据预处理时,这两个术语可以互换使用。(不考虑标准化在统计学中有特定的含义)。下面所有的规范化操作都是针对一个特征向量(dataFrame中的一个colum)来操作的。首先举一个例子://MaxAbsScaler例子(参考后面MaxAbsScaler部分)//例子:对特征0,特征1,特征2,分别进行缩放,使得值为[-1,1]//例如特征0,其特征向量为[1000,100,-1
大师兄你家猴跑啦
·
2017-12-13 17:45
spark
machine
leaning
【备忘】年薪50万2017年最新北风网
Spark2.0
从入门到精通教程
Spark从入门到精通(Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端)官方出售价格:2250元,地址:http://www.ibeifeng.com/goods-560.html本课程主要讲解目前大数据领域最热门、最火爆、最有前景的技术——Spark。在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企...适合人群:中级课时数量:
qq_38472089
·
2017-11-12 17:33
Spark 2.0 时代全面到来 —— 2.0.1 版本发布
距离Spark2.0.0发布两个月后,Spark2.0.1版本发布了,这是一个修正版本,共处理了300多个Issue,涉及spark稳定性和bug等方面的修复,它的发布意味着
Spark2.0
接近生产环境使用要求
kaixin2010
·
2017-11-05 10:19
Spark
hive on spark安装(hive2.3 spark2.1)
spark2.0
引入了sparksession的概念,创建一个spark任务和之前也不一样,之前版本的hive并不能兼容
spark2.0
,所以推荐使用hive2.3以后的版本。
敲码的汉子
·
2017-11-01 18:08
hive
hive-sql
on
hadoop技术
hive on spark安装(hive2.3 spark2.1)
spark2.0
引入了sparksession的概念,创建一个spark任务和之前也不一样,之前版本的hive并不能兼容
spark2.0
,所以推荐使用hive2.3以后的版本。
敲码的汉子
·
2017-11-01 18:08
hive
hive-sql
on
hadoop技术
Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)
快学
Spark2.0
(新特性、含真实项目、纯Scala语言开发、CDH5.7)分享网盘下载——https://pan.baidu.com/s/1mkqrTs0密码:y5hghttps://pan.baidu.com
fengzhongyela
·
2017-10-20 08:43
Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)
阅读更多快学
Spark2.0
(新特性、含真实项目、纯Scala语言开发、CDH5.7)分享网盘下载——https://pan.baidu.com/s/1mkqrTs0密码:y5hghttps://pan.baidu.com
老江师兄弟
·
2017-10-20 08:00
Spark
Spark Streaming遇到问题分析
SparkStreaming遇到问题分析1、
Spark2.0
之后搞了个StructuredStreaming还没仔细了解,可参考:https://github.com/lw-lin/Coo...2、Spark
xbynet
·
2017-07-17 00:00
java
spark-streaming
spark
[Spark基础]-- spark-2.0图文讲解核心
fromSource=gwzcw.107190.107190.107190导语
spark2.0
于2016-07-27正式发布,伴随着更简单、更快速、更智慧的新特性,spark已经逐步替代hadoop在大数据中的地位
highfei2011
·
2017-07-11 22:15
Spark
SPARK官方实例:两种方法实现随机森林模型(ML/MLlib)
在
spark2.0
以上版本中,存在两种对机器学习算法的实现库MLlib与ML,比如随机森林:org.apache.spark.mllib.tree.RandomForest和org.apache.spark.ml.classification.RandomForestClassificationModel
O白马非马O
·
2017-05-31 17:24
数据挖掘
spark
xgboost之spark上运行-scala接口
概述xgboost可以在spark上运行,我用的xgboost的版本是0.7的版本,目前只支持
spark2.0
以上版本上运行,编译好jar包,加载到maven仓库里面去:mvninstall:install-file-Dfile
旭旭_哥
·
2017-05-08 15:25
机器学习
java
spark2.0
系列《一》—— RDD VS. DataFrame VS. DataSet
虽说,spark我也不陌生,之前一直用python跑的spark,基本的core和SQL操作用的也是比较熟练。但是这一切的基础都是在RDD上进行操作,即使是进行SQL操作也是将利用SpaekContext类中的textFile方法读取txt文件返回RDD对象,然后使用SQLContext实例化载利用函数createDataFrame将格式化后的数据转化为dataFrame或者利用createDat
wing1995
·
2017-05-03 20:00
【
Spark2.0
源码学习】-3.Endpoint模型介绍
Spark作为分布式计算框架,多个节点的设计与相互通信模式是其重要的组成部分。一、组件概览对源码分析,对于设计思路理解如下:RpcEndpoint:RPC端点,Spark针对于每个节点(Client/Master/Worker)都称之一个Rpc端点,且都实现RpcEndpoint接口,内部根据不同端点的需求,设计不同的消息和不同的业务处理,如果需要发送(询问)则调用DispatcherRpcEnv
放错位的天才
·
2017-04-23 20:00
大数据
netty
Spark2.0
机器学习系列之5:GBDT(梯度提升决策树)、GBDT与随机森林差异、参数调试及Scikit代码分析
关于决策树和随机森林,我也写了两篇介绍博客,可以作为参考:随机森林介绍、关键参数分析及
Spark2.0
中实现http://blog.csdn.net/qq_34531825/article/details
勿悔Choles
·
2017-04-09 23:26
深入理解Spark 2.1 Core (二):DAG调度器的原理与源码分析
上一篇《深入理解
Spark2.0
(一):RDD实现及源码分析》的5.2Spark任务调度器我们省略过去了,这篇我们就来讲讲Spark的调度器。
小爷Souljoy
·
2017-04-09 10:33
Spark 2.0介绍:Dataset介绍和使用
Spark2.0
介绍:Dataset介绍和使用
Spark2.0
是ApacheSpark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大变化。
MatrixSparse
·
2017-04-05 17:10
hadoop生态组件
ambari 搭建hadoop大数据平台系列2-客户机配置
本案例搭建的环境介绍如下:Ambari2.4.2+HDP2.5(hadoop2.7;hive1.2;Tez;
Spark2.0
)+jdk1.8.25+centos7.0,这里首先要关注些注意事项,至于为什么会一一说明
TIMES2020
·
2017-04-04 17:00
hadoop
hbase
ambari
大数据-hadoop生态圈
spark ml pipelines
sparkMLPipelines在
spark2.0
里mllib分为两个包,spark.mllib里是基于RDD的API,spark.ml里是基于DataFrame的API。
Dillon2015
·
2017-03-21 17:24
机器学习
spark
spark Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Re
在windows上运行
spark2.0
的ml算法报错:Exceptioninthread"main"java.lang.IllegalArgumentException:java.net.URISyntaxException
Dillon2015
·
2017-03-20 23:50
机器学习
spark
Spark之殇
之前
Spark2.0
刚发布不久后的第一个小版本,StructuredStreaming终于支持Kafka了,但是只支持Kafka1.0而不支持Kafka0.8。
祝威廉
·
2017-03-15 20:00
Hadoop生态圈介绍
Spark2.0
以后也用netty做rpc。
墨染百城
·
2017-02-15 14:33
大数据框架
Hadoop
Spark相关文章索引(2)
基本常识
Spark2.0
时代全面到来——2.0.1版本发布Spark生态系统中的图数据分析知识算法架构Spark任务调度流程及调度策略分析Sparkrdd转换过程Spark计算过程分析可靠保证华为叶琪:
BlackEnn
·
2017-01-27 18:00
spark
大数据
Spark相关文章索引(2)
基本常识
Spark2.0
时代全面到来——2.0.1版本发布Spark生态系统中的图数据分析知识算法架构Spark任务调度流程及调度策略分析Sparkrdd转换过程Spark计算过程分析可靠保证华为叶琪:
BlackEnn
·
2017-01-27 18:00
spark
大数据
Spark SQL内置函数的使用Spark SQL执行计划总结
个人感觉SparkSQL的优势在于UDF和DataFrame(RDD的封装,由于RDD是可以是任意类型,因此可以封装一个对象在RDD里面,
spark2.0
以后对DataSet做了优化,由于DataFrame
bigdataCoding
·
2017-01-18 16:33
大数据
Spark
Spark sbt-assembly 打包
因为要用
spark2.0
,而集群上cdh5.7.1的spark版本是1.6的,在单独使用
spark2.0
的时候出现了hbase包找不到的问题,因为spark-submit–jars属性引的包太多,就干脆直接用
-ROOT-
·
2017-01-16 12:48
sbt
spark2.0
history server 内存溢出解决
从下面命令构建类可以看到,如果你想增加historyserver的内存,只能设置SPARK_DAEMON_MEMORY。在SPARK_HISTORY_OPTS里设置"-Xmx"不起作用。classSparkClassCommandBuilderextendsAbstractCommandBuilder{privatefinalStringclassName;privatefinalListclas
houzhizhen
·
2016-12-20 10:03
spark
Spark 2.0 RPC通信层设计原理分析
SparkRPC层设计概况
spark2.0
的RPC框架是基于优秀的网络通信框架Netty开发的,我们先把Spark中与RPC相关的一些类的关系梳理一下,为了能够更直观地表达RPC的设计,我们先从类的设计来看
ZanderXu
·
2016-12-19 18:27
在Ubuntu16.04中配置Anaconda(Python2.7)以支持
Spark2.0
(Pyspark)
本文主要内容:对比Spark和Hadoop介绍PysPark和Anaconda搭建并配置运行WordCount最近想学习大数据分析平台Spark,由于实验室设备不足,只能先在本地搭建一个独立式的Spark环境,进行简单分析,逐步探索Spark的奥秘,为以后Spark集群操作打好基础。对于从事数据挖掘和机器学习人员来说,使用anaconda的ipythonnotebook无疑是最棒的体验。那么,如何
积微成著
·
2016-12-12 20:29
Spark
Spark2.0
源码之1_Broadcast
通过Spark源码中的注释信息理解Spark内核源码。packageorg.apache.spark.broadcastimportjava.io.Serializableimportscala.reflect.ClassTagimportorg.apache.spark.SparkExceptionimportorg.apache.spark.internal.Loggingimportorg.
lcjasas
·
2016-12-06 14:29
spark
spark学习1--centOS7.2下基于hadoop2.7.3的
spark2.0
集群环境搭建
安装步骤如没特殊指明哪台服务器,则说明都是在3台服务器上做同样的操作。1.准备1.1装有centOS7的3台服务器master192.168.174.132node1192.168.174.133node2192.168.174.1341.2搭建hadoop集群环境参考“hadoop学习1--hadoop2.7.3集群环境搭建”1.3准备安装包scala-2.11.8.tgzspark-2.0.0
夢_殤
·
2016-11-23 17:36
spark
基于
spark2.0
整合spark-sql + mysql + parquet + HDFS
一、概述
spark2.0
做出的改变大家可以参考官网以及其他资料,这里不再赘述由于spark1.x的sqlContext在
spark2.0
中被整合到sparkSession,故而利用spark-shell
CaramelCapucchino
·
2016-11-22 12:11
大数据架构
spark 2.0 踩过的SparkSession的坑
spark2.0
踩过的SparkSession的坑spark20踩过的SparkSession的坑背景抽象的运行代码初步定位问题进一步定位问题源码相关分析再看SparkSession的创建最终解决取代了
cjuexuan
·
2016-11-17 21:31
spark
源码
spark2-0
scala
spark
spark2.0
MessageHandler和 TransportResponseHandler
MessageHandler处理Netty发送或者接收的消息。一个MessageHandler和一个Netty通道关联在一起,尽管一个Netty通道可以为多个client对象服务。TransportResponseHandler扩展自MessageHandler,它处理服务器端响应,响应是TransportClient的请求。它跟踪请求的列表和它们的回调函数。它是线程安全的。/***Handles
houzhizhen
·
2016-11-15 17:21
spark
Spark Storage ④ - 存储执行类介绍(DiskBlockManager、DiskStore、MemoryStore)
本文为
Spark2.0
源码分析笔记,某些实现可能与其他版本有所出入这篇文章前半部分我们对直接在Block存取发挥重要作用的类进行介绍,主要是DiskBlockManager、MemoryStore、DiskStore
牛肉圆粉不加葱
·
2016-10-22 22:05
Scala2.11.8 + Sbt + Maven + IntelliJ Idea +
Spark2.0
开发环境搭建备忘
已有hadoopyarn和spark集群部署、运行在分布式环境中,程序开发编码在PC上,由于逐渐增多scala编写
spark2.0
程序,入乡随俗使用sbt和IntelliJIdea,顺便对PC上的Scala
bitbyteworld
·
2016-10-10 22:16
scala开发学习
开发环境搭建
Spark2.0
机器学习系列之9: 聚类算法(LDA)
在写这篇文章之前,先说一些题外话。许多机器学习算法(如后面将要提到的LDA)涉及的数学知识太多,前前后后一大堆,理解起来不是那么容易。面对复杂的机器学习模型,尤其是涉及大量数学知识的模型,我们往往要花费大量的时间和精力去推导数学算法(公式),如果过分沉湎于此会忽略了很多背后也许更重要的东西,正所谓只见树木,不见森林,而这是缺乏远见,是迷茫的。我们需要深入理解模型背后的逻辑和所蕴含的或简或繁的思想。
千寻千梦
·
2016-09-21 15:06
spark
ml
Spark2.0
机器学习系列之9: 聚类算法(LDA)
在写这篇文章之前,先说一些题外话。 许多机器学习算法(如后面将要提到的LDA)涉及的数学知识太多,前前后后一大堆,理解起来不是那么容易。 面对复杂的机器学习模型,尤其是涉及大量数学知识的模型,我们往往要花费大量的时间和精力去推导数学算法(公式),如果过分沉湎于此会忽略了很多背后也许更重要的东西,正所谓只见树木,不见森林,而这是缺乏远见,是迷茫的。 我们需要深入理解模型背后
qq_34531825
·
2016-09-21 15:00
大数据Spark “蘑菇云”行动第47课程 Spark 2.0实战之Dataset:collect_list、collect_set、avg、sum、countDistinct等
大数据Spark“蘑菇云”行动第47课程
Spark2.0
实战之Dataset:collect_list、collect_set、avg、sum、countDistinct等DatasetAPI:http
段智华
·
2016-09-17 22:15
大数据蘑菇云行动
scalaIDE 与
spark2.0
源代码关联
scalaIDE与
spark2.0
源代码关联一scalaIDEmaven方式获取
spark2.0
源代码不安装插件,scalaide的maven新建的是java工程,没法使用scala代码。
段智华
·
2016-09-17 19:01
大数据蘑菇云行动
CentOS7 基于Hadoop2.7 的
Spark2.0
集群搭建
序言上传文件到各服务器安装配置Scala安装配置Spark配置集群启动集群测试Spark集群序言Hadoop2.7集群已搭建完毕.参考“CentOS7从零开始搭建Hadoop2.7集群‘’。(node192.168.169.131,node1192.168.169.133,node2192.168.169.132,node3192.168.169.134)本地下载scala-2.11.8.tgz:
小杭嘟嘟嘟
·
2016-09-17 17:23
CentOS
Spark
第45课 Spark 2.0实战之Dataset:map、flatMap、mapPartitions、dropDuplicate、coalesce、repartition等
第45课
Spark2.0
实战之Dataset:map、flatMap、mapPartitions、dropDuplicate、coalesce、repartition等packagecom.dt.spark200importorg.apache.spark.sql.SparkSessionimportscala.collection.mutable.ArrayBufferobjectDataSet
段智华
·
2016-09-16 19:41
大数据蘑菇云行动
第44课:Spark 2.0编程实战之DataSet案例开发实战
第44课:
Spark2.0
编程实战之DataSet案例开发实战people.json{"name":"Michael"}{"name":"Andy","age":30}{"name":"Justin",
段智华
·
2016-09-16 17:32
大数据蘑菇云行动
第43课:Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战
第43课:
Spark2.0
编程实战之SparkSession、DataFrame、DataSet开发实战2017年5月份左右,老师个人认为需要等到Spark2.2版本DataSet背后会被Tungsten
段智华
·
2016-09-13 22:44
大数据蘑菇云行动
Spark2.0
特征提取、转换、选择之二:特征选择、文本处理,以中文自然语言处理(情感分类为例)
特征选择RFormulaRFormula是一个很方便,也很强大的Feature选择(自由组合的)工具。输入string进行独热编码(见下面例子country)输入数值型转换为double(见下面例子hour)label为string,也用StringIndexer进行编号RFormulaproducesavectorcolumnoffeaturesandadoubleorstringcolumno
千寻千梦
·
2016-09-04 11:47
spark
spark2.0
中逻辑回归模型
今天上午看了下
spark2.0
中的逻辑回归模型,相比以前mllib版本确实改进不少,逻辑回归模型再次不再多说,原理较为简单,模型中的一些参数设定,自己要主要,代码主要是用maven跟git进行管理,数据是官方自带的数据
旭旭_哥
·
2016-09-03 11:56
apache
spark
Spark2.0
特征提取、转换、选择之一:数据规范化,String-Index、离散-连续特征相互转换
数据规范化(标准化)在数据预处理时,这两个术语可以互换使用。(不考虑标准化在统计学中有特定的含义)。下面所有的规范化操作都是针对一个特征向量(dataFrame中的一个colum)来操作的。首先举一个例子://MaxAbsScaler例子(参考后面MaxAbsScaler部分)//例子:对特征0,特征1,特征2,分别进行缩放,使得值为[-1,1]//例如特征0,其特征向量为[1000,100,-1
千寻千梦
·
2016-09-02 17:44
spark
Spark2.0
机器学习系列之5:GBDT(梯度提升决策树)、GBDT与随机森林差异、参数调试及Scikit代码分析
关于决策树和随机森林,我也写了两篇介绍博客,可以作为参考:随机森林介绍、关键参数分析及
Spark2.0
中实现http://blog.csdn.net/qq_34531825/article/details
千寻千梦
·
2016-08-30 09:33
spark
spark的安装和使用
笔者的环境为:centos7.该文章主要是讲述了在centos7上搭建
spark2.0
的具体操作和spark的简单使用,希望可以给刚刚接触spark的朋友一些帮助。
ouyangyanlan
·
2016-08-29 18:00
scala
hadoop
spark
centos
spark2-0
Spark2.0
机器学习系列之3:决策树及Spark 2.0-MLlib、Scikit代码分析
概述分类决策树模型是一种描述对实例进行分类的树形结构。决策树可以看为一个if-then规则集合,具有“互斥完备”性质。决策树基本上都是采用的是贪心(即非回溯)的算法,自顶向下递归分治构造。生成决策树一般包含三个步骤:特征选择决策树生成剪枝决策树算法种类决策树主要有ID3,C4.5,C5.0andCART几种,ID3,C4.5,和CART实际都采用的是贪心(即非回溯)的算法,自顶向下递归分治构造。对
千寻千梦
·
2016-08-26 18:45
ml
spark
spark
机器学习
hadoop2.2.0安装spark1.1.0(maven编译)
而在目前spark官网上已经下载不到spark1.1.0版本(目前已经发布了
spark2.0
版本)。为了在机器上使用spark,选择了csdn上下载了spark1.1.0的源码,自己尝试编译。
TurboBoost
·
2016-08-16 12:30
spark
maven
源码
hadoop
spark
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他