E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2.1
[spark] Shuffle Write解析 (Sort Based Shuffle)
本文基于
Spark2.1
进行解析前言从Spark2.0开始移除了HashBasedShuffle,想要了解可参考Shuffle过程,本文将讲解SortBasedShuffle。
BIGUFO
·
2019-12-21 08:13
使用SBT编译Spark子项目
前言最近为了解决
Spark2.1
的Bug,对Spark的源码做了不少修改,需要对修改的代码做编译测试,如果编译整个Spark项目快的话,也得半小时左右,所以基本上是改了哪个子项目就单独对那个项目编译打包
StanZhai
·
2019-12-18 13:27
Spark 内存管理详解
本文中阐述的原理基于
Spark2.1
版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。在执行
Alukar
·
2019-11-03 16:50
Java Spark读取Hbase数据,将结果写入HDFS文件
环境:Hadoop2.6,
Spark2.1
,jdk1.8注意:hadoop集群启用了kerberos认证,不带认证的需要根据注释简单修改几行代码即可一、案例Java编程要求:读取Hbase表zyl_user
小猪酷跑
·
2019-06-07 12:02
Hadoop生态
数据处理工具
java工具使用
CDH5.10.0 KYLIN2.6
SPARK2.1
心得
hostname不能有下划线#先执行了卸载mariajavacp了环境变量exportJAVA_HOME=/usr/local/jdk1.8.0_191exportM2_HOME=/usr/local/mavenexportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexportJRE_HOME=$JAVA_HOME/jree
dian张
·
2019-05-20 18:07
CDH
sparksql处理嵌套json
Spark2.1
在spark的StructuredStreaming也可以使用这些功能函数。下面几个是本文重点要讲的方法。
Jacy_Wang
·
2019-04-03 13:05
spark
DataFrameNaFunctions无fill方法
当我使用
spark2.1
,为了填补dataframe里面的null值转换为0,代码如下所示:dataframe.na.fill(0)出现如下错误Sparkversion2.1.0returnsfollowingerror
TTyb
·
2019-03-06 09:00
win10 安装单机版 pyspark
1需要安装spark和hadoop(python3.6需要
spark2.1
以上版本)两者作相同处理:解压之后,还需要完成SPARK_HOME和bin环境变量相关配置;HADOOP_HOME和bin环境变量的配置
蕾姆233
·
2018-12-29 16:40
spark
spark2.1
源码编译
我的hadoop版本:hadoop-2.6.0-cdh5.7.0我的scala版本:2.11.8我的hive版本:hive-1.1.0-cdh5.7.0hadoop下载地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gzhive下载路径:http://archive.cloudera.com/cdh5/cdh/
匪_3f3e
·
2018-10-31 09:46
Spark---内存管理
本文中阐述的原理基于
Spark2.1
版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。在执行
YK_324504836
·
2018-09-29 16:30
spark
【Big Data 每日一题20180927】Structured Streaming 之 Event Time 解析
源码解析系列,返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:*2017.07.11update,Spark2.2全系列√(已发布:2.2.0)*2017.10.02update,
Spark2.1
天地不仁以万物为刍狗
·
2018-09-27 21:22
Spark
Big
Data
每日一题
Spark
win10 spark+scala+eclipse+sbt 安装配置
转载请务必注明原创地址为:http://dongkelun.com/2018/03/...1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装
spark2.1
下载下载地址:http:/
董可伦
·
2018-05-10 00:00
eclipse
windows
spark
scala
sbt
win10 spark+scala+eclipse+sbt 安装配置
我的原创地址:https://dongkelun.com/2018/03/15/winSparkConf/1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装
spark2.1
下载下载地址
董可伦
·
2018-05-07 12:24
spark
Spark
CDH5.11.1 升级spark2.x
环境介绍:在我的CDH5.11.1的集群中,默认已经安装的spark是1.6版本,这里需要将其升级为
spark2.1
版本。
heavylgf
·
2018-03-14 14:46
大数据spark
大数据
CDH
Spark2.1
命令工具类CommandUtils的源码分析
注:本文是为了配合《Spark内核设计的艺术架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录F的内容都在本文呈现。CommandUtils是Spark中最常用的工具类之一,其作用是为了构建进程。如果不太关心其实现也不影响对Spark源码的阅读和原理的学习。我们要介绍的方法如下:buildProcessBuilder功能描述:基于给定的参数创建ProcessBuilder
泰山不老生
·
2018-03-09 11:53
Spark2
Spark2.1
Spark2.0
Command
进程
大数据
Spark
Scala
深入理解Spark
附录A
Spark2.1
核心工具类Utils
注:本文是为了配合《Spark内核设计的艺术架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录A的内容都在本文呈现。Utils是Spark最常用的工具类之一,SparkCore大量使用了此类提供的基础功能。即使不关心其实现也不会对理解本书对Spark源码的分析有太多影响。下面将逐个介绍Utils提供的方法。getSystemProperties功能描述:获取系统属性的键值
泰山不老生
·
2018-01-25 09:46
大数据
Spark
Scala
Java
深入理解Spark
搭建Spark集群服务器
tidb1.0开始支持spark,有个组件tiSpark,不过目前只支持
spark2.1
版本。所以为了启用tiSpark,还需搭建spark集群。
我不是九爷
·
2018-01-24 13:14
spark
集群部署
Spark
spark2.1
sql 自定义udf以及spark sql api
最近在写spark,等我更新。。。。。sparksql自定义udfspark定义视图说明:在dataframe的基础上给出视图名称,dataframe可以来源于jdbc查询结果,也可以是jsonvalspark=SparkSession.builder().appName("SparkSQLbasicexample").config("spark.some.config.option","some
snail_knight
·
2017-12-06 14:03
spark2.1
源码编译
本文介绍spark2.1.0的源码编译1.编译环境:Jdk1.8或以上Hadoop2.7.3Scala2.10.4必要条件:Maven3.3.9或以上(重要)点这里下载http://mirror.bit.edu.cn/apache/maven/maven-3/3.5.2/binaries/apache-maven-3.5.2-bin.tar.gz修改/conf/setting.xmlalimave
qinglanmei
·
2017-11-28 16:46
spark
源码编译
spark2.1
Row_number,Window使用
有这种情况,一个项目下的一个设备多次上报检测成功记录,但我只要最早上报记录代码如下:packagecom.sparkimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.expressions.Windowimportorg.apache.spark.sql.functions._objectLastestTime{de
小白鸽
·
2017-11-17 11:22
Spark
hive on spark安装(hive2.3
spark2.1
)
简介之前有写过hiveonspark的一个文档,hive版本为2.0,spark版本为1.5。spark升级到2.0后,性能有所提升,程序文件的编排也和之前不一样,这里再更新一个最新的部署方式。spark2.0引入了sparksession的概念,创建一个spark任务和之前也不一样,之前版本的hive并不能兼容spark2.0,所以推荐使用hive2.3以后的版本。安装步骤可参考官网https:
敲码的汉子
·
2017-11-01 18:08
hive
hive-sql
on
hadoop技术
hive on spark安装(hive2.3
spark2.1
)
简介之前有写过hiveonspark的一个文档,hive版本为2.0,spark版本为1.5。spark升级到2.0后,性能有所提升,程序文件的编排也和之前不一样,这里再更新一个最新的部署方式。spark2.0引入了sparksession的概念,创建一个spark任务和之前也不一样,之前版本的hive并不能兼容spark2.0,所以推荐使用hive2.3以后的版本。安装步骤可参考官网https:
敲码的汉子
·
2017-11-01 18:08
hive
hive-sql
on
hadoop技术
[spark] Standalone模式下Master、WorKer启动流程
本文基于
spark2.1
进行解析前言Spark作为分布式的计算框架可支持多种运行模式:本地运行模式(单机)本地伪集群运行模式(单机模拟集群)StandaloneClient模式(集群)StandaloneCluster
BIGUFO
·
2017-10-31 10:11
Structured Streaming 实现思路与实现概述
源码解析系列,返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:*2017.07.11update,Spark2.2全系列√(已发布:2.2.0)*2017.05.02update,
Spark2.1
gongpulin
·
2017-10-10 23:43
sparkstreaming
spark2.1
源码分析4:spark-network-common模块的设计原理
spark-network-common模块底层使用netty作为通讯框架,可以实现rpc消息、数据块和数据流的传输。Message类图:所有request消息都是RequestMessage的子类所有response消息都是ResponseMessage的子类TransportClient主要提供了三个方法://通过给定的streamId,获取远端数据流publicvoidstream(fina
ggzone
·
2017-09-28 13:01
Spark
Spark2.1
特征处理:提取/转换/选择
1.FeatureExtractors(特征提取)1.1TF-IDF词频(TermFrequency)-逆向文档频率(InverseDocumentFrequency)是一种特征矢量化方法,广泛应用于文本挖掘,用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。定义:t表示由一个单词,d表示一个文档,D表示多个文档构成的语料库(corpus),词频TF(t,d)表示某一个给定的单
bitcarmanlee
·
2017-09-06 17:17
spark
Spark-SQL之DataFrame创建
本篇的SparkAPI基于
spark2.1
版本。1、DataFrame对象的生成DataFra
文哥的学习日记
·
2017-08-16 00:53
Spark的Dataset操作(一)-列的选择select
环境说明:用的版本是
Spark2.1
,Dataset操作很丰富,join的支持也蛮好的,比原来用的spark1.4好用多了。嗯,Dataset操作,我觉得最重要的是把Column类的用法弄清楚。
野男孩
·
2017-07-08 23:44
Spark
大数据
Spark
spark-sql
dataset
Spark
SQL专栏
Linux安装Spark集群(CentOS7+Spark2.1.1+Hadoop2.8.0)
1安装Spark依赖的Scala1.1下载和解压缩Scala1.2配置环境变量1.3验证Scala2下载和解压缩
Spark2.1
下载Spark压缩包2.2解压缩Spark3Spark相关的配置3.1配置环境变量
陈南志
·
2017-05-16 22:15
Linux
运维
CentOS
hadoop
spark
scala
windows下
spark2.1
源码编译及修改
Windows编译spark源码过程对spark源码修改后需要重新编译spark源码,由于当前linux虚拟机上无法通过代理联网,公司提供的maven仓库也ping不通,只能在windows上编译spark源码。编译过程如下:1.在spark官网下载spark源码http://spark.apache.org/downloads.html选择2.1.0源码下载。2.然后在idea中导入spark源
dreamershi
·
2017-05-05 15:15
大数据
windows下
spark2.1
源码编译及修改
Windows编译spark源码过程对spark源码修改后需要重新编译spark源码,由于当前linux虚拟机上无法通过代理联网,公司提供的maven仓库也ping不通,只能在windows上编译spark源码。编译过程如下:1.在spark官网下载spark源码http://spark.apache.org/downloads.html选择2.1.0源码下载。2.然后在idea中导入spark源
dreamershi
·
2017-05-05 15:15
大数据
生产环境实战spark (6)分布式集群 5台设备 Scala安装
这里使用spark2.1.x版本,而
spark2.1
版本需要scala2.1.1版本以上的兼容版本,因此下载安装scala-2.11.8下载地址:http://www.scala-lang.org/download
段智华
·
2017-04-19 10:44
生产实战spark
Apache Spark 内存管理详解
本文中阐述的原理基于
Spark2.1
版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shu
程序优化
·
2017-04-05 10:00
Spark2.1
中用结构化流处理复杂的数据格式(译)
在第一章节系列结构化流的博客文章中,我们展示了怎样用简单的方式用结构化流实现端到端的流式ETL程序,将json日志数据转换成Parquet格式表。该文强调构建从各种复杂格式数据源读入并对数据进行转换的管道所面临的挑战。在本篇博文中,我们将深入的研讨该问题,并展示如何用SparkSQL内置函数解决数据转换中面临的挑战。确切的说,我们将从以下几个方面进行讨论:有哪些不同数据格式及怎样权衡如何简单的用S
幽兰深谷
·
2017-03-26 22:39
ubuntu安装
spark2.1
hadoop2.7.3集群
0:设置系统登录相关Master要执行cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys如果用root用户sed -ri 's/^(PermitRootLogin ).*$/\1yes/' /etc/ssh/sshd_config编辑/etc/hosts127.0.0.1 localhost # 别把 spark1 放在这
nonono11
·
2017-02-24 12:06
spark
hadoopubuntum
Linux
Spark ML机器学习
的机器学习库.相对于RDD,DataFrame拥有更丰富的操作API,可以进行更灵活的操作.目前,spark.mllib已经进入维护状态,不再添加新特性.本文将重点介绍pyspark.ml,测试环境为
Spark2.1
-Finley-
·
2017-02-12 10:00
spark2.1
源码分析1:Win10下IDEA源码阅读环境的搭建
环境:win10、IDEA2016.3、maven3.3.9、git、scala2.11.8、java1.8.0_101、sbt0.13.12下载:#gitbash中执行:gitclonehttps://github.com/apache/spark.gitgittaggitcheckoutv2.1.0-rc5gitcheckout-bv2.1.0-rc5导入IDEA,开始调试:file–open
ggzone
·
2016-12-22 16:24
Spark
上一页
1
2
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他