E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
深入理解Spark 2.1 Core (六):资源调度的原理与源码分析
在上篇博文《深入理解
Spark2
.1Core(五):Standalone模式运行的实现与源码分析》中,我们讲到了如何启动Master和Worker,还讲到了如何回收资源。
小爷Souljoy
·
2019-12-26 13:08
Spark 1.6.0 单机安装配置
Spark1.6单机环境的安装准备Spark官网文档描述的是:SparkrunsonJava7+,Python2.6+/3.4+andR3.1+.FortheScalaAPI,
Spark2
.0.2usesScala2.11
wangyizhen
·
2019-12-26 00:23
spark2
.1 IDEA的配置运行
我使用的是
spark2
.1官方的Scala依赖是2.11,
spark2
.2的依赖也是2.11所以如果你的Scala版本是2.22或者较老版本,还是换到这个版本比较好,不然可能会报错或者出现context
苟雨
·
2019-12-25 10:21
spark sql 2.3 源码解读 - whole stage codegen (8)
wholestagecodegen是
spark2
.0以后引入的新特性,所以在最后单独把这一块拿出来讲一下。
sddyljsx
·
2019-12-25 04:06
Introducing Pandas UDF for PySpark
这篇博文在即将发布的Apache
Spark2
.3版本中引入了PandasUDFs(即VectorizedUDFs)特性,这大大提高了Python中用户定义函数(UDF)的性能和可用性。
焉知非鱼
·
2019-12-24 00:34
Hadoop2.7.3+Hive2.1.1+
Spark2
.1.0环境搭建
搭建环境:Ubuntu12.04(比这个版本高应该都可以)首先搭建的是Spark。先用ping确保用外网IP可以互相连通。然后可以修改各个工作节点的主机名。vim/etc/hostname修改主机名称,我将主节点设置为master,另一个节点设置成slave1。重启两台主机。之后修改master节点的hosts文件vim/etc/hosts在其中加入master_ipmasterslave_ips
iamsonormal2333
·
2019-12-23 20:49
Custom Accumulator in Spark 2.1
CustomAccumulatorin
Spark2
.1Accumulatorcansumorcountnumberinsparktasksoverallnodes,andthenreturnthefinalresult.Forexample
zoyanhui
·
2019-12-23 19:00
Hadoop3.2+Scala2.12.1+
Spark2
.3.3环境搭建
安装java环境下载jdk,点击下载:因为接下来安装的Hadoop版本是3.0所以这里安装1.8JDK1、创建目录/usr/java#mkdir-p/usr/java2、将下载的jdk-8u60-linux-x64.tar.gz上传至/usr/java目录;3、解压jdk-8u60-linux-x64.tar.gz#tar-zxvfjdk-8u60-linux-x64.tar.gz4、解压生成后,
羽恒
·
2019-12-23 07:51
[spark] 从spark-submit开始解析整个任务调度流程
本文在
spark2
.1以StandaloneCluster模式下解析概述spark应用程序可以以Client模式和Cluster启动,区别在于Client模式下的Driver是在执行spark-submit
BIGUFO
·
2019-12-23 03:13
大数据DMP画像系统
.png3.png4.png5.png系统开发要求涉及的技术要点:spark、elasticsearch、hadoop、hive、LRGBDT等机器学习算法开发工具:idea、eclipse开发环境:
spark2
.2
小红牛
·
2019-12-22 22:38
Spark Streaming vs. Structured Streaming
提供了基于RDDs的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算StructuredStreaming
Spark2
.X出来的流框架,采用了无界表的概念,流数据相当于往一个表上不断追加行
upupfeng
·
2019-12-22 21:19
spark-streaming
spark
Spark Streaming vs. Structured Streaming
提供了基于RDDs的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算StructuredStreaming
Spark2
.X出来的流框架,采用了无界表的概念,流数据相当于往一个表上不断追加行
upupfeng
·
2019-12-22 12:00
Spark Streaming vs. Structured Streaming
提供了基于RDDs的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算StructuredStreaming
Spark2
.X出来的流框架,采用了无界表的概念,流数据相当于往一个表上不断追加行
upupfeng
·
2019-12-22 12:00
Spark Shuffle 模块② - Hash Based Shuffle write
Spark2
.0中已经移除HashBasedShuffle,但作为曾经的默认Shuffle机制,还是值得进行分析Spark最开始只有HashBasedShuffle,因为在很多场景中并不需要排序,在这些场景中多余的排序反而会损耗性能
牛肉圆粉不加葱
·
2019-12-22 07:47
帮你快速理解 Spark 的分区器
本文基于
Spark2
.1.0版本0,引言:Spark一般是部署在分布式环境中的(有可能是在区域集中的集群上,也有可能跨城市),而在分布式环境中,数据在各节点进行网络的传递代价是很大的。
俺是亮哥
·
2019-12-21 19:19
Windows下搭建Spark开发测试环境
软件环境Hadoop2.7.7
Spark2
.4.0Scala2.11Java8配置HadoopWindows环境下需要先配置Hadoop环境变量,如图所示:同时在PATH环境变量中添加Hadoop信息:
sungoshawk
·
2019-12-21 14:33
Spark Storage ① - Spark Storage 模块整体架构
本文为
Spark2
.0源码分析笔记,某些实现可能与其他版本有所出入Storage模块在整个Spark中扮演着重要的角色,管理着SparkApplication在运行过程中产生的各种数据,包括基于磁盘和内存的
牛肉圆粉不加葱
·
2019-12-21 09:00
[spark] Shuffle Write解析 (Sort Based Shuffle)
本文基于
Spark2
.1进行解析前言从
Spark2
.0开始移除了HashBasedShuffle,想要了解可参考Shuffle过程,本文将讲解SortBasedShuffle。
BIGUFO
·
2019-12-21 08:13
spark读取hive
spark2
.0+使用Sparksession替代HiveContext1.添加MAVEN依赖mysqlmysql-connector-java5.1.35org.apache.sparkspark-hive
無敵兔八哥
·
2019-12-20 10:29
每日一读 12.11
spark2
sql读取数据源编程学习样例2:函数实现详解http://www.aboutyun.com/forum.php?
Vicor
·
2019-12-20 07:56
183、Spark 2.0新特性之新特性介绍-whole-stage code generation技术和vectorization技术
VolcanoIteratorModel
Spark2
.x的第二代tungsten引擎原理之前,先看一下当前的Spark的工作原理。
ZFH__ZJ
·
2019-12-20 03:38
看了之后不再迷糊-Spark多种运行模式
所以,我今天总结一下,供新手参考和学习(下述结论基于
Spark2
.1.0版本和h
俺是亮哥
·
2019-12-19 19:46
spark shuffle发展历程
spark2
.3shufflemanager,默认sortShuffleManager//LettheuserspecifyshortnamesforshufflemanagersvalshortShuffleMgrNames
sw_kong
·
2019-12-19 09:00
使用SBT编译Spark子项目
前言最近为了解决
Spark2
.1的Bug,对Spark的源码做了不少修改,需要对修改的代码做编译测试,如果编译整个Spark项目快的话,也得半小时左右,所以基本上是改了哪个子项目就单独对那个项目编译打包
StanZhai
·
2019-12-18 13:27
Spark SQL之 Dataframe/Dataset
该文章所有内容截选自实验楼教程【
Spark2
.x快速入门教程】第二节内容~一、实验介绍1.1实验内容从
Spark2
.0始支持了SQL2003准语法。
实验楼
·
2019-12-18 09:28
Spark RDD的默认分区数:(spark 2.1.0)
本文基于
Spark2
.1.0版本新手首先要明白几个配置:spark.default.parallelism:(默认的并发数)如果配置文件spark-default.conf中没有显示的配置,则按照如下规则取值
俺是亮哥
·
2019-12-16 18:42
spark源码调试Debug环境搭建
运行环境java1.8scala2.11.0maven3.3.9idea2016
spark2
.0.21完成以下配置java环境变量scala环境变量mavensetting配置文件jar包存放路径idea
HxLiang
·
2019-12-16 11:01
合并Spark社区代码的正确姿势
原创文章,转载请保留出处最近刚刚忙完
Spark2
.2.0的性能测试及Bug修复,社区又要发布2.1.2了,国庆期间刚好有空,过了一遍2.1.2的相关JIRA,发现有不少重要修复2.2.0也能用上,接下来需要将有用的
StanZhai
·
2019-12-16 06:48
Learning PySpark - 2017.pdf @ pyspark实战指南 - 2017.pdf
LearningPySpark-2017.pdfimage.png在本地构建数据密集型应用程序,并使用Python和
Spark2
.0的强大功能进行大规模部署。
python测试开发_AI命理
·
2019-12-15 21:38
Structured streaming+kafka集成样例
关于structuredstreaming,spark社区已经有很多文章介绍,个人认为其中最大的特点是将流视作没有边界的大表,从而能够使用sql来操作这张表,其中包括使用sqljoin(截止
Spark2
.1.1
biggeng
·
2019-12-15 14:46
1小时快速搭建高可用集群(High Availability)
flowToken=1002412本次课程你将学到:最新
Spark2
.3.1版本,搭建高可用集群(HighAvailability)(1)HA集群原理(2)HA集群搭建步骤(3)Spark-shell测试
A尚学堂Nancy老师
·
2019-12-14 08:51
maven 编译错误 org.apache.commons.exec.ExecuteException: Process exited with an error: 1 (Exit value: 1)
最近一次出现该问题是从
spark2
.1.1中copy了spark-streaming
westfire
·
2019-12-14 03:46
Java实现双分派
关于SparkSQL如何把一条String类型的SQL识别解析,在
Spark2
.0版本,使用的是ANTLR4来进行语法和词法分析,构造出语法分析树,然后通过SparkSQL的astBuilder这个对象去访问这棵树
小北觅
·
2019-12-12 22:49
CDH 5.16.1 离线安装 Spark 2.3
1.环境CDH5.16.1Centos7.6Scala2.11.82.安装前准备1.下载
Spark2
.3所需的Parcel包http://archive.cloudera.com/
spark2
/parcels
大数据小码农
·
2019-12-11 15:00
181、Spark 2.0新特性之高性能让Spark作为编译器来运行
Spark2
.0的一个重大的特点就是搭载了最新的第二代tungsten引擎。第二代tungsten引擎吸取了现代编译器以及并行数据库的一些重要的思想,
ZFH__ZJ
·
2019-12-08 15:24
数据分析师之路(一)
1)查询工具特点:文件不大时,速度要快presto/
spark2
)代码管理:除了代码的存放、注释的管理,还要注意对代码搜索工具的优化,这是因为业务积累到一定程度,可能会出现代码冗余,同时对新入职的同学也会造成困扰
咸鱼干lili
·
2019-12-08 07:07
spark-3.0 application 调度算法解析
从spark1.3.0到spark1.6.1、
spark2
.0到现在最新的spark3.0,调度算法有了一定的修改。
六成2018的猿生
·
2019-12-04 12:00
spark mllib支持哪些机器学习算法?
Spark2
.1Mllib考虑到spark选型做mllib的人,最关心问题,就是sparkmllib能够支持多少机器学习的算法呢?问题很简单,就下面这么多,你看着用吧。
HxLiang
·
2019-12-01 07:07
zeppelin 0.8环境和
spark2
.2问题
之前用的版本是zeppelin0.7.2和spark1.6,最近把zeppelin升级到0.8发现1.6的配置和2.2的配置默认都无法支持,大概会遇到3个问题。IncompatibleJacksonversion:2.8.11-1jackson版本问题rmzeppelin/lib/jackson-*cp$spark_home/jars/jackson-*zeppelin/lib/就可以解决了org
HxLiang
·
2019-11-30 03:44
Spark 1.6升级2.x防踩坑指南
原创文章,谢绝转载
Spark2
.x自2.0.0发布到目前的2.2.0已经有一年多的时间了,2.x宣称有诸多的性能改进,相信不少使用Spark的同学还停留在1.6.x或者更低的版本上,没有升级到2.x或许是由于
StanZhai
·
2019-11-29 22:41
scala spark
._3.启动sparkshell窗口,名字为zy,指定test队列
spark2
-shell--name"zytest"--masteryarn--queuetest
叫兽吃橙子
·
2019-11-29 16:28
每日一读 11.15
资源:
spark2
.3.0安装包下载【对应hadoop2.7.1版本】http://www.aboutyun.com/thread-23314-1-1.html深入Python3【617页】http:/
Vicor
·
2019-11-29 13:29
spark2
原理分析-广播变量(Broadcast Variables)的实现原理
概述本文介绍spark中BroadcastVariables的实现原理。基本概念在spark中广播变量属于共享变量的一种,spark对共享变量的介绍如下:通常,当在远程集群节点上执行传递给Spark操作(例如map或reduce)的函数时,它将在函数中使用的所有变量的单独副本上工作。这些变量将复制到每台计算机,而且远程机器上的变量的更新不会同步给驱动程序(driver)端。这种情况下,跨任务读写共
达微
·
2019-11-28 06:00
大数据DMP画像系统
系统的架构和开发4、大数据结合业务场景落地系统开发要求涉及的技术要点:spark、elasticsearch、hadoop、hive、LRGBDT等机器学习算法开发工具:idea、eclipse开发环境:
spark2
.2
13157330443
·
2019-11-27 22:27
大数据
dmp
画像系统
spark大数据架构初学入门基础详解
离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)特点:i.一站式:一个技术堆栈解决大数据领域的计算问题ii.基于内存d)
Spark2
009
13157330443
·
2019-11-27 22:11
spark
大数据
架构
spark学习笔记(一)
本文只是针对
spark2
,spark基本概念,简而言之就是:spark专门为大规模数据处理而设计的快速通用的计算引擎,是apache的一个开源项目。
伯安知心
·
2019-11-09 17:00
每日一读 10.24 spark优化 精华
Apache
Spark2
.2中基于成本的优化器(CBO)http://www.aboutyun.com/forum.php?mod=viewthread&tid=227461.什么是CBO,RBO?
Vicor
·
2019-11-08 12:03
深入理解Spark 2.1 Core (三):任务调度器的原理与源码分析
上一篇博文《深入理解
Spark2
.1Core(二):DAG调度器的实现与源码分析》讲到了DAGScheduler.submitMissingTasks中最终调用了taskScheduler.submitTasks
小爷Souljoy
·
2019-11-06 22:03
spark2
.0.0安装部署指南
spark2
.0.0安装部署指南标签(空格分隔):spark[TOC]下载安装包
spark2
.0.0默认使用scala2.11进行编译,所以在这里我们下载2.11版本的scala获取scala安装包:wgethttp
哈利罗乎
·
2019-11-06 05:28
Spark Example
此文主要记录学习
spark2
.0例子的一些信息。
spark2
基本不需要安装配置,直接装上scala就行。当然,有些example是依赖hadoop的hdfs的。
朝圣的路上
·
2019-11-05 00:08
上一页
24
25
26
27
28
29
30
31
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他