E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
Spark2
.0 scheduler模块源码学习
Scheduler模块主要负责stage的划分,以及job的调度及submit。是整个spark计算流程中比较重要的部分。�1.从saveAsTextFile开始��阅读该部分代码可以从任意一个action方法开始,例如saveAsTextFile方法:一路跟下去直到PairRDDFunctions.saveAsHadoopDataset中有一行self.context.runJob(self,w
疯狂的轻骑兵
·
2020-03-26 22:14
Spark2
.x+Python大数据机器学习实战视频教程
Spark2
.x+Python大数据机器学习实战视频教程提取码:6o68x学习:https://pan.baidu.com/s/13kOswCBRsnXBJWsPGBZDqQ机器学习是近二十来年兴起的多领域学科
几度丶春秋
·
2020-03-26 02:08
Spark Streaming(1) - 基本原理
本文基于
spark2
.111.前言spark使用RDD来抽象的表示数据,用户使用RDD提供的一些算子编写自己的sparkapplication,使用RDD抽象表示数据要求对于输入数据是静态的,但是在流式数据处理中数据如同流水一样不停的在管道中产生
aaron1993
·
2020-03-23 23:27
spark 机器学习随机代码笔记
以下的版本按以下方式安装ipython安装:matplotlibpipinstallmatplotlib如果还没有安装,请自行百度http://www.jianshu.com/p/0e2f1125d289在
spark2
.0
A伙伴活动
·
2020-03-22 23:25
Flume+Kafka+
Spark2
.3.3 实战 之 序列化类-StringDeserializer 异常处理
上周搭起了公司的测试集群环境,本人使用的是apache版本的,在测试flume+kafka+spark的时候,在Idea上运行spark程序是没问题的,但是在把程序打成jar包之后却出现了问题,百度了两天,请教了几个大神,也没解决问题,这就有点不淡定了,周末都没有心情喝酒了,哈哈。 这次测试中总共出现了三大问题 》》》一个是:Exceptioninthread"main"java.lang.
小飞牛_666
·
2020-03-22 07:55
第三章
spark2
.0实验环境搭建
创建于:20161208本章小目标在上一章的基础上进行操作安装
spark2
.0测试环境构建至少3个节点的spark集群基于yarn模式构建集群软件版本java:jdk-8u91-linux-x64.tar.gz
比特阳
·
2020-03-21 22:53
深入理解Spark 2.1 Core (九):迭代计算和Shuffle的原理与源码分析
在博文《深入理解
Spark2
.1Core(七):任务执行的原理与源码分析》我们曾讲到过:Task有两个子类,一个是非最后的Stage的Task,ShuffleMapTask;一个是最后的Stage的Task
小爷Souljoy
·
2020-03-21 06:36
Spark2
.4.0 源码编译
Spark源码编译源码下载从github上下载最新版本spark源码https://github.com/apache/sparkApacheMaven(Maven编译)基于maven的编译的版本要求如下:Maven版本:3.5.4+Java版本:java8+设置maven使用内存exportMAVEN_OPTS="-Xmx2g-XX:ReservedCodeCacheSize=512m"如果没有
井地儿
·
2020-03-20 22:38
spark on mesos 两种运行模式
blog.csdn.net/lsshlsw/article/details/47104913Sparkonmesos有粗粒度(coarse-grained)和细粒度(fine-grained)两种运行模式,细粒度模式在
spark2
.0
Albert陈凯
·
2020-03-20 07:02
可能是全网最详细的 Spark Sql Aggregate 源码剖析
SparkSqlAggregate源码剖析本文基于
Spark2
.3.0源码,其他版本实现可能会略有不同纵观SparkSql源码,聚合的实现是其中较为复杂的部分,本文希望能以例子结合流程图的方式来说清楚整个过程
牛肉圆粉不加葱
·
2020-03-20 05:35
Spark 2.X 上累加器(Accumulators)不能用了?原来如此
本文基于
Spark2
.1.0版本今天整理累加器的知识点时,发现实例化一个Accumulator对象,编译无法通过:
Spark2
.x版本使用Accumulator类时编译出错,提示类过时查了一下
Spark2
俺是亮哥
·
2020-03-19 08:38
spark streaming连接kafka引发"partition.assignment.strategy"异常处理
服务器运行环境:
spark2
.4.4+scall2.11.12+kafka2.2.2由于业务相对简单,kafka只有固定topics,所以一直使用下面脚本执行实时流计算spark-submit--packagesorg.apache.spark
AllEmpty
·
2020-03-18 10:00
Spark 2.x项目实战视频教程(实时统计、离线分析和实时ETL)
Spark2
.x项目实战视频教程(实时统计、离线分析和实时ETL)课程学习地址:http://www.xuetuwuyou.com/course/309课程出自学途无忧网:http://www.xuetuwuyou.com
菜花小噗噗
·
2020-03-17 17:37
Spark executor 模块③ - 启动 executor
本文为
Spark2
.0源码分析笔记,由于源码只包含standalone模式下完整的executor相关代码,所以本文主要针对standalone模式下的executor模块,文中内容若不特意说明均为standalone
牛肉圆粉不加葱
·
2020-03-17 06:18
深入理解Spark 2.1 Core (十二):TimSort 的原理与源码分析
http://blog.csdn.net/u011239443/article/details/57406300在博文《深入理解
Spark2
.1Core(十):ShuffleMap端的原理与源码分析》中我们提到了
小爷Souljoy
·
2020-03-17 03:06
Hadoop2.7.4+
Spark2
.2.0滴滴云分布式集群搭建过程
1.在滴滴云申请三台服务器(CentOS系统64位7.3)MasterWorker1Worker2公网116.85.9.118公网116.85.9.117公网116.85.9.119内网10.254.0.58内网10.254.0.94内网10.254.0.88单核2G内存单核1G内存单核1G内存2.修改hosts文件修改三台服务器的hosts文件,vim/etc/hosts(需要权限加上sudov
14142135623731
·
2020-03-17 01:24
Spark SQL 探索
1.环境说明Hadoop2.7.1集群
Spark2
.0.1集群Hive2.0.12.内容简介SparkSQL基本操作3.参考文档本节推荐阅读的理论文章:3.1SparkSQLandDataFrameGuide
玄月府的小妖在debug
·
2020-03-14 19:32
Spark Streaming(2) - JobScheduler、JobGenerator
本文基于
Spark2
.111.前言SparkStreaming(1)中提到JobScheduler使用JobGenerator可以每隔一段时间根据DStreamDAG创建出RDDDAG,并提交job,本文主要介绍
aaron1993
·
2020-03-13 20:12
提交任务到集群
Hadoop2.7.4+
Spark2
.2.0滴滴云分布式集群搭建过程使用IDEA+sbt构建Scala+spark应用,统计英文词频代码很简单importorg.apache.spark.
14142135623731
·
2020-03-12 19:40
利用Spark提供的属性来提升Spark Web UI的安全性
本文基于
Spark2
.1.0版本、Hadoop2.7.3版本如无特殊说明,本文的SparkWebUI,特指:[DriverWebUI](默认是http://运行Driver程序的主机IP:4040)Spark
俺是亮哥
·
2020-03-10 17:59
在Linux集群上部署Spark
作者写本文时,最新的版本为2.2.0,因此此文章所述环境搭建均已
Spark2
.2.0版本为例。
大数据与人工智能
·
2020-03-07 15:04
Spark Task 的执行流程② - 创建、分发 Task
本文为
Spark2
.0源码分析笔记,由于源码只包含standalone模式下完整的executor相关代码,所以本文主要针对standalone模式下的executor模块,文中内容若不特意说明均为standalone
牛肉圆粉不加葱
·
2020-03-07 04:07
Spark 2.x+IntelliJ IDEA 2017.3开发环境搭建和开发示例
【原创】Helenykwang于2018-01-1318:10:18编写不用maven,不用sbt,只需三个库一、环境说明集群:
Spark2
.1.2+hadoop2.3开发机OS:win7Jdk1.8.0
柠樂helen
·
2020-03-06 10:46
Windows下Spark环境搭建
我这里使用的是
Spark2
.0.0,Scala选择版本2.11.8。下载二进制版本的Scala,即.msi文件。双击执行安装。
insoPlus
·
2020-03-03 22:37
Spark2
.0 Programming Guide(
Spark2
.0编程指导)
1.Overview-概览每一个Spark应用都是由包含一个main方法的driverprogram组成,并且能够在一个集群上执行一系列的并行操作。Spark的第一个主要抽象概念是RDD(Resilientdistributeddataset)-分布在集群的各个节点上能够被并行操作的被分割的数据集。RDD开始可以是由在hdfs(或其他hadoop支持的文件系统)上的文件或者是driverprogr
咖啡色码农
·
2020-03-03 12:36
8.Spark SQL
SparkSQL1WhyApache
Spark2
关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量
全能程序猿
·
2020-03-03 11:42
Spark Task 的执行流程③ - 执行 task
本文为
Spark2
.0源码分析笔记,其他版本可能稍有不同创建、分发Task一文中我们提到TaskRunner(继承于Runnable)对象最终会被提交到Executor的线程池中去执行,本文就将对该执行过程进行剖析
牛肉圆粉不加葱
·
2020-03-03 07:25
Spark on Mesos 部署
开发环境jdk1.8Centos7
Spark2
.0Mesos0.28(见messos安装)启动脚本Spark集群规划(centos148,centos149,centos150)Spark集群配置centos148
carrie_chh
·
2020-03-03 06:11
【记录|Spark】简单的电影推荐系统
我使用的Spark版本为
Spark2
.2.0,实验楼教程使用的是Spark1.6.1流程和算法介绍这个简单的电影推荐系统是根据已有用户对电影的评价系统,针对特定用户输出其可能会感兴趣的电影,构成一个简单的电影推荐系统
XXX被用了
·
2020-03-01 23:02
7.spark共享变量
spark共享变量1WhyApache
Spark2
关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量
全能程序猿
·
2020-03-01 01:22
spark 发布 2.2.0版本
spark发布2.2.0版本Apache
Spark2
.2.0是2.x分支上的第三次主版本发布,其他两个版本分别2.0.x,2.1.x两个主版本以及下属的分支版本。
艾七
·
2020-02-29 21:00
spark RDD,reduceByKey vs groupByKey
先看两者的调用顺序(都是使用默认的Partitioner,即defaultPartitioner)所用spark版本:
spark2
.1.0先看reduceByKeyStep1defreduceByKey
大数据_zzzzMing
·
2020-02-29 17:41
spark源码----Spark 通讯架构
Spark通信架构概述
Spark2
.x版本使用Netty通讯框架作为内部通讯组件。
没有合适的昵称
·
2020-02-29 17:55
spark
Spark executor模块① - 主要类以及创建 AppClient
本文为
Spark2
.0源码分析笔记,由于源码只包含standalone模式下完整的executor相关代码,所以本文主要针对standalone模式下的executor模块,文中内容若不特意说明均为standalone
牛肉圆粉不加葱
·
2020-02-28 14:27
Spark executor 模块② - AppClient 向 Master 注册 Application
本文为
Spark2
.0源码分析笔记,由于源码只包含standalone模式下完整的executor相关代码,所以本文主要针对standalone模式下的executor模块,文中内容若不特意说明均为standalone
牛肉圆粉不加葱
·
2020-02-27 15:12
spark2
.0-executor分配机制源码学习
本文主要讲解一下
spark2
.0版本Spark-StandAlone模式下executor的分配过程和分配机制。跟踪这一块的源代码应该从SparkContext类开始。
疯狂的轻骑兵
·
2020-02-27 12:37
1-Spark概述
是什么快如闪电般的分布式计算框架:Lightning-fastcluster3MapReduce框架局限性image.png4Hadoop生态圈中的各种框架image.png5Spark的优势image.pngimage.png6
SPARK2
Achaichai
·
2020-02-26 08:05
[开源]Apache Bahir 2.0.2 发布,分布式分析平台覆盖拓展
该版本为Apache
Spark2
.0.2提供以下
葡萄喃喃呓语
·
2020-02-25 08:47
Spark Storage ② - BlockManager 的创建与注册
本文为
Spark2
.0源码分析笔记,某些实现可能与其他版本有所出入上一篇文章介绍了SparkStorage模块的整体架构,本文将着手介绍在StoreageMaster和Slave上发挥重要作用的BlockManager
牛肉圆粉不加葱
·
2020-02-24 21:51
大数据Structured Streaming教程1:概念及使用
在
Spark2
.x中,新开放了一个基于DataFrame的无下限的流式处理组件——StructuredStreaming,它也是本系列的主角,废话不多说,进入正题吧!
哈哈哈_53b3
·
2020-02-23 03:04
Spark2
.1.1 Yarn ShuffleService在NodeManager升级问题分析
一、问题首先,团队里不同的小组使用同一套hadoop集群,有做sqoop任务的,有做flink的,也有跑spark的。最近spark迁移2.1.1,升级shuffle-service,所以编译完社区2.1.1版本之后,就更新了nodemanager下的shuffle-service依赖,对于spark任务没有任何问题;但问题却出在,其他小组在使用hadoop集群时,原本是运行的好好的,在升级完sh
分裂四人组
·
2020-02-23 00:51
Spark2
.2.0源码构建阅读
源码下载源码获取有两种渠道:一种是通过Spark官网直接下载,第二种是通过github直接将spark的代码clone下来。官网地址:https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0.tgzgithub地址:https://github.com/apache/spark/tree/branch-2.2解压后目录:解压目录源码编译工具版本maven3
零度沸腾_yjz
·
2020-02-21 04:14
Ambari HDP 下
SPARK2
与 Phoenix 整合
1、环境说明操作系统CentOSLinuxrelease7.4.1708(Core)Ambari2.6.xHDP2.6.3.0
Spark2
.xPhoenix4.10.0-HBase-1.22、条件HBase
FreeShow
·
2020-02-20 23:54
spark
推酷《编程狂人》第一一四期
业界新闻Apache
Spark2
.0最快今年4月亮相Realm推出了适用于ReactNative的新数据库微软收购Xamarin或许对C#开发者是个好消息Salesforce收购机器学习创业新星PredictionIO
推酷
·
2020-02-20 19:32
Spark组件间通信
Spark2
.x之前使用的是Akka作为底层框架来实现Actor模型的,Spark
JaxYoun
·
2020-02-20 18:00
Spark组件间通信
Spark2
.x之前使用的是Akka作为底层框架来实现Actor模型的,Spark
JaxYoun
·
2020-02-20 18:00
Ambari HDP 下
SPARK2
与 Phoenix 整合
1、环境说明操作系统CentOSLinuxrelease7.4.1708(Core)Ambari2.6.xHDP2.6.3.0
Spark2
.xPhoenix4.10.0-HBase-1.22、条件HBase
跟着大数据和AI去旅行
·
2020-02-20 17:00
Ambari HDP 下
SPARK2
与 Phoenix 整合
1、环境说明操作系统CentOSLinuxrelease7.4.1708(Core)Ambari2.6.xHDP2.6.3.0
Spark2
.xPhoenix4.10.0-HBase-1.22、条件HBase
跟着大数据和AI去旅行
·
2020-02-20 17:00
大数据环境部署(一)
1.软件版本软件版本号jdk1.8.xscalaScala2.11.12zookeeper3.4.10kafka2.11_0.11.0.1hadoop2.6.5
spark2
.3spark-2.3.0-bin-hadoop2.6
梧上擎天
·
2020-02-20 13:16
Spark Storage ③ - Master 与 Slave 之间的消息传递与时机
本文为
Spark2
.0源码分析笔记,某些实现可能与其他版本有所出入再次重申标题中的Master是指SparkStorage模块的Master,是运行在driver上的BlockManager及其包含的BlockManagerMaster
牛肉圆粉不加葱
·
2020-02-19 05:36
上一页
22
23
24
25
26
27
28
29
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他