E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
spark2
.2.0源码学习过程记录:Day3
Day31、读《apachespark源码剖析》第三章第3.2节、3.3节因为3.3节的内容是是讲repl的,我暂时并不关系,所以这部分内容看看书就可以了而3.2节的内容是讲SparkContext的初始化,比较重要,这部分要看完书后自己再看下源码2、源码学习书中3.2节讲的是SparkContext的初始化,但是我学习的版本是2.2.0,初始化是SparkSession,它和SparkConte
猫耳山大王
·
2017-09-02 16:42
spark2.2.0源码学习
Cost Based Optimizer in Apache Spark 2.2
CostBasedOptimizerinApache
Spark2
.2by RonHu, ZhenhuaWang, WenchenFan and SameerAgarwal Posted in ENGINEERINGBLOGAugust31,2017ThisisajointengineeringeffortbetweenDatabricks
aegeaner
·
2017-09-01 16:24
Spark
Spark2
.x学习笔记:3、 Spark核心概念RDD
Spark学习笔记:3、Spark核心概念RDD3.1RDD概念弹性分布式数据集(ResilientDistributedDatasets,RDD),可以分三个层次来理解:数据集:故名思议,RDD是数据集合的抽象,是复杂物理介质上存在数据的一种逻辑视图。从外部来看,RDD的确可以被看待成经过封装,带扩展特性(如容错性)的数据集合。分布式:RDD的数据可能在物理上存储在多个节点的磁盘或内存中,也就是
程裕强
·
2017-08-30 16:59
Spark2.x学习笔记
Spark2.x学习笔记
Spark2
.x学习笔记:1、
Spark2
.2快速入门(本地模式)
1、
Spark2
.2快速入门(本地模式)1.1Spark本地模式学习Spark,先易后难,先从最简单的本地模式学起。
程裕强
·
2017-08-29 10:15
Spark2.x学习笔记
Spark2.x学习笔记
spark2
.2.0源码学习过程记录:Day1 Day2
Day1就像上学时候第一节课都不是正式上课,我第一天的学习也只是看了一些博客,以及《apachespark源码剖析》的前面两章(概念介绍和环境搭建等)1、先看博客,有总体感觉,预热http://www.cnblogs.com/hframe/p/6735123.html2、看《apachespark源码剖析》第一章、第二章Day2第二天开始看源码,采取看一段书,跟一段源码的方式这天只看了第三章的第一
猫耳山大王
·
2017-08-26 22:50
spark2.2.0源码学习
spark2
.2.0源码学习过程记录:Day1 Day2
Day1就像上学时候第一节课都不是正式上课,我第一天的学习也只是看了一些博客,以及《apachespark源码剖析》的前面两章(概念介绍和环境搭建等)1、先看博客,有总体感觉,预热http://www.cnblogs.com/hframe/p/6735123.html2、看《apachespark源码剖析》第一章、第二章Day2第二天开始看源码,采取看一段书,跟一段源码的方式这天只看了第三章的第一
猫耳山大王
·
2017-08-26 22:50
spark2.2.0源码学习
(一)Spark本地开发环境搭建与远程debug设置
由于采用的Spark是今年5月24号才发布的
Spark2
.1.1,网上大多数例子都是Spark1.X,因此走了不少弯路,才搭建好开发环境。一
ping_hu
·
2017-08-23 23:48
spark
Hadoop2.7.3+
Spark2
.1.0完全分布式集群搭建过程
1.选取三台服务器(CentOS系统64位)114.55.246.88主节点114.55.246.77从节点114.55.246.93从节点之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作。如果是用root用户操作的话就不存在以上问题。我是用root用户操作的。2.修改hosts文件修改三台服务器的hosts文件。vi/etc/hosts在原文件的
舞艺超炫
·
2017-08-17 16:21
hadoop
spark
云平台/大数据
Spark-SQL之DataFrame创建
本篇的SparkAPI基于
spark2
.1版本。1、DataFrame对象的生成DataFra
文哥的学习日记
·
2017-08-16 00:53
CentOS6.9+Hadoop2.7.3+Hive1.2.1+Hbase1.3.1+
Spark2
.1.1
大数据学习环境搭建(CentOS6.9+Hadoop2.7.3+Hive1.2.1+Hbase1.3.1+
Spark2
.1.1)www.ljt.cosa192.168.1.11www.ljt.cos02192.168.1.12www.ljt.cos03192.168.1.13
ljtyxl
·
2017-08-14 20:30
bigdata
1、Spark 2.1 源码编译支持CDH
目前CDH支持的spark版本都是1.x,如果想要使用
spark2
x的版本,只能编译spark源码生成支持CDH的版本。
小海蟹
·
2017-08-13 18:00
docker for mac 安装spark 2.2.0 + hadoop 2.8.0 集群
1、简述本文在mac上,使用docker搭建
spark2
.2+hadoop2.8.1集群,实现sparkonyarn的任务提交。
GOGO_YAO
·
2017-08-08 00:06
hadoop
spark
mac
yarn
docker
spark
spark2
.x写入数据到ElasticSearch5.X集群
官网首先就讲了throughthededicatedsupportavailablesince2.1orthroughtheMap/Reducebridgesince2.0.
Spark2
.0issupportedinelasticsearch-hadoops
ghostband_
·
2017-07-31 15:09
spark
6.RDD持久性
RDD持久性1WhyApache
Spark2
关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9SparkStreaming
全能程序猿
·
2017-07-23 15:21
Spark 提升spark1.6提交任务速度+配置
spark2
.x后hiveserver2运行失败
1.6.3-hadoop2.6.0.jar并把jar包上传到配置的位置,可以避免每次提交任务都重新上传在spark1.6版中,看启动的控制台日志可以发现,每次提交任务到yarn都会从本地上传一遍此jar包配置
spark2
Nougats
·
2017-07-21 20:56
hive
Spark 中读取csv文件(或其他分隔符分割的文件)
阅读更多注:所有需要的包都可以通过http://search.maven.org中搜索包名(比如spark-csv)进行下载;
spark2
中已经包含了这些包,直接用即可,而且支持同时读取多文件夹下的文件参见
cherishLC
·
2017-07-18 16:00
spark
Spark Release 2.2.0 最新版本发布,Spark 2.2.0是Spark 2.x中第一个在生产环境可以使用的版本,对于Spark具有里程碑意义
第2章
Spark2
.X技术及原理Apache官方网站于2017年7月11日发布了SparkRelease2.2.0版本,Apache
Spark2
.2.0版本是
Spark2
.x系列上的第三个版本。
段智华
·
2017-07-18 05:18
SparkInBeiJing
Spark Streaming遇到问题分析
SparkStreaming遇到问题分析1、
Spark2
.0之后搞了个StructuredStreaming还没仔细了解,可参考:https://github.com/lw-lin/Coo...2、Spark
xbynet
·
2017-07-17 00:00
java
spark-streaming
spark
开源大数据周刊-第60期
原文链接:https://my.oschina.net/u/3568122/blog/1377481原文地址资讯Apache
Spark2
.2.0正式发布
Spark2
.2.0持续了半年的开发,近期发布了2.2.0
chipo1143
·
2017-07-14 15:00
[Spark基础]-- spark-2.0图文讲解核心
fromSource=gwzcw.107190.107190.107190导语
spark2
.0于2016-07-27正式发布,伴随着更简单、更快速、更智慧的新特性,spark已经逐步替代hadoop在大数据中的地位
highfei2011
·
2017-07-11 22:15
Spark
Spark2
.1.0入门:Spark的安装和使用
Spark2
.1.0入门:Spark的安装和使用林子雨老师2017年2月19日(updated:2017年3月22日)9278【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
legendavid
·
2017-07-11 17:34
系统相关
其他
Spark的Dataset操作(一)-列的选择select
环境说明:用的版本是
Spark2
.1,Dataset操作很丰富,join的支持也蛮好的,比原来用的spark1.4好用多了。嗯,Dataset操作,我觉得最重要的是把Column类的用法弄清楚。
野男孩
·
2017-07-08 23:44
Spark
大数据
Spark
spark-sql
dataset
Spark
SQL专栏
Spark源码之persist方法,cache方法以及StorageLevel
cache方法
Spark2
.11关于cache方法的源码是这样的:/***PersistthisRDDwiththedefaultstoragelevel(`MEMORY_ONLY`).
逃出你的肖生克
·
2017-07-07 16:54
Spark
Spark2
.1.1
环境:
Spark2
.1.1准备工作persons.csv:+----+--------+---------+--------------+--------+|Id_P|LastName|FirstName
Gpwner
·
2017-06-30 18:33
spark
Idea创建maven的scala项目,Idea创建gradle项目,没有scala class选项
创建maven项目:使用Idea,如果没有安装scala插件,需要先安装插件:安装之后才能在项目中libraries中看到scalasdk安装截图:可以使用Idea直接下载scala对应版本,目前
spark2
.3
赣江
·
2017-06-30 00:17
后端开发
Spark如何读取Hbase特定查询的数据
基础软件版本如下:Hadoop2.7.2Hbase1.2.0
Spark2
.
三劫散仙
·
2017-06-29 21:03
spark
Spark中RpcEnv和SparkEnv的区别
RpcEnv在
Spark2
.x版本之后就只有Netty的实现了,因此看一下RpcEnv和NettyRpcEnv的声明:private[spar
javartisan
·
2017-06-27 22:40
Spark2
.1.1
测试条件以下是我的PC信息依赖:org.apache.sparkspark-streaming_2.112.1.1org.apache.hbasehbase-client1.3.1org.apache.hbasehbase-server1.3.11.第一种方法每次写进一条,调用API/***Putssomedatainthetable.**@paramputThedatatoput.*@throw
Gpwner
·
2017-06-21 11:19
spark
Spark2
.1.1
1.为什么要让运行时Jar可以从yarn端访问
spark2
以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在每一次我们运行的时候,如果没有指定
Gpwner
·
2017-06-19 10:12
spark
Hive
spark-assembly相关的Jar包cannotaccess/usr/local/spark/lib/spark-assembly-*.jar:Nosuchfileordirectory2.原因:
spark2
Gpwner
·
2017-06-19 09:18
hive
Spark2
.1.1
版本信息
spark2
.1.1scala2.11.81.SBT新建SBT项目选择scala:2.11.8添加依赖:spark_corename:="SBTTest"version:="1.0"scalaVersion
Gpwner
·
2017-06-15 23:16
spark
idea
maven
spark
如何使用scala+spark读写hbase?
阅读更多最近工作有点忙,所以文章更新频率低了点,希望大家可以谅解,好了,言归正传,下面进入今天的主题:如何使用scala+spark读写Hbase软件版本如下:scala2.11.8
spark2
.1.0hbase1.2.0
qindongliang1922
·
2017-06-12 19:00
spark
scala
hbase
如何使用scala+spark读写hbase?
阅读更多最近工作有点忙,所以文章更新频率低了点,希望大家可以谅解,好了,言归正传,下面进入今天的主题:如何使用scala+spark读写Hbase软件版本如下:scala2.11.8
spark2
.1.0hbase1.2.0
qindongliang1922
·
2017-06-12 19:00
spark
scala
hbase
Spark2
.0.X源码深度剖析之 RpcEnv & NettyRpcEnv
Spark目前是大数据领域中最火的框架之一,可高效实现离线批处理,实时计算和机器学习等多元化操作,阅读源码有助你加深对框架的理解和认知本人将依次剖析
Spark2
.0.0.X版本的各个核心组件,包括以后章节的
ws0owws0ow
·
2017-06-12 10:00
源码
spark
大数据
Spark2
.0.X源码深度剖析之 SparkEnv
Spark目前是大数据领域中最火的框架之一,可高效实现离线批处理,实时计算和机器学习等多元化操作,阅读源码有助你加深对框架的理解和认知本人将依次剖析
Spark2
.0.0.X版本的各个核心组件,包括以后章节的
ws0owws0ow
·
2017-06-11 11:00
源码
spark
大数据
Spark2
.0.X源码深度剖析之 SparkContext
Spark目前是大数据领域中最火的框架之一,可高效实现离线批处理,实时计算和机器学习等多元化操作,阅读源码有助你加深对框架的理解和认知本人将依次剖析
Spark2
.0.0.X版本的各个核心组件,包括以后章节的
ws0owws0ow
·
2017-06-10 20:00
源码
spark
大数据
Spark2
.0.X源码深度剖析之 Spark Submit..
Spark目前是大数据领域中最火的框架之一,可高效实现离线批处理,实时计算和机器学习等多元化操作,阅读源码有助你加深对框架的理解和认知本人将依次剖析
Spark2
.0.0.X版本的各个核心组件,包括以后章节的
ws0owws0ow
·
2017-06-09 20:00
源码
spark
大数据
Spark2
.1.0入门:DStream转换操作
DStream转换操作包括无状态转换和有状态转换。无状态转换:每个批次的处理不依赖于之前批次的数据。有状态转换:当前批次的处理需要使用之前批次的数据或者中间结果。有状态转换包括基于滑动窗口的转换和追踪状态变化的转换(updateStateByKey)。DStream无状态转换操作下面给出一些无状态转换操作的含义:*map(func):对源DStream的每个元素,采用func函数进行转换,得到一个
m635674608
·
2017-06-07 20:16
SPARK官方实例:两种方法实现随机森林模型(ML/MLlib)
在
spark2
.0以上版本中,存在两种对机器学习算法的实现库MLlib与ML,比如随机森林:org.apache.spark.mllib.tree.RandomForest和org.apache.spark.ml.classification.RandomForestClassificationModel
O白马非马O
·
2017-05-31 17:24
数据挖掘
spark
第七章 Linux常用命令(基本用户管理)
1.添加一个用户:1.) useradd
spark2
.) passwdspark 根据提示设置密码2.删除一个用户:userdel-rspark 3.修改用户:1.)修改tom用户的登录名为tomcatusermod-ltomcattom2
superboyLM
·
2017-05-28 09:00
Spark Structured Streaming、Kafak整合
StructuredStreamingSBT依赖包:groupId=org.apache.sparkartifactId=spark-sql-kafka-0-10_2.11version=2.1.1在
Spark2
千寻千梦
·
2017-05-26 13:49
spark
基于pyspark 和scala spark的jupyter notebook 安装
1.spark安装(本次启动一个worker)首先安装spark打开apachespark官网下载页点这里选择spark版本下载,这里我选
spark2
.0.2在linux系统中使用wget下载,wget
Xmo_jiao
·
2017-05-24 11:33
spark
Spark 中关于Parquet的应用与性能初步测试
和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目http://parquet.apache.org/Spark关于Parquet的支持这里我们使用的版本为
spark2
.0.1
去买大白兔
·
2017-05-21 14:35
hadoop
spark
大数据
第25课 Spark Hash Shuffle源码解读与剖析
第25课:SparkHashShuffle源码解读与剖析
Spark2
.1x现在的版本已经没有HashShuffle的方式,那为什么我们还要讲解HashShuffle源码的内容呢?
段智华
·
2017-05-21 07:27
SparkInBeiJing
Spark
shuffle
第35课:彻底解密Spark 2.1.X中Sort Shuffle 中TimSort排序源码具体实现
第35课:彻底解密
Spark2
.1.X中SortShuffle中TimSort排序源码具体实现
Spark2
.1.X中SortShuffle中TimSort排序:1,从Spark1.6.x开始,默认核心的
段智华
·
2017-05-18 07:38
SparkInBeiJing
Spark
shuffle
Linux安装单机版Spark(CentOS7+
Spark2
.1.1+Scala2.12.2)
1安装Spark依赖的Scala1.2为Scala配置环境变量1.3验证Scala2下载和解压缩Spark3Spark相关的配置3.1配置环境变量3.2配置conf目录下的文件3.2.1新建spark-env.h文件3.2.2新建slaves文件4测试单机模式的Spark4.1用单机模式运行Spark示例程序4.2启动SparkShell命令行窗口关键字:LinuxCentOSSparkScala
陈南志
·
2017-05-17 13:42
Linux
运维
CentOS
spark
scala
Linux下搭建spark集群开发环境
1.首先去spark官网下载相关软件,我这里用的是
spark2
.1.0版本http://spark.apache.org/downloads.html,对应的hadoop版本是2.7.02.
梦岚如雪
·
2017-05-17 11:04
Linux
spark
集群搭建
安装hadoop-2.8.0
hdfs安装0x03 hive安装0x04 hive安装0x05 spark安装0x06 启动报错0x07 参考0x01 版本版本hdaoop2.8 hbase-1.2.5 Hive2.1.1
spark2
.1.1
fanren30k
·
2017-05-17 10:02
hadoop
config
Linux安装Spark集群(CentOS7+
Spark2
.1.1+Hadoop2.8.0)
1安装Spark依赖的Scala1.1下载和解压缩Scala1.2配置环境变量1.3验证Scala2下载和解压缩
Spark2
.1下载Spark压缩包2.2解压缩Spark3Spark相关的配置3.1配置环境变量
陈南志
·
2017-05-16 22:15
Linux
运维
CentOS
hadoop
spark
scala
6.配置spark环境
spark1:Master、Worker
spark2
:Workerspark3:Worker1.基本spark1环境配置解压缩spark包:tarzxvfspark-1.3.0-bin-hadoop2.4
豆不女
·
2017-05-14 09:22
上一页
35
36
37
38
39
40
41
42
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他