E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
spark2
.3源码分析之RDD的persist流程
概述当根据存储级别缓存RDD时,其实是将RDD数据存储到BlockManager的memoryStore和diskStore。memoryStore最终是通过调用UnifiedMemoryManager#acquireStorageMemory()方法分配storagememory,所以缓存RDD到内存使用的是storagememory的内存。cache()方法时最终调用的是persist(Sto
zhifeng687
·
2019-07-31 15:09
spark
跟我一起学【HDFS】之——hdfs统计文件夹存储
Found17itemsdrwxrwx---+-hivehive02019-02-2119:27/appsdrwxrwxrwx+-mapredhadoop02019-02-2119:23/mr-historydrwxrwxrwt+-
spark2
xhadoop02
SunWuKong_Hadoop
·
2019-07-25 10:44
hadoop
Hdfs
Spark 初始化对象
Spark1+和
Spark2
+初始化SparkContext有所区别,现列出Spark1.5.1和
Spark2
+中初始化sc方式:1.
Spark2
+先创建一个SparkSession对象:通过config
daoxu_hjl
·
2019-07-21 00:00
Spark
Apache Spark 中内存存储演进
本文总结ApacheSpark社区最近为增强
Spark2
.3中的列存储而做的工作。列式存储被称为保持列连续性的有效格式。以前版本的Spark在一些地方使用了列式存储,并将其作为一种内部数据结构。
Hadoop技术博文
·
2019-07-10 08:32
宜信开源|大数据虚拟混算平台Moonbox配置指南
一、环境准备已安装Apache
Spark2
.2.0(此版本仅支持Apache
Spark2
.2.0,其他Spark版本后续会兼容)已安装MySQL并启动,且开启远程访问各安装节点已经配置ssh免密登录二、
宜信技术学院
·
2019-07-10 00:00
mysql
开源软件
大数据
大数据虚拟混算平台Moonbox配置指南
一、环境准备已安装Apache
Spark2
.2.0(此版本仅支持Apache
Spark2
.2.0,其他Spark版本后续会兼容)已安装MySQL并启动,且开启远程访问各安装节点已经配置ssh免密登录二、
宜信技术
·
2019-07-08 19:44
大数据
开源软件
虚拟混算
如何正确在IDEA 里maven构建的项目中引入lib的jar包(图文详解)
问题详情以下是我,maven构建出来的最新
spark2
.2.0-bin-hadoop2.6的项目。有些依赖包,maven还是无法一次性满足,所以,得手动加入lib的jar包。
柯上将
·
2019-07-08 15:07
java
Python搭建Spark分布式集群环境
本教程采用
Spark2
.0以上版本(比如
Spark2
.0.2、
Spark2
.1.0等)搭建集群,同样适用于搭建Spark1.6.2
E-iceblue
·
2019-07-05 17:26
Spark-内存管理调优
spark2
.0+内存模型调优内存使用时需要考虑三个因素:对象使用的内存数量(您可能希望您的整个数据集都能装入内存);访问这些对象的成本垃圾收集的开销(如果对象的周转率很高)。
lillcol
·
2019-07-04 00:00
Structed Streaming
但是,自
Spark2
.3以来,引入了一种称为连续处理的新型低延迟处理模式,它可以实现低至1毫秒的端到端延迟,并且具有至少一次的保证。编程模型结构化流中的关键思想是将实时数据流视为连续追加的表。
iware99
·
2019-07-03 23:38
TSDB
大数据
Spark系列 —— 本地Spark连接远程集群Hive(Scala/Python)
代码如下(版本为
Spark2
.0+):Scala版本代码如下:importorg.apache.spark.sql.SparkSessionobje
A&F
·
2019-07-03 21:47
Spark
Hive
spark2
.3源码分析之ResultTask读取并处理shuffle file的流程(二)
概述大部分maptask与reducetask的执行是在不同的节点上,reduce执行时需要跨节点去拉取其它节点上的ShuffleMapTask结果,那么对集群内部的网络资源消耗会很严重。我们希望最大化地减少不必要的消耗,于是对Shuffle过程的期望有:完整地从maptask端拉取数据到reduce端。在跨节点拉取数据时,尽可能地减少对带宽的不必要消耗。减少磁盘IO对task执行的影响。可优化的
zhifeng687
·
2019-07-03 19:42
spark
在Ubuntu上安装Spark
1.下载
spark2
.4.3使用用户的hadoop的版本,解压并放到/usr/local下并改名为spark目录2.设置spark目录为本用户所有3.设置环境变量(1)#~/.bashrcexportSPARK_HOME
small—dong
·
2019-07-01 19:00
spark 2.x在windows环境使用idea本地调试启动了kerberos认证的hive
2环境Jdk1.8.0
Spark2
.1.0Scala2.11.8Hadoop2.6.0-cdh5.12.1H
XIAO的博客
·
2019-07-01 18:00
Spark每日半小时(30)——结构化流式编程:Dataset/DataFrame API1:基本操作
从
Spark2
.0开始,DataFrames和Dataset可以表示静态的,有界的数据,以及流式无界数据。
DK_ing
·
2019-06-28 09:26
#
大数据——Spark每日半小时
#
Spark每日半小时
Pyspark实战(一)环境部署
这里假设Python环境已经部署完成,相关版本如下:
spark2
.2.0,部署过程参考https://blog.csdn.net/luoye4321/article/details/90552674。
落叶1210
·
2019-06-27 22:59
大数据
pyspark
python程序访问hive仓库,并将读取的数据写入文本
实验环境centos7;py
spark2
.4.3;在访问Hive数据仓库之前,需要我们配置hadoop中一些组件,使得我们可以顺利访问hdfs,hive(可以通过hadoop-h,hive进行测试是否配置成功
Solarzhou
·
2019-06-27 17:50
程序人生
大数据
伐木累
Spark内置图像数据源初探
概述在Apache
Spark2
.4中引入了一个新的内置数据源,图像数据源.用户可以通过DataFrameAPI加载指定目录的中图像文件,生成一个DataFrame对象
阿里云云栖社区
·
2019-06-27 00:00
apache
spark
大数据
编程语言
Spark每日半小时(25)——数据源:ORC文件、JSON数据集、Hive表
ORC文件从
Spark2
.3开始,Spark支持带有ORC文件的新ORC文件格式的矢量化ORC阅读器。为此,新添加了以下配置。
DK_ing
·
2019-06-25 22:37
#
大数据——Spark每日半小时
#
Spark每日半小时
Spark每日半小时(25)——数据源:ORC文件、JSON数据集、Hive表
ORC文件从
Spark2
.3开始,Spark支持带有ORC文件的新ORC文件格式的矢量化ORC阅读器。为此,新添加了以下配置。
DK_ing
·
2019-06-25 22:37
#
大数据——Spark每日半小时
#
Spark每日半小时
spark RDD编程实践例子
本文把spark基本操作函数方法详细描述,并应用实践sparkSesion:是对在
spark2
.0后出现了sparksession的方法来声明sparkconf和context:是spark早期版本的数据生成
jacobwe
·
2019-06-25 14:28
大数据开发
大数据spark笔记
spark2
.3源码分析之ResultTask读取并处理shuffle file的流程
ResultTask概述ResultTask执行当前分区的计算,首先从ShuffleMapTask拿到当前partition的数据,会从所有的ShuffleMapTask都拿一遍当前的partition数据。最后合并所有的ResultTask输出结果,返回给driverapplication。成员变量private[spark]classResultTask[T,U](stageId:Int,st
zhifeng687
·
2019-06-23 00:25
spark
spark2
.4安装
1、配置环境变量exportSPARK_HOME=/opt/module/spark-2.4.3exportPATH=$PATH:$SPARK_HOME/binsource/etc/profile2、spark-env.sh文件配置cd/opt/module/spark-2.4.3/conf/cpspark-env.sh.templatespark-env.shvispark-env.sh增加以下
zaiou
·
2019-06-21 09:50
大数据
Spark学习笔记(4)
Spark2
全面深度剖析--知识点视频,源码,调优,JVM,图计算,项目实战
26套Spark企业级项目实战,源码深度剖析,实时流处理,机器学习,数据分析,运行原理,性能调优,图计算,性能调优,缓存优化,监控分析SparkCore,SparkSQL,SparkStreaming,Kafka,Flume,Scale,Python视频课程视频课程包含:26套Spark项目实战包含:大数据之Spark高级课程,企业级项目实战,源码深度剖析,实时流处理,机器学习,数据分析,运行原理
wx5d089cc7a67a3
·
2019-06-19 16:38
spark
源码
调优
Spark2
.x源码阅读之SparkContext
本文主要介绍SparkContext中的主构造方法里面的内容,即初始化过程,其中调用的方法留到后面讲解。try{_conf=config.clone()//拷贝配置文件_conf.validateSettings()//验证配置文件是否有错if(!_conf.contains("spark.master")){//没有设置Master则报错thrownewSparkException("Amast
LMRzero
·
2019-06-19 09:55
Spark
Spark内置图像数据源初探
概述在Apache
Spark2
.4中引入了一个新的内置数据源,图像数据源.用户可以通过DataFrameAPI加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理
阿里云云栖社区
·
2019-06-17 00:00
string
存储过程
图像
spark
Spark Streaming 指南--
Spark2
.4.3
目录总览快速入门基本概念库依赖初始化StreamingContext离散Streams(DStreams)输入DStreams和接收器基本数据源文件流如何监控目录使用对象存储作为数据源基于自定义接收器的流将RDD队列作为流数据高级数据源自定义源(Python不支持)Receiver的可靠性DStreams上的transformationsUpdateStateByKey操作transformati
涯若
·
2019-06-15 00:36
大数据
Apache Spark 2.0 在作业完成时却花费很长时间结束
现象大家在使用Apache
Spark2
.x的时候可能会遇到这种现象:虽然我们的SparkJobs已经全部完成了,但是我们的程序却还在执行。
胖头鱼
·
2019-06-14 14:53
PyCharm搭建Spark开发环境实现第一个pyspark程序
一,PyCharm搭建Spark开发环境Windows7,Java1.8.0_74,Scala2.12.6,
Spark2
.2.1,Hadoop2.7.6通常情况下,Spark开发是基于Linux集群的,
-赶鸭子上架-
·
2019-06-13 16:24
kafka Drictor维护偏移量
Apache
Spark2
.1.x以及spark-streaming-kafka-0-10使用新的的消费者API即异步提交API。
H.U.C.小黑
·
2019-06-11 10:03
Spark
工具代码
Spark SQL操作之-函数汇总篇-中
rank(),rows_number()的排序编号差异ntile(k)用于等分数据集percent_rank()用于按排名的百分比统计cume_dist()用于统计值的分布环境说明1.JDK1.82.
Spark2
.1
野男孩
·
2019-06-09 08:17
大数据
Spark
spark-sql
dataset
Spark
SQL专栏
Structured Streaming(阿里 云魄 直播视频记录)
StructuredStreaming特点工作原理micro-batch处理模式continuous处理理模式exactlyonce-sourceexactlyonce-sink容错exactlyonce--statestore容错
Spark2
.4
巴掌大的脚印
·
2019-06-08 15:42
大数据
SPARK
Java Spark读取Hbase数据,将结果写入HDFS文件
环境:Hadoop2.6,
Spark2
.1,jdk1.8注意:hadoop集群启用了kerberos认证,不带认证的需要根据注释简单修改几行代码即可一、案例Java编程要求:读取Hbase表zyl_user
小猪酷跑
·
2019-06-07 12:02
Hadoop生态
数据处理工具
java工具使用
Spark SQL操作之-函数汇总篇-上
环境说明1.JDK1.82.
Spark2
.1概要跟所有的传统关系数据库一样,SparkSQL提供了许多内置函数方便处理数据。同时它也知道不可
野男孩
·
2019-05-28 08:03
Spark
大数据
Spark
spark-sql
dataset
Spark
SQL专栏
Spark 数据读取冷启动优化分析
文章目录背景InMemoryFileIndexbefore
spark2
.1after
spark2
.1优化HDFS获取File元数据性能文件元数据读取方式及元数据缓存管理结语参考背景Spark一次查询过程可以简单抽象为
breeze_lsw
·
2019-05-27 18:53
Spark
生产环境中的spark
spark2
.4.2安装过程
1、下载scalar,解压到路径/usr/local/scalar在/etc/profile文件中加入安装路径vim/etc/profile添加以下内容exportSCALA_HOME=/usr/local/scala/scala-2.12.8exportPATH=$PATH:$SCALA_HOME/bin执行文件source/etc/profile安装完成,验证是否成功:scala-versio
e_123456457
·
2019-05-26 16:11
基于
Spark2
.X系列的累加器和Streaming基础
Spark2
.0系列引入了一个更加简单和更高性能的累加器API,如在1.X版本中可以这样使用累加器:valsparkSession=SparkSession.builder().master("local
|旧市拾荒|
·
2019-05-21 21:00
SparkStreaming安全消费Kafka数据
前言在这之前做SparkStreaming连接Kafka,我会这么写:valsparkConf=newSparkConf().setAppName("
Spark2
Kafka")valssc=newStreamingContext
SunnyRivers
·
2019-05-21 16:41
Spark
Kafka
CDH5.10.0 KYLIN2.6
SPARK2
.1 心得
hostname不能有下划线#先执行了卸载mariajavacp了环境变量exportJAVA_HOME=/usr/local/jdk1.8.0_191exportM2_HOME=/usr/local/mavenexportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexportJRE_HOME=$JAVA_HOME/jree
dian张
·
2019-05-20 18:07
CDH
StructuredStreaming项目开发记录
StructuredStreaming项目开发记录版本说明:
Spark2
.4前言最近基于SparkStructuredStreaming开发一套实时数据判别清洗系统,在开发过程接触了一些StructuredStreaming
shirukai
·
2019-05-20 09:47
Spark
spark
Structured
streaming
流处理
Spark ML(3):回归算法实现(线性回归、逻辑回归)
一、环境配置1.
spark2
.1.0-cdh5.7.0(自编译)2.cdh5.7.03.scala2.11.84.centos6.4二、环境准备1.spark客户端调试环境搭建参考:https://blog.csdn.net
RayBreslin
·
2019-05-18 11:20
Spark
ML
如何将jar包安装到本地maven仓库
maven仓库地址:https://mvnrepository.com/下载jar包maven安装jar包命令:org.apache.kudukudu-
spark2
_2.111.6.0-cdh5.14.0test
Demon_gu
·
2019-05-16 17:17
Javaee
执行pyspark报错env: ‘python’: No such file or directory问题
前提条件:Ubuntu18.04环境安装好
Spark2
.x,并配置好环境变量安装好python3问题:执行pyspark脚本报错$pysparkpyspark:line45:python:commandnotfoundenv
_Zephyrus_
·
2019-05-15 09:32
Spark
Spark之functions
org.apache.spark.sql包下有一个叫做functions.scala的文件,该文件包含了大量的内置函数,尤其是在agg中会广泛使用(不仅限于此)这些内置函数可以极大的简化spark数据分析,到
Spark2
.2
SunnyRivers
·
2019-05-11 16:06
Spark
MongoDB与Spark分布式系统集成测试
MongoDB与Spark分布式系统集成测试1.
Spark2
.2.1分布式部署,修改/etc/profile配置文件。
段智华
·
2019-05-10 17:21
SparkInBeiJing
DataSet的Join操作
来自官网
Spark2
.4版本Join算子的重载方法有6种,分别如下:第一种:defjoin(right:Dataset[_],joinExprs:Column,joinType:String):DataFrameJoinwithanotherDataFrame
SunnyRivers
·
2019-05-10 16:03
Spark
在local模式下的spark程序打包到集群上运行
一、前期准备前期的环境准备,在Linux系统下要有Hadoop系统,spark伪分布式或者分布式,具体的教程可以查阅我的这两篇博客:Hadoop2.0伪分布式平台环境搭建
Spark2
.4.0伪分布式环境搭建然后在
|旧市拾荒|
·
2019-05-06 21:00
History Server Default Group History Server TLS/SSL 服务器 JKS Keystore 文件位置:路径 root 未遵循模式“(/[-+=_.a-z
CDH添加
spark2
服务时报错:HistoryServerDefaultGroupHistoryServerTLS/SSL服务器JKSKeystore文件位置:路径root未遵循模式“(/[-+=_.
爱我请灭灯
·
2019-05-05 14:52
spark
CDH
CDH
SPARK
spark2
.4.2编译(mac系统下)
编译前所注意事项:首先,尽可能阅读官网编译文档BuildingApacheSpark源码下载推荐gitclone或者wget。编译前确保网络良好。下载所需要的软件(注意版本)·Spark-2.4.2.tgz·Hadoop-2.7.6·Scala-2.11.12·jdk1.8.0_191·apache-maven-3.6.x·git注意:其中spark是源码,其他是可运行包解压安装并配置环境变量(过
夜下探戈
·
2019-05-02 00:38
Spark
Spark2
.4.2源码编译
软件版本:jdk:1.8maven:3.61http://maven.apache.org/download.cgispark:2.42https://archive.apache.org/dist/spark/spark-2.4.2/hadoop版本:hadoop-2.6.0-cdh5.7.0(spark编译支持的hadoop版本,不需要安装)配置maven:#配置环境变量[root@hadoo
bigdata_lzw
·
2019-04-29 11:15
spark
源码编译
Spark
上一页
26
27
28
29
30
31
32
33
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他