spark2 第30页

spark2.3源码分析之RDD的persist流程

概述当根据存储级别缓存RDD时，其实是将RDD数据存储到BlockManager的memoryStore和diskStore。memoryStore最终是通过调用UnifiedMemoryManager#acquireStorageMemory()方法分配storagememory，所以缓存RDD到内存使用的是storagememory的内存。cache()方法时最终调用的是persist(Sto

zhifeng687·2019-07-31 15:09

跟我一起学【HDFS】之——hdfs统计文件夹存储

Found17itemsdrwxrwx---+-hivehive02019-02-2119:27/appsdrwxrwxrwx+-mapredhadoop02019-02-2119:23/mr-historydrwxrwxrwt+-spark2xhadoop02

SunWuKong_Hadoop·2019-07-25 10:44

Spark 初始化对象

Spark1+和Spark2+初始化SparkContext有所区别，现列出Spark1.5.1和Spark2+中初始化sc方式：1.Spark2+先创建一个SparkSession对象:通过config

daoxu_hjl·2019-07-21 00:00

Apache Spark 中内存存储演进

本文总结ApacheSpark社区最近为增强Spark2.3中的列存储而做的工作。列式存储被称为保持列连续性的有效格式。以前版本的Spark在一些地方使用了列式存储，并将其作为一种内部数据结构。

Hadoop技术博文·2019-07-10 08:32

宜信开源|大数据虚拟混算平台Moonbox配置指南

一、环境准备已安装ApacheSpark2.2.0(此版本仅支持ApacheSpark2.2.0,其他Spark版本后续会兼容)已安装MySQL并启动,且开启远程访问各安装节点已经配置ssh免密登录二、

宜信技术学院·2019-07-10 00:00

大数据虚拟混算平台Moonbox配置指南

一、环境准备已安装ApacheSpark2.2.0(此版本仅支持ApacheSpark2.2.0,其他Spark版本后续会兼容)已安装MySQL并启动,且开启远程访问各安装节点已经配置ssh免密登录二、

宜信技术·2019-07-08 19:44

如何正确在IDEA 里maven构建的项目中引入lib的jar包（图文详解）

问题详情以下是我，maven构建出来的最新spark2.2.0-bin-hadoop2.6的项目。有些依赖包，maven还是无法一次性满足，所以，得手动加入lib的jar包。

柯上将·2019-07-08 15:07

Python搭建Spark分布式集群环境

本教程采用Spark2.0以上版本（比如Spark2.0.2、Spark2.1.0等）搭建集群，同样适用于搭建Spark1.6.2

E-iceblue·2019-07-05 17:26

Spark-内存管理调优

spark2.0+内存模型调优内存使用时需要考虑三个因素:对象使用的内存数量(您可能希望您的整个数据集都能装入内存)；访问这些对象的成本垃圾收集的开销(如果对象的周转率很高)。

lillcol·2019-07-04 00:00

Structed Streaming

但是，自Spark2.3以来，引入了一种称为连续处理的新型低延迟处理模式，它可以实现低至1毫秒的端到端延迟，并且具有至少一次的保证。编程模型结构化流中的关键思想是将实时数据流视为连续追加的表。

iware99·2019-07-03 23:38

Spark系列 —— 本地Spark连接远程集群Hive(Scala/Python)

代码如下(版本为Spark2.0+)：Scala版本代码如下：importorg.apache.spark.sql.SparkSessionobje

A&F·2019-07-03 21:47

spark2.3源码分析之ResultTask读取并处理shuffle file的流程（二）

概述大部分maptask与reducetask的执行是在不同的节点上，reduce执行时需要跨节点去拉取其它节点上的ShuffleMapTask结果，那么对集群内部的网络资源消耗会很严重。我们希望最大化地减少不必要的消耗,于是对Shuffle过程的期望有：完整地从maptask端拉取数据到reduce端。在跨节点拉取数据时，尽可能地减少对带宽的不必要消耗。减少磁盘IO对task执行的影响。可优化的

zhifeng687·2019-07-03 19:42

在Ubuntu上安装Spark

1.下载spark2.4.3使用用户的hadoop的版本，解压并放到/usr/local下并改名为spark目录2.设置spark目录为本用户所有3.设置环境变量（1）#~/.bashrcexportSPARK_HOME

small—dong·2019-07-01 19:00

spark 2.x在windows环境使用idea本地调试启动了kerberos认证的hive

2环境Jdk1.8.0Spark2.1.0Scala2.11.8Hadoop2.6.0-cdh5.12.1H

XIAO的博客·2019-07-01 18:00

Spark每日半小时（30）——结构化流式编程：Dataset/DataFrame API1：基本操作

从Spark2.0开始，DataFrames和Dataset可以表示静态的，有界的数据，以及流式无界数据。

DK_ing·2019-06-28 09:26

Pyspark实战（一）环境部署

这里假设Python环境已经部署完成，相关版本如下：spark2.2.0，部署过程参考https://blog.csdn.net/luoye4321/article/details/90552674。

落叶1210·2019-06-27 22:59

python程序访问hive仓库，并将读取的数据写入文本

实验环境centos7;pyspark2.4.3;在访问Hive数据仓库之前，需要我们配置hadoop中一些组件，使得我们可以顺利访问hdfs，hive（可以通过hadoop-h,hive进行测试是否配置成功

Solarzhou·2019-06-27 17:50

Spark内置图像数据源初探

概述在ApacheSpark2.4中引入了一个新的内置数据源,图像数据源.用户可以通过DataFrameAPI加载指定目录的中图像文件,生成一个DataFrame对象

阿里云云栖社区·2019-06-27 00:00

Spark每日半小时（25）——数据源：ORC文件、JSON数据集、Hive表

ORC文件从Spark2.3开始，Spark支持带有ORC文件的新ORC文件格式的矢量化ORC阅读器。为此，新添加了以下配置。

DK_ing·2019-06-25 22:37

Spark每日半小时（25）——数据源：ORC文件、JSON数据集、Hive表

ORC文件从Spark2.3开始，Spark支持带有ORC文件的新ORC文件格式的矢量化ORC阅读器。为此，新添加了以下配置。

DK_ing·2019-06-25 22:37

spark RDD编程实践例子

本文把spark基本操作函数方法详细描述，并应用实践sparkSesion：是对在spark2.0后出现了sparksession的方法来声明sparkconf和context：是spark早期版本的数据生成

jacobwe·2019-06-25 14:28

spark2.3源码分析之ResultTask读取并处理shuffle file的流程

ResultTask概述ResultTask执行当前分区的计算，首先从ShuffleMapTask拿到当前partition的数据，会从所有的ShuffleMapTask都拿一遍当前的partition数据。最后合并所有的ResultTask输出结果，返回给driverapplication。成员变量private[spark]classResultTask[T,U](stageId:Int,st

zhifeng687·2019-06-23 00:25

spark2.4安装

1、配置环境变量exportSPARK_HOME=/opt/module/spark-2.4.3exportPATH=$PATH:$SPARK_HOME/binsource/etc/profile2、spark-env.sh文件配置cd/opt/module/spark-2.4.3/conf/cpspark-env.sh.templatespark-env.shvispark-env.sh增加以下

zaiou·2019-06-21 09:50

Spark学习笔记(4)Spark2全面深度剖析--知识点视频，源码，调优，JVM，图计算，项目实战

26套Spark企业级项目实战，源码深度剖析，实时流处理，机器学习，数据分析，运行原理，性能调优，图计算，性能调优，缓存优化，监控分析SparkCore，SparkSQL，SparkStreaming，Kafka，Flume，Scale，Python视频课程视频课程包含：26套Spark项目实战包含：大数据之Spark高级课程，企业级项目实战，源码深度剖析，实时流处理，机器学习，数据分析，运行原理

wx5d089cc7a67a3·2019-06-19 16:38

Spark2.x源码阅读之SparkContext

本文主要介绍SparkContext中的主构造方法里面的内容，即初始化过程，其中调用的方法留到后面讲解。try{_conf=config.clone()//拷贝配置文件_conf.validateSettings()//验证配置文件是否有错if(!_conf.contains("spark.master")){//没有设置Master则报错thrownewSparkException("Amast

LMRzero·2019-06-19 09:55

Spark内置图像数据源初探

概述在ApacheSpark2.4中引入了一个新的内置数据源,图像数据源.用户可以通过DataFrameAPI加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理

阿里云云栖社区·2019-06-17 00:00

Spark Streaming 指南--Spark2.4.3

目录总览快速入门基本概念库依赖初始化StreamingContext离散Streams(DStreams)输入DStreams和接收器基本数据源文件流如何监控目录使用对象存储作为数据源基于自定义接收器的流将RDD队列作为流数据高级数据源自定义源（Python不支持）Receiver的可靠性DStreams上的transformationsUpdateStateByKey操作transformati

涯若·2019-06-15 00:36

Apache Spark 2.0 在作业完成时却花费很长时间结束

现象大家在使用ApacheSpark2.x的时候可能会遇到这种现象：虽然我们的SparkJobs已经全部完成了，但是我们的程序却还在执行。

胖头鱼·2019-06-14 14:53

PyCharm搭建Spark开发环境实现第一个pyspark程序

一,PyCharm搭建Spark开发环境Windows7,Java1.8.0_74,Scala2.12.6,Spark2.2.1,Hadoop2.7.6通常情况下，Spark开发是基于Linux集群的，

-赶鸭子上架-·2019-06-13 16:24

kafka Drictor维护偏移量

ApacheSpark2.1.x以及spark-streaming-kafka-0-10使用新的的消费者API即异步提交API。

H.U.C.小黑·2019-06-11 10:03

Spark SQL操作之-函数汇总篇-中

rank(),rows_number()的排序编号差异ntile(k)用于等分数据集percent_rank()用于按排名的百分比统计cume_dist()用于统计值的分布环境说明1.JDK1.82.Spark2.1

野男孩·2019-06-09 08:17

Structured Streaming(阿里云魄直播视频记录)

StructuredStreaming特点工作原理micro-batch处理模式continuous处理理模式exactlyonce-sourceexactlyonce-sink容错exactlyonce--statestore容错Spark2.4

巴掌大的脚印·2019-06-08 15:42

Java Spark读取Hbase数据，将结果写入HDFS文件

环境：Hadoop2.6，Spark2.1，jdk1.8注意：hadoop集群启用了kerberos认证，不带认证的需要根据注释简单修改几行代码即可一、案例Java编程要求：读取Hbase表zyl_user

小猪酷跑·2019-06-07 12:02

Spark SQL操作之-函数汇总篇-上

环境说明1.JDK1.82.Spark2.1概要跟所有的传统关系数据库一样，SparkSQL提供了许多内置函数方便处理数据。同时它也知道不可

野男孩·2019-05-28 08:03

Spark 数据读取冷启动优化分析

文章目录背景InMemoryFileIndexbeforespark2.1afterspark2.1优化HDFS获取File元数据性能文件元数据读取方式及元数据缓存管理结语参考背景Spark一次查询过程可以简单抽象为

breeze_lsw·2019-05-27 18:53

spark2.4.2安装过程

1、下载scalar，解压到路径/usr/local/scalar在/etc/profile文件中加入安装路径vim/etc/profile添加以下内容exportSCALA_HOME=/usr/local/scala/scala-2.12.8exportPATH=$PATH:$SCALA_HOME/bin执行文件source/etc/profile安装完成，验证是否成功：scala-versio

e_123456457·2019-05-26 16:11

基于Spark2.X系列的累加器和Streaming基础

Spark2.0系列引入了一个更加简单和更高性能的累加器API，如在1.X版本中可以这样使用累加器：valsparkSession=SparkSession.builder().master("local

|旧市拾荒|·2019-05-21 21:00

SparkStreaming安全消费Kafka数据

前言在这之前做SparkStreaming连接Kafka，我会这么写：valsparkConf=newSparkConf().setAppName("Spark2Kafka")valssc=newStreamingContext

SunnyRivers·2019-05-21 16:41

CDH5.10.0 KYLIN2.6 SPARK2.1 心得

hostname不能有下划线#先执行了卸载mariajavacp了环境变量exportJAVA_HOME=/usr/local/jdk1.8.0_191exportM2_HOME=/usr/local/mavenexportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexportJRE_HOME=$JAVA_HOME/jree

dian张·2019-05-20 18:07

StructuredStreaming项目开发记录

StructuredStreaming项目开发记录版本说明:Spark2.4前言最近基于SparkStructuredStreaming开发一套实时数据判别清洗系统，在开发过程接触了一些StructuredStreaming

shirukai·2019-05-20 09:47

Spark ML（3）：回归算法实现（线性回归、逻辑回归）

一、环境配置1.spark2.1.0-cdh5.7.0（自编译）2.cdh5.7.03.scala2.11.84.centos6.4二、环境准备1.spark客户端调试环境搭建参考：https://blog.csdn.net

RayBreslin·2019-05-18 11:20

如何将jar包安装到本地maven仓库

maven仓库地址：https://mvnrepository.com/下载jar包maven安装jar包命令：org.apache.kudukudu-spark2_2.111.6.0-cdh5.14.0test

Demon_gu·2019-05-16 17:17

执行pyspark报错env: ‘python’: No such file or directory问题

前提条件：Ubuntu18.04环境安装好Spark2.x，并配置好环境变量安装好python3问题：执行pyspark脚本报错$pysparkpyspark:line45:python:commandnotfoundenv

_Zephyrus_·2019-05-15 09:32

Spark之functions

org.apache.spark.sql包下有一个叫做functions.scala的文件，该文件包含了大量的内置函数，尤其是在agg中会广泛使用（不仅限于此）这些内置函数可以极大的简化spark数据分析，到Spark2.2

SunnyRivers·2019-05-11 16:06

MongoDB与Spark分布式系统集成测试

MongoDB与Spark分布式系统集成测试1.Spark2.2.1分布式部署，修改/etc/profile配置文件。

段智华·2019-05-10 17:21

DataSet的Join操作

来自官网Spark2.4版本Join算子的重载方法有6种，分别如下：第一种：defjoin(right:Dataset[_],joinExprs:Column,joinType:String):DataFrameJoinwithanotherDataFrame

SunnyRivers·2019-05-10 16:03

在local模式下的spark程序打包到集群上运行

一、前期准备前期的环境准备，在Linux系统下要有Hadoop系统，spark伪分布式或者分布式，具体的教程可以查阅我的这两篇博客：Hadoop2.0伪分布式平台环境搭建Spark2.4.0伪分布式环境搭建然后在

|旧市拾荒|·2019-05-06 21:00

History Server Default Group History Server TLS/SSL 服务器 JKS Keystore 文件位置：路径 root 未遵循模式“(/[-+=_.a-z

CDH添加spark2服务时报错：HistoryServerDefaultGroupHistoryServerTLS/SSL服务器JKSKeystore文件位置：路径root未遵循模式“(/[-+=_.

爱我请灭灯·2019-05-05 14:52

spark2.4.2编译（mac系统下）

编译前所注意事项：首先，尽可能阅读官网编译文档BuildingApacheSpark源码下载推荐gitclone或者wget。编译前确保网络良好。下载所需要的软件（注意版本）·Spark-2.4.2.tgz·Hadoop-2.7.6·Scala-2.11.12·jdk1.8.0_191·apache-maven-3.6.x·git注意：其中spark是源码，其他是可运行包解压安装并配置环境变量（过

夜下探戈·2019-05-02 00:38

Spark2.4.2源码编译

软件版本：jdk：1.8maven：3.61http://maven.apache.org/download.cgispark：2.42https://archive.apache.org/dist/spark/spark-2.4.2/hadoop版本：hadoop-2.6.0-cdh5.7.0（spark编译支持的hadoop版本，不需要安装）配置maven：#配置环境变量[root@hadoo

bigdata_lzw·2019-04-29 11:15

推荐频道

spark2

spark2.3源码分析之RDD的persist流程

跟我一起学【HDFS】之——hdfs统计文件夹存储

Spark 初始化对象

Apache Spark 中内存存储演进

宜信开源|大数据虚拟混算平台Moonbox配置指南

大数据虚拟混算平台Moonbox配置指南

如何正确在IDEA 里maven构建的项目中引入lib的jar包（图文详解）

Python搭建Spark分布式集群环境

Spark-内存管理调优

Structed Streaming

Spark系列 —— 本地Spark连接远程集群Hive(Scala/Python)

spark2.3源码分析之ResultTask读取并处理shuffle file的流程（二）

在Ubuntu上安装Spark

spark 2.x在windows环境使用idea本地调试启动了kerberos认证的hive

Spark每日半小时（30）——结构化流式编程：Dataset/DataFrame API1：基本操作

Pyspark实战（一）环境部署

python程序访问hive仓库，并将读取的数据写入文本

Spark内置图像数据源初探

Spark每日半小时（25）——数据源：ORC文件、JSON数据集、Hive表

Spark每日半小时（25）——数据源：ORC文件、JSON数据集、Hive表

spark RDD编程实践例子

spark2.3源码分析之ResultTask读取并处理shuffle file的流程

spark2.4安装

Spark学习笔记(4)Spark2全面深度剖析--知识点视频，源码，调优，JVM，图计算，项目实战

Spark2.x源码阅读之SparkContext

Spark内置图像数据源初探

Spark Streaming 指南--Spark2.4.3

Apache Spark 2.0 在作业完成时却花费很长时间结束

PyCharm搭建Spark开发环境实现第一个pyspark程序

kafka Drictor维护偏移量

Spark SQL操作之-函数汇总篇-中

Structured Streaming(阿里 云魄 直播视频记录)

Java Spark读取Hbase数据，将结果写入HDFS文件

Spark SQL操作之-函数汇总篇-上

Spark 数据读取冷启动优化分析

spark2.4.2安装过程

基于Spark2.X系列的累加器和Streaming基础

SparkStreaming安全消费Kafka数据

CDH5.10.0 KYLIN2.6 SPARK2.1 心得

StructuredStreaming项目开发记录

Spark ML（3）：回归算法实现（线性回归、逻辑回归）

如何将jar包安装到本地maven仓库

执行pyspark报错env: ‘python’: No such file or directory问题

Spark之functions

MongoDB与Spark分布式系统集成测试

DataSet的Join操作

在local模式下的spark程序打包到集群上运行

History Server Default Group History Server TLS/SSL 服务器 JKS Keystore 文件位置：路径 root 未遵循模式“(/[-+=_.a-z

spark2.4.2编译（mac系统下）

Spark2.4.2源码编译

Structured Streaming(阿里云魄直播视频记录)