spark2 第29页

Spark 内存管理详解

本文中阐述的原理基于Spark2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。在执行

Alukar·2019-11-03 16:50

spark on mesos Coarse Mode 调度模式的改变

在spark2.0以前，sparkonmesos粗粒度模式中，一个application不支持在一个slave上启动多个executor，因此会造成资源（cpu，memory）浪费的问题。

breeze_lsw·2019-11-03 14:42

spark2.2.1 shuffle过程map端不聚合过程分析

在之前的分析中,if分支很多,不利于思考,我们这里单纯的考虑map端不聚合的情况那么去除第一个if语句,sorter就确定下来了sorter=newExternalSorter[K,V,V](context,aggregator=None,Some(dep.partitioner),ordering=None,dep.serializer)然后我们再看下一句sorter.insertAll(rec

HUAWEIMate20·2019-11-03 01:32

spark2.3 加载postgresql数据 java.sql.SQLException: No suitable driver

项目中spark2.3加载postgresql数据java.sql.SQLException:Nosuitabledriver项目中spark2.3加载postgresql数据时报错java.sql.SQLException

秋风暮霞挽红曲_5f60·2019-11-02 14:35

Spark Task 的执行流程① - 分配 tasks 给 executors

本文为Spark2.0版本的源码分析，其他版本可能会有所不同TaskScheduler作为资源调度器的一个重要职责就在：集群可用资源发生变化（比如有新增的executor，有executorlost等）

牛肉圆粉不加葱·2019-11-01 20:26

Spark2.2.0源码阅读-stage提交

之前介绍了stage的划分，还是从这个地方开始DAGSchedulerprivate[scheduler]defhandleMapStageSubmitted(jobId:Int,dependency:ShuffleDependency[_,_,_],callSite:CallSite,listener:JobListener,properties:Properties){//Submitting

pcqlegend·2019-11-01 05:27

PY => Ubuntu-Hadoop-YARN-HDFS-Spark安装配置

官方建议环境条件Java8Python2.7+/3.4+Scala2.12Spark2.4.4R3.1+（可以不安装）安装Java先验传送门：https://segmentfault.com/a/11.

Cython_lin·2019-10-31 09:38

Spark Shuffle（ExternalSorter）

1、Shuffle流程spark的shuffle过程如下图所示，和mapreduce中的类似,但在spark2.0及之后的版本中只存在SortShuffleManager而将原来的HashShuffleManager

觉悟吧骚年·2019-10-31 09:46

完全修改Linux用户名

特此来记录一下在linux上直接改名字是不行彻底的，还要对用户的家目录、UID、组名都要进行修改如果我们要将用户名为spark的主机修改为hadoop1.更改用户名sudousermod-lhadoopspark2

OYmaster·2019-10-22 20:03

scala学习--方法与函数

Spark2.0版本以上使用是Scala2.11版本。

小鸡·2019-10-21 02:04

解决modulenotfounderror: no module named 'resource' &&Python worker failed to connect back

如果你也是spark2.4.0,那么在windows系统上肯定会出现该错误。

Solarzhou·2019-10-20 22:56

SparkStreaming整合Flume的pull报错解决方案

先说下版本情况：Spark2.4.3Scala2.11.12Flume-1.6.0Flume配置文件：simple-agent.sources=netcat-sourcesimple-agent.sinks

彪悍大蓝猫·2019-10-17 03:50

SparkStreaming整合Flume的pull报错解决方案

先说下版本情况：Spark2.4.3Scala2.11.12Flume-1.6.0Flume配置文件：simple-agent.sources=netcat-sourcesimple-agent.sinks

彪悍大蓝猫·2019-10-16 17:00

Linkis简单版安装教程

遇到问题，可参看我的另一篇博客“linkis和scripts使用中遇到问题解决办法”Linkis安装教程：软件准备：①wedatasphere-linkis-0.9.0-dist-spark2.1.tar.gzhttps

渡月桥·2019-10-16 14:18

Spark2 的序列化（JavaSerializer/KryoSerializer）

环境JDK1.8.0Scala2.11.8Spark2.1.2Oozie4.1Hue3.9简单说明官方文档:DataSerializationspark默认的序列化器是JavaSerializer，能够支持所有对象自动的序列化

walker·2019-10-15 05:32

Oozie(HUE) 调度 Spark2

环境JDK1.8.0Scala 2.11.8Spark 2.1.2Oozie4.1Hue3.9yarnlocal模式进入Workspace进入lib目录，并上传jar和配置文件拖拽SparkProgram选择刚才的lib目录填入jar名称，点击add确认填写业务主类名称，并配置参数点击小齿轮，查看其他参数保存配置提交运行yarncluster模式进入Workspace进入lib目录，并上传jar和

walker·2019-10-15 05:45

Spark 使用 Redisson 读写 Redis 集群遇到的相关问题及解决办法

storm_fury·2019-10-14 14:55

java.io.IOException: Failed to delete: C:\Users\dell\AppData\Local\Temp\spark- in windows

实验环境windows10spark2.4Scala2.11.12问题描述\sbtSpark1_jar>spark-submit--classcom.spark.WordCount.WordCountsbtSpark

Solarzhou·2019-10-14 14:36

Spark无法读取hive 3.x的表数据

通过Ambari2.7.3安装HDP3.1.0成功之后，通过sparksql去查询hive表的数据发现竟然无法查询HDP3.0集成了hive3.0和spark2.3，然而spark却读取不了hive表的数据

鹏飞万丈·2019-10-14 11:00

在Windows平台安装Hadoop&&idea调试spark程序

实验环境windows10；idea2019.1.3scala-sdk-2.11.0jdk1.8.0_201hadoop-2.7.1spark2.4.3下载安装包由于hadoop依赖于jdk，所以需要先安装配置

Solarzhou·2019-10-12 20:36

Spark2.X ML中Pipeline详解、特征转换和决策树分类算法的使用

Spark中有关机器学习的库已经在从MLlib往ML逐步迁移了，MLlib库也将在Spark3.0后停止维护，所以我们需要尽快熟悉ML库。在SparkML库中，核心数据对象由RDD变为了DataFrame，同时，ML库中有一些特征转换的方法，并提供了Pipeline这一工具，可以使用户很方便的将对数据的不同处理组合起来，一次运行，从而使整个机器学习过程变得更加易用、简洁、规范和高效。本文将介绍使用

那记忆微凉·2019-10-12 15:07

升级 spark 2.4问题：Spark Streaming日志级别设置，最小堆内存设置

一、内存问题1、旧集群spark1.6.1jdk1.7或1.8jvm堆内存分配，直接分配的为driver申请的内存（最大、最小堆内存相等）2、新集群spark2.4.1jdk1.8jvm堆内存分配，刚开始分比较小的内存

灵佑666·2019-10-07 17:11

SparkSession与SparkContext SparkConf SQLContext HiveContext StreamingContext

SparkSession-Spark的一个全新的切入点SparkSession是Spark2.0引如的新概念。SparkSe

dufufd·2019-09-26 18:06

2018年新春报喜！热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍清华大学出版社发行上市!

本书基于Spark2.2.0新版本，以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心，以Spark内核解密为基石，分为上篇、中篇、下篇，对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析

段智华·2019-09-26 18:47

使用Spark 2.2.1 + Kudu 1.5.0 操作Kudu大数据系统

使用Spark2.2.1+Kudu1.5.0操作Kudu大数据系统Kudu的版本查询：（https://www.cloudera.com/documentation/enterprise/release-notes

段智华·2019-09-26 18:15

SPARK 2.2.1 SQL处理各种数据源的案例与解读

SPARK2.2.1SQL处理各种数据源的案例与解读由于集团下的各个子公司在数据集成之前，使用数据有多种格式，因此需要支持多种数据来源的处理，将各个子公司的不同数据源集成到集团统一的大数据平台下。

段智华·2019-09-26 18:12

Spark 2.2.1 使用JDBC 操作其他数据库的案例与解读

Spark2.2.1使用JDBC操作其他数据库的案例与解读SparkSQL包括一个数据源，可以从其他数据库使用JDBC读取数据。这个功能优先于使用JdbcRDD。

段智华·2019-09-26 18:32

Hadoop MapReduce Spark 配置项

适用范围本文涉及到的配置项主要针对Hadoop2.x，Spark2.x。

walker·2019-09-23 06:59

Spark、BulkLoad Hbase、单列、多列

现在要用spark2.3.2和hbase2.0.2来实现相应的功能；本以为会很简单，两个框架经过大版本的升级，API变化很大；官网的案例其实有点难实现，且网上的

lillcol·2019-09-18 15:00

[转]大数据环境搭建步骤详解（Hadoop，Hive，Zookeeper，Kafka，Flume，Hbase，Spark等安装与配置）

article/details/85313410大数据环境安装和配置（Hadoop2.7.7，Hive2.3.4，Zookeeper3.4.10，Kafka2.1.0，Flume1.8.0，Hbase2.1.1，Spark2.4.0

JackieZhengChina·2019-09-16 09:45

Spark SQL操作之-函数汇总篇-下

SparkSQL操作之-自定义函数篇-下环境说明自定义函数分类用户自定义函数(UDF)用户自定义聚合函数(UDAF)环境说明1.JDK1.82.Spark2.1自定义函数分类不同的业务需要不同的处理函数

野男孩·2019-09-12 22:05

spark2.x读取csv文件

spark2.x读取csv文件,写入到文件系统中(例如hdfss3或者本地)println("day:::"+day)ss.read.format("csv").option("header","true

功夫老五·2019-09-10 15:03

Spark2.3.0解决Exception in thread "main" java.lang.IllegalArgumentException: Illegal pattern component

原文链接：Spark2.3.0解决Exceptioninthread“main”java.lang.IllegalArgumentException:Illegalpatterncomponent:XXX

袁一白·2019-09-04 15:53

windows下安装pyspark

Path中添加%JAVA_HOME%\bin配置完毕，打开cmd，执行java-versionScala安装配置Scaladownload下载对应scala版本【注意：Scala1.6.2版本只能使用Spark2.10

ninglu1989·2019-09-04 09:30

spark sqlcontext 读取json 文件

sqlcontext.read().json("path")读取时候报错如下：Exceptioninthread"main"org.apache.spark.sql.AnalysisException:SinceSpark2.3

H.King·2019-09-01 15:54

案例为王，实战为主，基于spark2.x机器学习十大案例全方位剖析

课程下载地址：https://pan.baidu.com/s/1LuffQVoVjJjDkN3jT2TfQA提取码:ytyc本课程主要讲解SparkMLlib，SparkMLlib是一种高效、快速、可扩展的分布式计算框架；实现了常用的机器学习，如：聚类、分类、回归等算法。本课拒绝枯燥的讲述，将循序渐进从Spark的基础知识、矩阵向量的基础知识开始，然后再透彻讲解各个算法的理论、详细展示Spark源

qq5d5a5a39ddd7c·2019-08-30 15:06

Windows上IDEA搭建最新Spark2.4.3源码阅读及调试的开发环境

本篇就来介绍下如何在Windows下，将最新版的Spark2.4.3编译，并导入到IDEA编译器中。最后通过在IDEA运行Spark自带的一共Example代码结尾。

zzzzMing·2019-08-28 18:00

Spark Streaming checkpoint技术初探

本文基于spark2.4.3版本CheckpointingGettingStarted如何使用SS的checkpoint，下面是官方的样例，本文就从这个样例说起//FunctiontocreateandsetupanewStreamingContextdeffunctionToCreateContext

Woople·2019-08-28 14:45

Spark Streaming checkpoint技术初探

本文基于spark2.4.3版本CheckpointingGettingStarted如何使用SS的checkpoint，下面是官方的样例，本文就从这个样例说起//FunctiontocreateandsetupanewStreamingContextdeffunctionToCreateContext

Woople·2019-08-28 14:45

大数据篇：oozie与spark2整合进行资源调度

文章目录1.oozie资源调度1.1oozie概览1.2oozie与spark2整合1.2.1oozie添加spark2依赖库1.2.2打包与提交spark2jar,创建spark2工作流1.2.3管理与查看工作流相关状态

杨铖·2019-08-24 10:46

Spark2.4-----JVM 内存不足

1、虚拟机配置物理内存：3G磁盘大小：100G2、使用hive插入事务表提示内存不足如下DiagnosticMessagesforthisTask:[2019-08-2014:10:13.903]Container[pid=33009,containerID=container_1566276450532_0003_01_000018]isrunning337144320Bbeyondthe'VI

concealed0·2019-08-22 23:10

cdh集群的spark2和jupyter集成

1.前提1.1、spark2已经安装好，在shell可以正常使用pyspark21.2、jupyter已经安装好，可以正常启动使用python32.集成2.1、在cm页面添加spark和jupyter的关联

kyle0349·2019-08-18 16:20

CDH5.14安装spark2

cdh5.14默认自带的spark版本是1.6的，如果需要使用spark2，那么需要另外安装。

kyle0349·2019-08-18 13:20

大数据学习笔记之Spark（一）：Spark基础解析

文章目录第1章Spark概述spark的产生背景1.1什么是Spark1.2Spark特点1.3Spark的用户和用途第2章Spark集群安装2.1集群角色2.2机器准备2.3下载Spark安装包2.4配置Spark2.5

Leesin Dong·2019-08-13 08:06

【DataWhale-Spark】2.1-Linux虚拟机部署Spark

在不考虑集群的情况下，有三种部署方式：1.Window：在已安装JDK8+的环境下，只需到Spark官网下载，解压，到bin目录下执行spark-shell.cmd即可运行Spark2.Linux+Spark

Damionew·2019-08-09 13:17

【DataWhale-Spark】2.1-Linux虚拟机部署Spark

在不考虑集群的情况下，有三种部署方式：1.Window：在已安装JDK8+的环境下，只需到Spark官网下载，解压，到bin目录下执行spark-shell.cmd即可运行Spark2.Linux+Spark

Damionew·2019-08-09 13:17

Spark SQL中出现 CROSS JOIN 问题解决

SparkSQL中出现CROSSJOIN问题解决1、问题显示如下所示：UsetheCROSSJOINsyntaxtoallowcartesianproductsbetweentheserelation2、原因：Spark2

鸿燕藏锋·2019-08-09 12:39

Spark项目实战学习电商项目

该项目源码中是用Java开发的，分析计算多用的是sparkcore，我在实践这个项目的时候，spark2.x已有了，性能应该比1有提升，所以关于spark部分我基本用的都是SparkSql，并且用scala

maozicb·2019-08-09 08:32

Spark2.4.0和Scala2.11集成Kudu1.8.0遇到的坑

最近做实时数仓用到了sparkstreaming和kudu两个组件，因为资料少得可怜，折腾了一番终于是搞定了，在这里记录下期间遇到的坑先通过Impala建张Kudu表createtablekudu_appbind_test(md5string,useridstring,datetime_string,time_string,cardnostring,flagstring,cardtypestrin

lzw2016·2019-08-08 16:43

spark2.3源码分析之RDD的persist流程

概述当根据存储级别缓存RDD时，其实是将RDD数据存储到BlockManager的memoryStore和diskStore。memoryStore最终是通过调用UnifiedMemoryManager#acquireStorageMemory()方法分配storagememory，所以缓存RDD到内存使用的是storagememory的内存。cache()方法时最终调用的是persist(Sto

zhifeng687·2019-07-31 15:09

推荐频道

spark2

Spark 内存管理详解

spark on mesos Coarse Mode 调度模式的改变

spark2.2.1 shuffle过程map端不聚合过程分析

spark2.3 加载postgresql数据 java.sql.SQLException: No suitable driver

Spark Task 的执行流程① - 分配 tasks 给 executors

Spark2.2.0源码阅读-stage提交

PY => Ubuntu-Hadoop-YARN-HDFS-Spark安装配置

Spark Shuffle（ExternalSorter）

完全修改Linux用户名

scala学习--方法与函数

解决modulenotfounderror: no module named 'resource' &&Python worker failed to connect back

SparkStreaming整合Flume的pull报错解决方案

SparkStreaming整合Flume的pull报错解决方案

Linkis简单版安装教程

Spark2 的序列化（JavaSerializer/KryoSerializer）

Oozie(HUE) 调度 Spark2

Spark 使用 Redisson 读写 Redis 集群遇到的相关问题及解决办法

java.io.IOException: Failed to delete: C:\Users\dell\AppData\Local\Temp\spark- in windows

Spark无法读取hive 3.x的表数据

在Windows平台安装Hadoop&&idea调试spark程序

Spark2.X ML中Pipeline详解、特征转换和决策树分类算法的使用

升级 spark 2.4问题：Spark Streaming日志级别设置，最小堆内存设置

SparkSession与SparkContext SparkConf SQLContext HiveContext StreamingContext

2018年新春报喜！热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》 畅销书籍 清华大学出版社发行上市!

使用Spark 2.2.1 + Kudu 1.5.0 操作Kudu大数据系统

SPARK 2.2.1 SQL处理各种数据源的案例与解读

Spark 2.2.1 使用JDBC 操作其他数据库的案例与解读

Hadoop MapReduce Spark 配置项

Spark、BulkLoad Hbase、单列、多列

[转]大数据环境搭建步骤详解（Hadoop，Hive，Zookeeper，Kafka，Flume，Hbase，Spark等安装与配置）

Spark SQL操作之-函数汇总篇-下

spark2.x读取csv文件

Spark2.3.0解决Exception in thread "main" java.lang.IllegalArgumentException: Illegal pattern component

windows下安装pyspark

spark sqlcontext 读取json 文件

案例为王，实战为主，基于spark2.x机器学习十大案例全方位剖析

Windows上IDEA搭建最新Spark2.4.3源码阅读及调试的开发环境

Spark Streaming checkpoint技术初探

Spark Streaming checkpoint技术初探

大数据篇：oozie与spark2整合进行资源调度

Spark2.4-----JVM 内存不足

cdh集群的spark2和jupyter集成

CDH5.14安装spark2

大数据学习笔记之Spark（一）：Spark基础解析

【DataWhale-Spark】2.1-Linux虚拟机部署Spark

【DataWhale-Spark】2.1-Linux虚拟机部署Spark

Spark SQL中出现 CROSS JOIN 问题解决

Spark项目实战学习电商项目

Spark2.4.0和Scala2.11集成Kudu1.8.0遇到的坑

spark2.3源码分析之RDD的persist流程

2018年新春报喜！热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍清华大学出版社发行上市!