spark2 第12页

Spark2.1.0事件总线分析——ListenerBus的继承体系

阅读提示：阅读本文前，最好先阅读《Spark2.1.0之源码分析——事件总线》。

泰山不老生·2020-08-23 05:16

spark2.1.0之源码分析——RPC传输管道处理器详解

提示：阅读本文前最好先阅读：《Spark2.1.0之内置RPC框架》《spark2.1.0之源码分析——RPC配置TransportConf》《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory

泰山不老生·2020-08-23 05:16

编译spark 2.1.0源码

编译spark2.1.0源码准备环境：准备spark源码包:https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0.tgz准备maven

Mars_sock·2020-08-23 05:54

Spark2.1.0之源码分析——事件总线

Spark定义了一个特质[1]ListenerBus，可以接收事件并且将事件提交到对应事件的监听器。为了对ListenerBus有个直观的理解，我们先来看看它的代码实现，见代码清单1。代码清单1ListenerBus的定义private[spark]traitListenerBus[LlogError(s"Listener${Utils.getFormattedClassName(listener

泰山不老生·2020-08-23 04:20

Spark2.X CSV文件创建DataFrame

一、需求分析将CSV文件转为DataFrame，其中CSV包括无头文件和有文件。二、数据展示无头文件的CSV1,张飞,21,北京,802,关羽,23,北京,823,赵云,20,上海,884,刘备,26,上海,835,曹操,30,深圳,90.8有头文件的CSVid,name,age,city,score1,张飞,21,北京,802,关羽,23,北京,823,赵云,20,上海,884,刘备,26,上海

zhangjunli·2020-08-23 04:33

spark：将csv文件读取为DataFrame

以下内容在spark2.2和spark2.3中测试都通过通用转换形式：spark.read.schema(sch).option("header",true).csv("/path/file.csv")

xuejianbest·2020-08-23 04:19

基于spark2的dataFrame和dataSet

文章目录dataFramedataFramewordCount基于dataSet的wordCountdataFramepackagesql2importorg.apache.avro.generic.GenericData.StringTypeimportorg.apache.spark.sql.types.{LongType,StructField,StructType}importorg.ap

_张不帅·2020-08-23 03:58

Spark

ApacheSpark2.2.0中文文档http://spark.apachecn.org/docs/cn/2.2.0/sparkr.html在Spark中一个大文件会被有序的分为多个输入分片，每个分片对应一个分区

高级大数据工程师·2020-08-23 03:17

spark DataFrame的创建几种方式和存储

从Spark2.0以上版本开始，Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。

weixin_30251587·2020-08-23 03:09

PyCharm中通过pyspark调用spark报错的解决办法

问题：PyCharm中通过pyspark无法调起spark2019-10-1620:39:09,343|Dummy-1:22492|django.db.backends:90|utils:execute

snetlogon20·2020-08-23 02:49

Pyspark 读取本地csv文件，插入parquet格式的hive表中

（注意事项：Spark2.0版本开始将sqlContext、hiveContext统一整合为SparkSession）2、读取文件并转换为SparkDataFrame格式。（坑1：路径和语

小晓酱手记·2020-08-23 02:39

Spark获取CSV文件导入ClickHouse

ClickHouse(重点)线上运行语句由于我们在工作中可能会用到导数需求，所以我就用sparkSQL进行开发了一个开发工具环境配置本地开发环境：WIN10、IDEA2019.3、Scala2.11.12、Spark2.4.0POM

W-DW·2020-08-23 02:39

spark读写csv文件

如果是spark1.6.0请添加maven：com.databricksspark-csv_2.101.4.0compile如果是spark2.0+就不用添加maven了，因为spark2.0内部集成了读写

lhxsir·2020-08-23 01:57

spark1.6.1和2.4读取csv文件，转为为DataFrame和使用SQL

一、spark1.6读取csvspark2.0才开始源码支持CSV，所以1.6版本需要借助第三方包来实现读取CSV文件，有好几种方法，1.如果有maven的，到https://spark-packages.org

lbship·2020-08-23 01:51

spark 读取csv 变为dataframe

试了网上的好几种读取csv文件的方法，总会有些错误，用这个方法就解决了，我的环境是spark2.1.1valdata=spark.read.format("csv").option("header","

楓尘林间·2020-08-23 01:49

Spark2 Dataset之collect_set与collect_list

collect_set去除重复元素；collect_list不去除重复元素selectgender,concat_ws(',',collect_set(children)),concat_ws(',',collect_list(children))fromAffairsgroupbygender//创建视图data.createOrReplaceTempView("Affairs")valdf3=

weixin_34336292·2020-08-22 23:19

Centos6.9离线安装CDH5.13.1

一、软件准备centos6.9jdk1.8mysql5.6cm-5.13.1cdh-5.13.1spark2.2二、网络配置（所有节点）修改/etc/sysconfig/network文件，设置主机名为

Just小布·2020-08-22 22:51

Spark SQL 实现 group_concat

SparkSQL实现group_concat环境：Spark2.0.1以下貌似需要至少Spark1.6支持，未实测（网友yanshichuan1反馈spark1.5.1同样支持，感谢）表结构及内容：+-

九剑问天·2020-08-22 22:56

基于CDH5.10.2安装spark2

前提：在我的CDH5.10集群中，默认安装的spark是1.6版本，这里需要将其升级为spark2.x版本在线安装：环境我这边是jdk1.8，scala-2.11.x，操作系统Centos6.5一、准备工作

久醉绕心弦i·2020-08-22 21:22

cloudera manager-5.10.2的安装（三、各个组件服务的安装分配）

YARN(MR2Included)、Zookeeper、namenode和resourcemanager的HA、Hive、HBase、Sqoop2、Flume、Oozie、Hue、Kafka、Spark、Spark2

久醉绕心弦i·2020-08-22 21:22

Spark2.4.4源码编译

Spark2.4.4源码编译环境准备安装好软件，配置好环境变量，并检查是否生效。

Stefanboy·2020-08-22 21:39

DAGScheduler之Job的提交划分Stage

整体流程图源码分析spark2.3getOrCreateParentStages创建所有祖先Stage/***GetorcreatethelistofparentstagesforagivenRDD.ThenewStageswillbecreatedwith

阿武z·2020-08-22 20:25

Spark DataFrame写入HBase的常用方式

本文将会介绍三种写入的方式，其中一种还在期待中，暂且官网即可...代码在spark2

weixin_34302798·2020-08-22 19:23

Spark Broadcast之TorrentBroadcast

概述SparkBroadcast概述中介绍了四种实现Broadcast的思路，这篇关注Spark中具体的实现TorrentBroadcast，其是Spark2.0及以后唯一的实现，其他实现都被删除了。

Mr_JieLQ·2020-08-22 18:12

Spark2 ON CDH5.15.1

Spark版本太低，急需升至Spark2。

clive0x·2020-08-22 18:16

Spark中广播变量详解

【前言：Spark目前提供了两种有限定类型的共享变量：广播变量和累加器，今天主要介绍一下基于Spark2.4版本的广播变量。

大数据学习与分享·2020-08-22 18:34

spark2.x-广播变量

广播变量允许程序员保持只读变量，在每个机器上缓存，而不是用任务来发送它的副本。它们可以有效的方式给每个节点提供一个大的输入数据集的副本。spark尝试使用高效广播算法来分发广播变量以减少通信成本。注意，对象在广播后不应修改以确保所有节点获得广播变量的相同值Broadcast就是将数据从一个节点发送到其他的节点上;例如Driver上有一张表，而Executor中的每个并行执行的Task(100万个T

小蜗牛也有梦想·2020-08-22 17:48

Centos 7 环境 HBase 2.1.5 完全分布式集群的搭建过程

系列博客地址Centos7环境hadoop3.2.0完全分布式集群搭建Centos7环境hive3.1.1搭建Centos7环境Spark2.4.3完全分布式集群的搭建过程Centos7环境HBase2.1.5

小不强·2020-08-22 16:37

Spark广播之TorrentBroadcast实现原理

Spark有两种方式：一种是HttpBroadcast(Spark2.1.0已经移除)，另一种是TorrentBroadcast。

javartisan·2020-08-22 16:51

Spark2.x（六十二）：（Spark2.4）共享变量 - Broadcast原理分析

之前对Broadcast有分析，但是不够深入《Spark2.3（四十三）：SparkBroadcast总结》，本章对其实现过程以及原理进行分析。

weixin_30569001·2020-08-22 15:14

Spark 3.0发布啦，改进SQL，弃Python 2，更好的兼容ANSI SQL，性能大幅提升

ApacheSpark3.0.0正式发布啦，ApacheSpark3.0是在Spark2.x的基础上开发的，带来了新的想法和功能。

老夫编程说·2020-08-22 15:56

Spark2.2 广播变量broadcast原理及源码剖析

实例首先先来看一看broadcast的使用代码:valfactor=List[Int](1,2,3);valfactorBroadcast=sc.broadcast(factor)valnums=Array(1,2,3,4,5,6,7,8,9)valnumsRdd=sc.parallelize(nums,3)vallist=newListBuffer[List[Int]]()valresRdd=n

生命不息丶折腾不止·2020-08-22 15:45

Spark源码学习--内置RPC框架(1)

但是Akka在Spark2.0.0版本中被移除了，Spark官网文档对此的描述为：“Akka的依赖被

小明的数据脚印·2020-08-22 15:03

Spark源码阅读环境搭建（基于idea+maven）

前置准备1.安装jdk1.82.安装idea3.安装maven,编译spark对maven版本有要求，spark2.4.5需要maven3.5.4以上，建议安装最新版本的maven在环境变量path中配置

bugDesigner·2020-08-22 15:31

Android基于XMPP Smack Openfire下学习开发IM(一)实现用户注册、登录、修改密码和注销等

www.igniterealtime.org/downloads/index.jsp安装配置可参考：http://www.cnblogs.com/hoojo/archive/2012/05/17/2506769.htmlSpark最新版本（Spark2.6.3

zhouzhangcheng123·2020-08-22 15:16

Spark内置图像数据源初探

概述在ApacheSpark2.4中引入了一个新的内置数据源,图像数据源.用户可以通过DataFrameAPI加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理

阿里云云栖号·2020-08-22 12:19

基于 spark ml NaiveBayes实现中文文本分类

思路：1准备数据2，代码编写准备数据这里数据我将它分为两类，1军事，2nba，我将文件数据放在下面代码编写：这里面我用的是sparkml进行代码的实现的，spark版本用的是2.2（spark2.0和1.6

记录每一份笔记·2020-08-22 09:56

Spark编程指南(一)

翻译SparkProgrammingGuide，Spark2.2.0.之前有博文也翻译，Spark版本1.3.0.，本文翻译过程中，有所参考。

门下平章·2020-08-22 03:17

子雨大数据之Spark入门教程---Spark2.1.0入门：第一个Spark应用程序：WordCount 2.2

原博客地址：http://dblab.xmu.edu.cn/blog/1311-2/前面已经学习了Spark安装，完成了实验环境的搭建，并且学习了Spark运行架构和RDD设计原理，同时，我们还学习了Scala编程的基本语法，有了这些基础知识作为铺垫，现在我们可以没有障碍地开始编写一个简单的Spark应用程序了——词频统计。任务要求任务：编写一个Spark应用程序，对某个文件中的单词进行词频统计。

千寻～·2020-08-22 03:20

Spark in Action 免积分下载

完全更新Spark2.0。下载地址：SparkinAction更多免积分电子书，请访问：IE布克斯网转载于:https://my.oschina.net/u/3070312/blog/2997943

chongyuwan4121·2020-08-22 01:50

基于Spark的TF-IDF算法的中文文本相似度实现

Sparkversion：spark2.2.0Hadoopversion:Hadoop2.6.5Scalaversion:scala2.11ansjversion：5.1.5第一、先说下应用场景吧，用户给出一段文字然后我返回十个与这段文字最相似的文件名称

cap3396g·2020-08-22 01:07

大数据组件02-华为云鲲鹏服务器Spark2.3移植安装指南

ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。它拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。https://bbs.huaweicloud.com/forum/thread-42912-1-1

lichkingyang·2020-08-21 14:30

Spark2.2.0源码阅读 -Dstream

DStream是一个离散的Stream，是在SparkStreaming中的一个基本的抽象，是一个连续的相同类型RDD的序列。通常是一个连续的数据流。DStream可以使用StreamingContext通过实时的数据流创建（比如，TcpSockets,Kafka,Flume等），也可以使用一些map、window和reduceByKeyAndWindow产生。当SparkStreaming在运行

pcqlegend·2020-08-21 07:35

spark streaming与kafka整合

Spark2.2和2.3支持0.8和0.10两种KafkaAPI，而且0.8版本的API可以和KafkaBroker0.9及0.10兼容，但0.10版本的API不能与Kakka0.8兼容。

hadoove·2020-08-21 05:24

spark2.0.0 在idea intell 中执行scala时，出现如下错误，无法解决

18/02/2723:43:08WARNTaskSetManager:Losttask1.0instage0.0(TID1,192.168.1.121):java.lang.ClassCastException:cannotassigninstanceofscala.collection.immutable.List$SerializationProxytofieldorg.apache.spar

一醉千秋·2020-08-21 05:00

Stack trace: ExitCodeException exitCode=15 OR File does not exist: hdfs:/spark2-history

sparkonyarn集群运行程序报错:Stacktrace:ExitCodeExceptionexitCode=15:查看yarn的聚合日志，将日志下载下来查看。yarnlogs-applicationIdapplication_1522668922644_40211-out./info发现日志内的错误如下java.io.FileNotFoundException:Filedoesnotexis

守猫de人·2020-08-21 03:07

Dstream生成RDD实例详解

DStream生成RDD实例详解[酷玩Spark]SparkStreaming源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本系列内容适用范围：*2016.12.28update,Spark2.1

zzzzzzzzzzzzzzzzzxs·2020-08-21 02:25

Spark 内存相关（qbit）

前言本文对spark2.1.x适用executor内存模型堆内内存与堆外内存堆内内存堆外内存动态资源分配基本参数设置#配置externalshuffleservice服务（一定要配置启用）spark.shuffle.service.enabled

qbit·2020-08-21 00:55

Spark 内存相关（qbit）

前言本文对spark2.1.x适用executor内存模型堆内内存与堆外内存堆内内存堆外内存动态资源分配基本参数设置#配置externalshuffleservice服务（一定要配置启用）spark.shuffle.service.enabled

qbit·2020-08-21 00:54

Spark Streaming vs. Structured Streaming

提供了基于RDDs的DstreamAPI，每个时间间隔内的数据为一个RDD，源源不断对RDD进行处理来实现流计算StructuredStreamingSpark2.X出来的流框架，采用了无界表的概念，流数据相当于往一个表上不断追加行

upupfeng·2020-08-20 23:09

推荐频道

spark2

Spark2.1.0事件总线分析——ListenerBus的继承体系

spark2.1.0之源码分析——RPC传输管道处理器详解

编译spark 2.1.0源码

Spark2.1.0之源码分析——事件总线

Spark2.X CSV文件 创建DataFrame

spark：将csv文件读取为DataFrame

基于spark2的dataFrame和dataSet

Spark

spark DataFrame的创建几种方式和存储

PyCharm中通过pyspark调用spark报错的解决办法

Pyspark 读取本地csv文件，插入parquet格式的hive表中

Spark获取CSV文件导入ClickHouse

spark读写csv文件

spark1.6.1和2.4读取csv文件，转为为DataFrame和使用SQL

spark 读取csv 变为dataframe

Spark2 Dataset之collect_set与collect_list

Centos6.9离线安装CDH5.13.1

Spark SQL 实现 group_concat

基于CDH5.10.2安装spark2

cloudera manager-5.10.2的安装（三、各个组件服务的安装分配）

Spark2.4.4源码编译

DAGScheduler之Job的提交划分Stage

Spark DataFrame写入HBase的常用方式

Spark Broadcast之TorrentBroadcast

Spark2 ON CDH5.15.1

Spark中广播变量详解

spark2.x-广播变量

Centos 7 环境 HBase 2.1.5 完全分布式集群的搭建过程

Spark广播之TorrentBroadcast实现原理

Spark2.x（六十二）：（Spark2.4）共享变量 - Broadcast原理分析

Spark 3.0发布啦，改进SQL，弃Python 2，更好的兼容ANSI SQL，性能大幅提升

Spark2.2 广播变量broadcast原理及源码剖析

Spark源码学习--内置RPC框架(1)

Spark源码阅读环境搭建（基于idea+maven）

Android基于XMPP Smack Openfire下学习开发IM(一)实现用户注册、登录、修改密码和注销等

Spark内置图像数据源初探

基于 spark ml NaiveBayes实现中文文本分类

Spark编程指南(一)

子雨大数据之Spark入门教程---Spark2.1.0入门：第一个Spark应用程序：WordCount 2.2

Spark in Action 免积分下载

基于Spark的TF-IDF算法的中文文本相似度实现

大数据组件02-华为云鲲鹏服务器Spark2.3移植安装指南

Spark2.2.0源码阅读 -Dstream

spark streaming与kafka整合

spark2.0.0 在idea intell 中执行scala时，出现如下错误，无法解决

Stack trace: ExitCodeException exitCode=15 OR File does not exist: hdfs:/spark2-history

Dstream生成RDD实例详解

Spark 内存相关（qbit）

Spark 内存相关（qbit）

Spark Streaming vs. Structured Streaming

Spark2.X CSV文件创建DataFrame