E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
Spark2
.1.0事件总线分析——ListenerBus的继承体系
阅读提示:阅读本文前,最好先阅读《
Spark2
.1.0之源码分析——事件总线》。
泰山不老生
·
2020-08-23 05:16
大数据
Spark
Scala
深入理解Spark
spark
core
内核
事件
ListenerBus
spark2
.1.0之源码分析——RPC传输管道处理器详解
提示:阅读本文前最好先阅读:《
Spark2
.1.0之内置RPC框架》《
spark2
.1.0之源码分析——RPC配置TransportConf》《
spark2
.1.0之源码分析——RPC客户端工厂TransportClientFactory
泰山不老生
·
2020-08-23 05:16
大数据
Spark
Java
Netty
深入理解Spark
编译spark 2.1.0源码
编译
spark2
.1.0源码准备环境:准备spark源码包:https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0.tgz准备maven
Mars_sock
·
2020-08-23 05:54
spark
Spark2
.1.0之源码分析——事件总线
Spark定义了一个特质[1]ListenerBus,可以接收事件并且将事件提交到对应事件的监听器。为了对ListenerBus有个直观的理解,我们先来看看它的代码实现,见代码清单1。代码清单1ListenerBus的定义private[spark]traitListenerBus[LlogError(s"Listener${Utils.getFormattedClassName(listener
泰山不老生
·
2020-08-23 04:20
大数据
Spark
Scala
深入理解Spark
Spark2
.X CSV文件 创建DataFrame
一、需求分析将CSV文件转为DataFrame,其中CSV包括无头文件和有文件。二、数据展示无头文件的CSV1,张飞,21,北京,802,关羽,23,北京,823,赵云,20,上海,884,刘备,26,上海,835,曹操,30,深圳,90.8有头文件的CSVid,name,age,city,score1,张飞,21,北京,802,关羽,23,北京,823,赵云,20,上海,884,刘备,26,上海
zhangjunli
·
2020-08-23 04:33
Spark
spark:将csv文件读取为DataFrame
以下内容在
spark2
.2和
spark2
.3中测试都通过通用转换形式:spark.read.schema(sch).option("header",true).csv("/path/file.csv")
xuejianbest
·
2020-08-23 04:19
大数据
编程语言/Scala
大数据/spark
基于
spark2
的dataFrame和dataSet
文章目录dataFramedataFramewordCount基于dataSet的wordCountdataFramepackagesql2importorg.apache.avro.generic.GenericData.StringTypeimportorg.apache.spark.sql.types.{LongType,StructField,StructType}importorg.ap
_张不帅
·
2020-08-23 03:58
spark-鲨鱼
Spark
Apache
Spark2
.2.0中文文档http://spark.apachecn.org/docs/cn/2.2.0/sparkr.html在Spark中一个大文件会被有序的分为多个输入分片,每个分片对应一个分区
高级大数据工程师
·
2020-08-23 03:17
spark DataFrame的创建几种方式和存储
从
Spark2
.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。
weixin_30251587
·
2020-08-23 03:09
PyCharm中通过pyspark调用spark报错的解决办法
问题:PyCharm中通过pyspark无法调起
spark2
019-10-1620:39:09,343|Dummy-1:22492|django.db.backends:90|utils:execute
snetlogon20
·
2020-08-23 02:49
spark
pycharm
pyspark
Pyspark 读取本地csv文件,插入parquet格式的hive表中
(注意事项:
Spark2
.0版本开始将sqlContext、hiveContext统一整合为SparkSession)2、读取文件并转换为SparkDataFrame格式。(坑1:路径和语
小晓酱手记
·
2020-08-23 02:39
PySpark
Hive
Spark获取CSV文件导入ClickHouse
ClickHouse(重点)线上运行语句由于我们在工作中可能会用到导数需求,所以我就用sparkSQL进行开发了一个开发工具环境配置本地开发环境:WIN10、IDEA2019.3、Scala2.11.12、
Spark2
.4.0POM
W-DW
·
2020-08-23 02:39
Spark
spark读写csv文件
如果是spark1.6.0请添加maven:com.databricksspark-csv_2.101.4.0compile如果是
spark2
.0+就不用添加maven了,因为
spark2
.0内部集成了读写
lhxsir
·
2020-08-23 01:57
spark
spark1.6.1和2.4读取csv文件,转为为DataFrame和使用SQL
一、spark1.6读取csv
spark2
.0才开始源码支持CSV,所以1.6版本需要借助第三方包来实现读取CSV文件,有好几种方法,1.如果有maven的,到https://spark-packages.org
lbship
·
2020-08-23 01:51
Hadoop
spark
spark 读取csv 变为dataframe
试了网上的好几种读取csv文件的方法,总会有些错误,用这个方法就解决了,我的环境是
spark2
.1.1valdata=spark.read.format("csv").option("header","
楓尘林间
·
2020-08-23 01:49
Spark
DateFrame
Spark2
Dataset之collect_set与collect_list
collect_set去除重复元素;collect_list不去除重复元素selectgender,concat_ws(',',collect_set(children)),concat_ws(',',collect_list(children))fromAffairsgroupbygender//创建视图data.createOrReplaceTempView("Affairs")valdf3=
weixin_34336292
·
2020-08-22 23:19
Centos6.9离线安装CDH5.13.1
一、软件准备centos6.9jdk1.8mysql5.6cm-5.13.1cdh-5.13.1
spark2
.2二、网络配置(所有节点)修改/etc/sysconfig/network文件,设置主机名为
Just小布
·
2020-08-22 22:51
Spark SQL 实现 group_concat
SparkSQL实现group_concat环境:
Spark2
.0.1以下貌似需要至少Spark1.6支持,未实测(网友yanshichuan1反馈spark1.5.1同样支持,感谢)表结构及内容:+-
九剑问天
·
2020-08-22 22:56
大数据
spark
基于CDH5.10.2安装
spark2
前提:在我的CDH5.10集群中,默认安装的spark是1.6版本,这里需要将其升级为
spark2
.x版本在线安装:环境我这边是jdk1.8,scala-2.11.x,操作系统Centos6.5一、准备工作
久醉绕心弦i
·
2020-08-22 21:22
cloudera
manager
cloudera manager-5.10.2的安装(三、各个组件服务的安装分配)
YARN(MR2Included)、Zookeeper、namenode和resourcemanager的HA、Hive、HBase、Sqoop2、Flume、Oozie、Hue、Kafka、Spark、
Spark2
久醉绕心弦i
·
2020-08-22 21:22
cloudera
manager
Spark2
.4.4源码编译
Spark2
.4.4源码编译环境准备安装好软件,配置好环境变量,并检查是否生效。
Stefanboy
·
2020-08-22 21:39
Spark
DAGScheduler之Job的提交划分Stage
整体流程图源码分析
spark2
.3getOrCreateParentStages创建所有祖先Stage/***GetorcreatethelistofparentstagesforagivenRDD.ThenewStageswillbecreatedwith
阿武z
·
2020-08-22 20:25
Spark
Spark
DAGScheduler
Spark DataFrame写入HBase的常用方式
本文将会介绍三种写入的方式,其中一种还在期待中,暂且官网即可...代码在
spark2
weixin_34302798
·
2020-08-22 19:23
Spark Broadcast之TorrentBroadcast
概述SparkBroadcast概述中介绍了四种实现Broadcast的思路,这篇关注Spark中具体的实现TorrentBroadcast,其是
Spark2
.0及以后唯一的实现,其他实现都被删除了。
Mr_JieLQ
·
2020-08-22 18:12
spark-core源码
spark
Spark2
ON CDH5.15.1
Spark版本太低,急需升至
Spark2
。
clive0x
·
2020-08-22 18:16
Spark中广播变量详解
【前言:Spark目前提供了两种有限定类型的共享变量:广播变量和累加器,今天主要介绍一下基于
Spark2
.4版本的广播变量。
大数据学习与分享
·
2020-08-22 18:34
大数据
Spark
spark2
.x-广播变量
广播变量允许程序员保持只读变量,在每个机器上缓存,而不是用任务来发送它的副本。它们可以有效的方式给每个节点提供一个大的输入数据集的副本。spark尝试使用高效广播算法来分发广播变量以减少通信成本。注意,对象在广播后不应修改以确保所有节点获得广播变量的相同值Broadcast就是将数据从一个节点发送到其他的节点上;例如Driver上有一张表,而Executor中的每个并行执行的Task(100万个T
小蜗牛也有梦想
·
2020-08-22 17:48
spark
Centos 7 环境 HBase 2.1.5 完全分布式集群的搭建过程
系列博客地址Centos7环境hadoop3.2.0完全分布式集群搭建Centos7环境hive3.1.1搭建Centos7环境
Spark2
.4.3完全分布式集群的搭建过程Centos7环境HBase2.1.5
小不强
·
2020-08-22 16:37
大数据
Spark广播之TorrentBroadcast实现原理
Spark有两种方式:一种是HttpBroadcast(
Spark2
.1.0已经移除),另一种是TorrentBroadcast。
javartisan
·
2020-08-22 16:51
Spark
Spark2
.x(六十二):(
Spark2
.4)共享变量 - Broadcast原理分析
之前对Broadcast有分析,但是不够深入《
Spark2
.3(四十三):SparkBroadcast总结》,本章对其实现过程以及原理进行分析。
weixin_30569001
·
2020-08-22 15:14
Spark 3.0发布啦,改进SQL,弃Python 2,更好的兼容ANSI SQL,性能大幅提升
ApacheSpark3.0.0正式发布啦,ApacheSpark3.0是在
Spark2
.x的基础上开发的,带来了新的想法和功能。
老夫编程说
·
2020-08-22 15:56
spark
ansi
sql
Spark2
.2 广播变量broadcast原理及源码剖析
实例首先先来看一看broadcast的使用代码:valfactor=List[Int](1,2,3);valfactorBroadcast=sc.broadcast(factor)valnums=Array(1,2,3,4,5,6,7,8,9)valnumsRdd=sc.parallelize(nums,3)vallist=newListBuffer[List[Int]]()valresRdd=n
生命不息丶折腾不止
·
2020-08-22 15:45
spark
Spark源码学习--内置RPC框架(1)
但是Akka在
Spark2
.0.0版本中被移除了,Spark官网文档对此的描述为:“Akka的依赖被
小明的数据脚印
·
2020-08-22 15:03
spark
源码学习
大数据
Spark源码阅读环境搭建(基于idea+maven)
前置准备1.安装jdk1.82.安装idea3.安装maven,编译spark对maven版本有要求,
spark2
.4.5需要maven3.5.4以上,建议安装最新版本的maven在环境变量path中配置
bugDesigner
·
2020-08-22 15:31
spark
源码学习
大数据
Android基于XMPP Smack Openfire下学习开发IM(一)实现用户注册、登录、修改密码和注销等
www.igniterealtime.org/downloads/index.jsp安装配置可参考:http://www.cnblogs.com/hoojo/archive/2012/05/17/2506769.htmlSpark最新版本(
Spark2
.6.3
zhouzhangcheng123
·
2020-08-22 15:16
Android资料学习
Spark内置图像数据源初探
概述在Apache
Spark2
.4中引入了一个新的内置数据源,图像数据源.用户可以通过DataFrameAPI加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理
阿里云云栖号
·
2020-08-22 12:19
spark
图像
存储过程
string
基于 spark ml NaiveBayes实现中文文本分类
思路:1准备数据2,代码编写准备数据这里数据我将它分为两类,1军事,2nba,我将文件数据放在下面代码编写:这里面我用的是sparkml进行代码的实现的,spark版本用的是2.2(
spark2
.0和1.6
记录每一份笔记
·
2020-08-22 09:56
Spark编程指南(一)
翻译SparkProgrammingGuide,
Spark2
.2.0.之前有博文也翻译,Spark版本1.3.0.,本文翻译过程中,有所参考。
门下平章
·
2020-08-22 03:17
python
子雨大数据之Spark入门教程---
Spark2
.1.0入门:第一个Spark应用程序:WordCount 2.2
原博客地址:http://dblab.xmu.edu.cn/blog/1311-2/前面已经学习了Spark安装,完成了实验环境的搭建,并且学习了Spark运行架构和RDD设计原理,同时,我们还学习了Scala编程的基本语法,有了这些基础知识作为铺垫,现在我们可以没有障碍地开始编写一个简单的Spark应用程序了——词频统计。任务要求任务:编写一个Spark应用程序,对某个文件中的单词进行词频统计。
千寻~
·
2020-08-22 03:20
Spark in Action 免积分下载
完全更新
Spark2
.0。下载地址:SparkinAction更多免积分电子书,请访问:IE布克斯网转载于:https://my.oschina.net/u/3070312/blog/2997943
chongyuwan4121
·
2020-08-22 01:50
基于Spark的TF-IDF算法的中文文本相似度实现
Sparkversion:
spark2
.2.0Hadoopversion:Hadoop2.6.5Scalaversion:scala2.11ansjversion:5.1.5第一、先说下应用场景吧,用户给出一段文字然后我返回十个与这段文字最相似的文件名称
cap3396g
·
2020-08-22 01:07
spark
人工智能
大数据
大数据组件02-华为云鲲鹏服务器
Spark2
.3移植安装指南
ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。它拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。https://bbs.huaweicloud.com/forum/thread-42912-1-1
lichkingyang
·
2020-08-21 14:30
鲲鹏移植
Spark2
.2.0源码阅读 -Dstream
DStream是一个离散的Stream,是在SparkStreaming中的一个基本的抽象,是一个连续的相同类型RDD的序列。通常是一个连续的数据流。DStream可以使用StreamingContext通过实时的数据流创建(比如,TcpSockets,Kafka,Flume等),也可以使用一些map、window和reduceByKeyAndWindow产生。当SparkStreaming在运行
pcqlegend
·
2020-08-21 07:35
spark streaming与kafka整合
Spark2
.2和2.3支持0.8和0.10两种KafkaAPI,而且0.8版本的API可以和KafkaBroker0.9及0.10兼容,但0.10版本的API不能与Kakka0.8兼容。
hadoove
·
2020-08-21 05:24
大数据
kafka
spark
streaming
大数据
spark2
.0.0 在idea intell 中执行scala时,出现如下错误,无法解决
18/02/2723:43:08WARNTaskSetManager:Losttask1.0instage0.0(TID1,192.168.1.121):java.lang.ClassCastException:cannotassigninstanceofscala.collection.immutable.List$SerializationProxytofieldorg.apache.spar
一醉千秋
·
2020-08-21 05:00
大数据
hadoop
Stack trace: ExitCodeException exitCode=15 OR File does not exist: hdfs:/
spark2
-history
sparkonyarn集群运行程序报错:Stacktrace:ExitCodeExceptionexitCode=15:查看yarn的聚合日志,将日志下载下来查看。yarnlogs-applicationIdapplication_1522668922644_40211-out./info发现日志内的错误如下java.io.FileNotFoundException:Filedoesnotexis
守猫de人
·
2020-08-21 03:07
Spark
Dstream生成RDD实例详解
DStream生成RDD实例详解[酷玩Spark]SparkStreaming源码解析系列,返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本系列内容适用范围:*2016.12.28update,
Spark2
.1
zzzzzzzzzzzzzzzzzxs
·
2020-08-21 02:25
spark
Spark 内存相关(qbit)
前言本文对
spark2
.1.x适用executor内存模型堆内内存与堆外内存堆内内存堆外内存动态资源分配基本参数设置#配置externalshuffleservice服务(一定要配置启用)spark.shuffle.service.enabled
qbit
·
2020-08-21 00:55
spark
内存管理
Spark 内存相关(qbit)
前言本文对
spark2
.1.x适用executor内存模型堆内内存与堆外内存堆内内存堆外内存动态资源分配基本参数设置#配置externalshuffleservice服务(一定要配置启用)spark.shuffle.service.enabled
qbit
·
2020-08-21 00:54
spark
内存管理
Spark Streaming vs. Structured Streaming
提供了基于RDDs的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算StructuredStreaming
Spark2
.X出来的流框架,采用了无界表的概念,流数据相当于往一个表上不断追加行
upupfeng
·
2020-08-20 23:09
spark-streaming
spark
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他