E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
干货 | Spark 2.4 高阶函数介绍
Apache
Spark2
.4在近期已经发布了(参见Apache
Spark2
.4正式发布,重要功能详细介绍),其中为我们带来了24个内置操作数组和map的函数,5个高阶函数。
Hadoop技术博文
·
2020-07-30 08:59
[2.4]以row_number为例解读spark sql的窗口函数
大数据梦工厂场景将本地文件toNGroup.txt中的内容:hadoop@master:~/resource$cattoNGroup.txthadoop29hadoop87hadoop39hadoop27hadoop88
spark2
9spark90
spark2
7spark84spark92hadoop
彭宇成
·
2020-07-30 07:49
Spark
JAVA1.7+Hadoop 2.7.3+Spark 2.1.0一主多从集群搭建
文章目录0集群信息及基本初始化0.1集群初始化0.2集群信息1Hadoop2.7.3环境搭建1.1下载JDK1.7、Hadoop2.7.3、
Spark2
.1.0包1.2解压JDK安装包1.3配置java
ibless
·
2020-07-30 07:30
大数据
阿里云Centos7.3上
Spark2
.3集群的搭建(ok!!!)
两台阿里云服务器Centos7.3首先是在前面的在阿里云上hadoop2.7.6集群已经搭建成功的基础之上再搭建spark集群查看之前在阿里云上Hadoop2.7.6的搭建笔记需要的就是先下载
Spark2
.3
zhangvalue
·
2020-07-30 06:03
大数据相关
cdh_集群
spark2
_中_kafka_版本配置问题
CDH5.14.2集群中安装
spark2
.3.0后的默认安装的Kafka依赖包有两个版本,分别是kafka0.9以及kafka0.10集群默认选中的是使用kafka0.9。
_游侠
·
2020-07-30 05:43
cdh
cdh
hadoop
Pyspark以DataFrame格式读写Hbase
的博客,特别感谢,原文地址如下链接:https://blog.csdn.net/u011412768/article/details/93404921我使用的环境:CDH集群,资源监控使用的yarn,
spark2
.3
隔壁村的老王
·
2020-07-30 02:38
python
spark
hbase
CDH5(5.15.0)升级jdk1.7到1.8,并且将spark1.6升级到
spark2
.3
严格来说不是将spark1.6升级到
spark2
.3,而是安装一个新的
spark2
.3一、JDK1.7升级到JDK1.8由于之前CDH中安装了spark1.6,为了适配,我安装jdk1.7,但是在
spark2
.3
蜗牛!Destiny
·
2020-07-30 01:22
CDH
环境
Spark
pyspark写入hbase2.*的坑
找不到方法:org.apache.hadoop.hbase.client.Put.add([B[B[B)Lorg/apache/hadoop/hbase/client/Put参考前言日前笔者尝试使用py
spark2
.4.3
chensongjian
·
2020-07-30 00:19
技术填坑
Spark2
.3.1安装
环境:hadoop2.6.4jdk1.8centos4.8步骤如下:1.在Apache官网下载
Spark2
.3.1的安装包2.上传到Linux并解压tar-zxvfspark-2.3.1-bin-hadoop2.6
Miss Ring
·
2020-07-30 00:52
Spark
Spark安装
【Spark开发必备技能】6-4-RDD/Dataset/DataFrame-Dataset常用方法
Dataset创建3、Encoder类创建4、Dataset方法5、Dataset转RDD1、Dataset方法综述Dataset是从Spark1.6开始引入的一个新的数据类型,当时还是处于alpha版本;然而在
Spark2
.0
Spark技术咖
·
2020-07-29 20:46
2018-05-18
第一篇讲Spark中最重要的SparkContext,他是Spark的核心,虽说在
Spark2
中已经用SparkSession来作为我们初始化的对象,但是最最核心核心的还是SparkContext。
是我_7b3f
·
2020-07-29 20:44
spark2
.3与kafka0.10整合
https://blog.csdn.net/qq_24084925/article/details/80842534参数含义https://blog.csdn.net/zhongguozhichuang/article/details/53282858注意:当spark集群环境版本是2.3时,spark-streaming-kafka的版本必须是2.3.0,否则启动时报错java.lang.Abs
join_null
·
2020-07-29 19:10
spark
spark笔记(3)——
spark2
.x内存管理模型
文章目录1、简介2、内存分配2.1、静态内存管理器2.2、统一内存管理器2.2.1、堆内内存(On-heapMemory)2.2.2、堆外内存(Off-heapMemory)3、Execution内存和Storage内存动态调整4、Task之间内存分布5、参考1、简介 spark作为基于内存的分布式计算引擎,其内存管理模型在整个系统中起着非常重要的作用。Spark应用程序包括两个JVM进程,Dr
挪威马天雨
·
2020-07-29 19:44
spark
[Spark版本更新]--Spark-2.3.1发布说明
2018-09-08ApacheSpark官方发布了
Spark2
.3的小版本--2.3.1,ReleaseNotes如下:Sub-task[SPARK-23706]-spark.conf.get(value
highfei2011
·
2020-07-29 19:57
Spark
spark2
.3.1+jdk1.8向下兼容1.7(生产机器为jdk1.7)
1、打包org.apache.sparkspark-core_2.11${spark.version}providedorg.apache.sparkspark-sql_2.11${spark.version}provided2、上传到生产集群/opt/core/spark-2.3.1-bin-hadoop2.6/bin/spark-submit--classcom.jiupaipay.wordc
cjlion
·
2020-07-29 17:25
spark
Spark源码之-CDH6下
Spark2
.4写Hive分区表异常
文章目录一、组件版本二、问题描述三、问题分析四、解决办法一、组件版本组件版本Hadoop3.0.0+cdh6.1.1Hive2.1.1+cdh6.1.1
spark2
.4.0+cdh6.1.1二、问题描述在
丶kino丶
·
2020-07-29 15:35
#
Spark
Spark2
.x 内存管理之---OFF_HEAP
版权声明:本文为博主原创文章,未经博主允许不得转载!!欢迎访问:https://blog.csdn.net/qq_21439395/article/details/80773121交流QQ:8242034531.Spark内存管理之—OFF_HEAP1.1.存储级别简介Spark中RDD提供了多种存储级别,除去使用内存,磁盘等,还有一种是OFF_HEAP,称之为使用JVM堆外内存。使用OFF_HE
gssgch
·
2020-07-29 14:46
Spark
spark2.x
Spark内存管理
Spark 入门
一Spark概述111什么是
Spark2
Spark特点3Spark的用户和用途二Spark集群安装1集群角色2机器准备3下载Spark安装包4配置SparkStandalone5配置JobHistoryServerStandalone6
涵死_
·
2020-07-29 13:33
spark
[解決] Spark run on yarn (
spark2
-hdp-yarn-archive.tar.gz)
遇到一個奇怪的問題:Diagnostics:ExitCodeExceptionexitCode=2:gzip:/spare/hadoop/yarn/local/filecache/21_tmp/tmp_
spark2
iteye_4103
·
2020-07-29 10:19
spark
spark2
-release-HDP-2.6.4.0-91-tag在CentOS7上的源码编译
文章目录
Spark2
编译准备下载:maven环境搭建Scala环境搭建
Spark2
编译设置make-distribution.sh执行编译命令
Spark2
编译准备下载:https://github.com
@TangXin
·
2020-07-29 09:48
Spark2
Spark2
sparkSession使用
packagecom.jdjr.city.demoimportorg.apache.spark.sql.SparkSession/***@Auther:hongwei*@Date:2018/11/916:31*@Description:SparkSession使用*/objectTest4{defmain(args:Array[String]):Unit={valspark=SparkSessio
yangbosos
·
2020-07-29 01:45
spark
hive
Spark性能调优2-总结分享
环境:服务器600+,
spark2
.0.2,hadoop2.6.02、调优结果调优随机选取线上9条SQL,表横轴是调优测试项目,测试在集群空闲情况下进行,后一个的测试都是叠
xwc35047
·
2020-07-29 01:33
spark经验总结
性能调优
Delta Lake 平台化实践(离线篇)
原文链接:https://blog.csdn.net/lsshlsw/article/details/103553289博客主:breeze_lsw“本文是在DeltaLake0.4与
Spark2
.4集成
weixin_45906054
·
2020-07-28 23:24
Delta Lake 安装
DeltaLake安装下载并安装
spark2
.4.5版本https://mirror.bit.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7
大数据AIRDE
·
2020-07-28 21:23
#
Delta
Lake
delta
lake
delta
SparkStreaming 读取kafka中数据(
spark2
.3.2)
@羲凡——只为了更好的活着SparkStreaming读取kafka中数据(
spark2
.3.2)流处理一般都会涉及到kafka,所以用SparkStreaming读取kafka中数据是流处理的必备技能之一
羲凡丞相
·
2020-07-28 21:39
Kafka/Pulsar
Windows下搭建 Spark开发环境遇到的坑(Intellij IDEA)
Spark2
.x学习笔记:6、在Windows平台下搭建Spark开发环境(IntellijIDEA)上面这个教程介绍得非常详细,包括Maven的安装等等。下面是针对上面教程的一些补充说明。
博弈史密斯
·
2020-07-28 20:46
Ambari在不升级情况下整合高版本
spark2
.x框架
笔者杯具的发现,这个版本对于
spark2
.x还不能完全支持,自然就无法使用
spark2
.x以后带来
人唯优
·
2020-07-28 20:22
Ambari
Spark2
SQL configuration参数配置
查看当前环境SQL参数的配置spark.sql("SET-v")keyvaluespark.sql.hive.version1.2.1spark.sql.sources.parallelPartitionDiscovery.threshold32spark.sql.hive.metastore.barrierPrefixesspark.sql.shuffle.partitions200spark.
weixin_33967071
·
2020-07-28 18:54
大数据
ui
数据库
《深入理解Spark:核心思想与源码分析》——导读
更多章节内容可以访问云栖社区“华章社区”公众号查看目录前言准备篇第1章环境准备1.1运行环境准备1.2Spark初体验1.3阅读环境准备1.4Spark源码编译与调试1.5小结第2章Spark设计理念与基本架构2.1初识
Spark2
.2Spark
weixin_33948416
·
2020-07-28 18:42
是时候放弃 Spark Streaming, 转向 Structured Streaming 了 ...
正如在之前的那篇文章中SparkStreaming设计原理中说到Spark团队之后对SparkStreaming的维护可能越来越少,
Spark2
.4版本的ReleaseNote里面果然一个SparkStreaming
weixin_33709609
·
2020-07-28 17:16
用maven编译
spark2
.1.0
Java7+,这里是官方文档中要求的maven和jdk版本,其他版本未测;2.执行exportMAVEN_OPTS="-Xmx2g-XX:ReservedCodeCacheSize=512m"3.切换到
spark2
.1.0
bit小兵
·
2020-07-28 17:00
Spark集群框架搭建01【VM15+CentOS7+Hadoop+Scala+Spark+Zookeeper+HBase+Hive】
二、准备工作VMware15ProCentos7JDK1.8Hadoop2.7.2SecureCRTversion8.5Scala2.12.7
Spark2
.3.1Zookeeper3.4.10HBase2.0.2Hive2.3.4
流浪中的UncleLivin
·
2020-07-28 16:18
spark 2.3 导致driver OOM的一个SparkPlanGraphWrapper源码的bug
背景长话短说,我们部门一个同事找到我,说他的
spark2
.3structuredstreaming程序频繁报OOM,从来没有坚持过超过三四天的,叫帮看一下。
weixin_30588675
·
2020-07-28 16:24
Spark 2.0系列之SparkSession详解
本文就SparkSession在
Spark2
0中的功能和地位加以阐释。
u013063153
·
2020-07-28 14:54
Spark
spark2
.4 sql 快速列去重(冗余列检查)
一直想做一个勤奋的人,笔耕方田,将自己在从事spark开发四年来积累的奇淫巧技分享出来。在给大家提供参考方案的同时也在总结和优化之前的设计。如果在有幸碰到大牛忍不住提出更好的优化方案能从中受益,也不枉码了这么多字。每当设计出一个很好的计算方案,就会忍不住打开博客想分享出来。然后会一直琢磨该以什么样的文字描述出来,想着想着就放弃了。总是想构思一个比较完美的结构段落,结果到最后什么也没有写出来。分享也
sunkl_
·
2020-07-28 13:23
大数据
pyspark系列--dataframe基础
dataframe基础1.连接本地
spark2
.创建dataframe3.查看字段类型4.查看列名5.查看行数6.重命名列名7.选择和切片筛选8.删除一列9.增加一列10.转json11.排序12.缺失值
振裕
·
2020-07-28 12:45
spark
数据分析
pyspark系列--读写dataframe
目录1.连接
spark2
.创建dataframe2.1.从变量创建2.2.从变量创建2.3.读取json2.4.读取csv2.5.读取MySQL2.6.从pandas.dataframe创建2.7.从列式存储的
振裕
·
2020-07-28 12:44
spark
数据分析
spark
dataframe
MetaException(message:Hive Schema version 2.3.0 does not match metastore's schema version 1.2.0
环境:
spark2
.2.0hive2.3.3问题:用spark应用创建一张hive表后,在通过hiveshell来操作hive时报如下错;MetaException(message:HiveSchemaversion2.3.0doesnotmatchmetastore'sschemaversion1.2.0
struggling_rong
·
2020-07-28 11:33
问题解决整理
MetaException(message:file:/user/hive/warehouse/xxx is not a directory or unable to create one)
环境:hadoop2.7.6
spark2
.2.0hive2.3.3问题:编写spark应用保存数据到hive表,之前不存在该表,报如下错:Causedby:MetaException(message:file
struggling_rong
·
2020-07-28 11:33
问题解决整理
spark的maven项目的pom文件
并且
spark2
.2的版本是需要jdk1.8的。这里是引用1.81.82.10.51.6.22.6.4UTF-8org.scala-
sheep8521
·
2020-07-28 10:58
spark
spark2
.0版本的 DataFrame、DataSet 与 Spark sql
参考:http://www.cnblogs.com/seaspring/p/5804178.htmlhttps://my.oschina.net/cjun/blog/655263?p={{currentPage%201}}http://spark.apache.org/docs/latest/sql-programming-guide.html1.相关概念1)RDD:spark中最基本的弹性分布式
ronaldo4511
·
2020-07-28 10:49
大数据
sparksql调优之第一弹
spark调优系列之内存和GC调优2,内存调优缓存表
spark2
.
大数据星球-浪尖
·
2020-07-28 10:37
IDEA导入JAR包引起的错误
所用软件版本:
spark2
.3.0kafka1.10IDEA2019.1(spark-streaming-kafka-0-8-2.11-2.3.0)在用IDEA导入kafkaJAR包的时候,一直导入不进去
reedom1991
·
2020-07-28 10:16
spark
解决如何对sparkStreaming的DataFrame某一column的部分内容进行修改!
所用的软件版本:
spark2
.3.0hbase1.4.6IDEA2019.1今天遇到一个问题,sparkStreaming的DataFrame的有些column的内容有换行符\n,然后DF.show()
reedom1991
·
2020-07-28 10:44
spark
spark
DataFrame
SparkStreaming
SparkSQL DataFrame进阶篇
SparkSQLDataFrame基础篇SparkSQLDataFrame进阶篇1.创建SparkSession【2.0】和SQLContext实例【1.x】1.创建SparkSession【2.0】///
spark2
.0
ihoge
·
2020-07-28 08:48
spark
maven编译
spark2
.3.2源码
软件版本
spark2
.3.2scala2.11.8jdk1.8+maven3.3.9hadoop-2.6.0-cdh5.7.0编译步骤:1、先安装配置jdk,scala,maven(略)2、到spark
夏至1208
·
2020-07-28 06:23
Spark
问题-为什么需要搭建数据平台
比如数据采集的flume、sqoop,离线处理的hive,分布式计算引擎
spark2
.数据资产。公司业务产生的;公司运作产生的;从外界购买、爬虫得来的。3.数据管理。
zdkdchao
·
2020-07-28 06:39
问题
spark2
.x-内存管理机制
MemoryManager管理在jvm内部的spark整体的内存使用,该组件实现了将可用内存按任务划分的策略。在内存(内存使用缓存和数据传输)和执行之间分配内存(计算所使用的内存,如shuffles、joins、sorts和aggregations)。执行内存指的是计算shuffles、joins、sorts和aggregations,而存储内存指的是用于缓存和传播跨集群的内部数据。每个JVM存在
小蜗牛也有梦想
·
2020-07-28 05:27
spark
Spark SQL函数
SparkSQL函数一、概述1、来源:本文总结自
spark2
.3.1API文档org.apache.spark.sql:objectfunctions;2、使用:org.apache.spark.sql.functions
简之
·
2020-07-28 04:55
大数据
spark2
.3.2+Yarn+Carbondata Thrift Server 配置carbondata1.5
Carbondata简介ApacheCarbondata是一种新的融合存储解决方案,利用先进的列式存储,索引,压缩和编码技术提高查询效率。ApacheCarbondata中文文档地址:http://carbondata.iteblog.comApacheCarbondata英文文档:http://carbondata.apache.org/GitHub源码地址https://github.com/
nszkadrgg
·
2020-07-28 04:00
Spark
上一页
13
14
15
16
17
18
19
20
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他