spark2 第17页

干货 | Spark 2.4 高阶函数介绍

ApacheSpark2.4在近期已经发布了（参见ApacheSpark2.4正式发布，重要功能详细介绍），其中为我们带来了24个内置操作数组和map的函数，5个高阶函数。

Hadoop技术博文·2020-07-30 08:59

[2.4]以row_number为例解读spark sql的窗口函数

大数据梦工厂场景将本地文件toNGroup.txt中的内容：hadoop@master:~/resource$cattoNGroup.txthadoop29hadoop87hadoop39hadoop27hadoop88spark29spark90spark27spark84spark92hadoop

彭宇成·2020-07-30 07:49

JAVA1.7+Hadoop 2.7.3+Spark 2.1.0一主多从集群搭建

文章目录0集群信息及基本初始化0.1集群初始化0.2集群信息1Hadoop2.7.3环境搭建1.1下载JDK1.7、Hadoop2.7.3、Spark2.1.0包1.2解压JDK安装包1.3配置java

ibless·2020-07-30 07:30

阿里云Centos7.3上 Spark2.3集群的搭建（ok！！！）

两台阿里云服务器Centos7.3首先是在前面的在阿里云上hadoop2.7.6集群已经搭建成功的基础之上再搭建spark集群查看之前在阿里云上Hadoop2.7.6的搭建笔记需要的就是先下载Spark2.3

zhangvalue·2020-07-30 06:03

cdh_集群spark2_中_kafka_版本配置问题

CDH5.14.2集群中安装spark2.3.0后的默认安装的Kafka依赖包有两个版本，分别是kafka0.9以及kafka0.10集群默认选中的是使用kafka0.9。

_游侠·2020-07-30 05:43

Pyspark以DataFrame格式读写Hbase

的博客，特别感谢，原文地址如下链接:https://blog.csdn.net/u011412768/article/details/93404921我使用的环境：CDH集群，资源监控使用的yarn,spark2.3

隔壁村的老王·2020-07-30 02:38

CDH5(5.15.0)升级jdk1.7到1.8，并且将spark1.6升级到spark2.3

严格来说不是将spark1.6升级到spark2.3，而是安装一个新的spark2.3一、JDK1.7升级到JDK1.8由于之前CDH中安装了spark1.6，为了适配，我安装jdk1.7，但是在spark2.3

蜗牛!Destiny·2020-07-30 01:22

pyspark写入hbase2.*的坑

找不到方法:org.apache.hadoop.hbase.client.Put.add([B[B[B)Lorg/apache/hadoop/hbase/client/Put参考前言日前笔者尝试使用pyspark2.4.3

chensongjian·2020-07-30 00:19

Spark2.3.1安装

环境：hadoop2.6.4jdk1.8centos4.8步骤如下：1.在Apache官网下载Spark2.3.1的安装包2.上传到Linux并解压tar-zxvfspark-2.3.1-bin-hadoop2.6

Miss Ring·2020-07-30 00:52

【Spark开发必备技能】6-4-RDD/Dataset/DataFrame-Dataset常用方法

Dataset创建3、Encoder类创建4、Dataset方法5、Dataset转RDD1、Dataset方法综述Dataset是从Spark1.6开始引入的一个新的数据类型，当时还是处于alpha版本；然而在Spark2.0

Spark技术咖·2020-07-29 20:46

2018-05-18

第一篇讲Spark中最重要的SparkContext，他是Spark的核心，虽说在Spark2中已经用SparkSession来作为我们初始化的对象，但是最最核心核心的还是SparkContext。

是我_7b3f·2020-07-29 20:44

spark2.3与kafka0.10整合

https://blog.csdn.net/qq_24084925/article/details/80842534参数含义https://blog.csdn.net/zhongguozhichuang/article/details/53282858注意：当spark集群环境版本是2.3时，spark-streaming-kafka的版本必须是2.3.0，否则启动时报错java.lang.Abs

join_null·2020-07-29 19:10

spark笔记（3）—— spark2.x内存管理模型

文章目录1、简介2、内存分配2.1、静态内存管理器2.2、统一内存管理器2.2.1、堆内内存(On-heapMemory)2.2.2、堆外内存(Off-heapMemory)3、Execution内存和Storage内存动态调整4、Task之间内存分布5、参考1、简介 spark作为基于内存的分布式计算引擎，其内存管理模型在整个系统中起着非常重要的作用。Spark应用程序包括两个JVM进程，Dr

挪威马天雨·2020-07-29 19:44

[Spark版本更新]--Spark-2.3.1发布说明

2018-09-08ApacheSpark官方发布了Spark2.3的小版本--2.3.1，ReleaseNotes如下：Sub-task[SPARK-23706]-spark.conf.get（value

highfei2011·2020-07-29 19:57

spark2.3.1+jdk1.8向下兼容1.7（生产机器为jdk1.7）

1、打包org.apache.sparkspark-core_2.11${spark.version}providedorg.apache.sparkspark-sql_2.11${spark.version}provided2、上传到生产集群/opt/core/spark-2.3.1-bin-hadoop2.6/bin/spark-submit--classcom.jiupaipay.wordc

cjlion·2020-07-29 17:25

Spark源码之-CDH6下Spark2.4写Hive分区表异常

文章目录一、组件版本二、问题描述三、问题分析四、解决办法一、组件版本组件版本Hadoop3.0.0+cdh6.1.1Hive2.1.1+cdh6.1.1spark2.4.0+cdh6.1.1二、问题描述在

丶kino丶·2020-07-29 15:35

Spark2.x 内存管理之---OFF_HEAP

gssgch·2020-07-29 14:46

Spark 入门

一Spark概述111什么是Spark2Spark特点3Spark的用户和用途二Spark集群安装1集群角色2机器准备3下载Spark安装包4配置SparkStandalone5配置JobHistoryServerStandalone6

涵死_·2020-07-29 13:33

[解決] Spark run on yarn (spark2-hdp-yarn-archive.tar.gz)

遇到一個奇怪的問題：Diagnostics:ExitCodeExceptionexitCode=2:gzip:/spare/hadoop/yarn/local/filecache/21_tmp/tmp_spark2

iteye_4103·2020-07-29 10:19

spark2-release-HDP-2.6.4.0-91-tag在CentOS7上的源码编译

文章目录Spark2编译准备下载：maven环境搭建Scala环境搭建Spark2编译设置make-distribution.sh执行编译命令Spark2编译准备下载：https://github.com

@TangXin·2020-07-29 09:48

Spark2 sparkSession使用

packagecom.jdjr.city.demoimportorg.apache.spark.sql.SparkSession/***@Auther:hongwei*@Date:2018/11/916:31*@Description:SparkSession使用*/objectTest4{defmain(args:Array[String]):Unit={valspark=SparkSessio

yangbosos·2020-07-29 01:45

Spark性能调优2-总结分享

环境：服务器600+，spark2.0.2，hadoop2.6.02、调优结果调优随机选取线上9条SQL，表横轴是调优测试项目，测试在集群空闲情况下进行，后一个的测试都是叠

xwc35047·2020-07-29 01:33

Delta Lake 平台化实践（离线篇)

原文链接：https://blog.csdn.net/lsshlsw/article/details/103553289博客主：breeze_lsw“本文是在DeltaLake0.4与Spark2.4集成

weixin_45906054·2020-07-28 23:24

Delta Lake 安装

DeltaLake安装下载并安装spark2.4.5版本https://mirror.bit.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7

大数据AIRDE·2020-07-28 21:23

SparkStreaming 读取kafka中数据(spark2.3.2)

@羲凡——只为了更好的活着SparkStreaming读取kafka中数据(spark2.3.2)流处理一般都会涉及到kafka，所以用SparkStreaming读取kafka中数据是流处理的必备技能之一

羲凡丞相·2020-07-28 21:39

Windows下搭建 Spark开发环境遇到的坑（Intellij IDEA）

Spark2.x学习笔记：6、在Windows平台下搭建Spark开发环境（IntellijIDEA）上面这个教程介绍得非常详细，包括Maven的安装等等。下面是针对上面教程的一些补充说明。

博弈史密斯·2020-07-28 20:46

Ambari在不升级情况下整合高版本spark2.x框架

笔者杯具的发现，这个版本对于spark2.x还不能完全支持，自然就无法使用spark2.x以后带来

人唯优·2020-07-28 20:22

Spark2 SQL configuration参数配置

查看当前环境SQL参数的配置spark.sql("SET-v")keyvaluespark.sql.hive.version1.2.1spark.sql.sources.parallelPartitionDiscovery.threshold32spark.sql.hive.metastore.barrierPrefixesspark.sql.shuffle.partitions200spark.

weixin_33967071·2020-07-28 18:54

《深入理解Spark:核心思想与源码分析》——导读

weixin_33948416·2020-07-28 18:42

是时候放弃 Spark Streaming, 转向 Structured Streaming 了 ...

正如在之前的那篇文章中SparkStreaming设计原理中说到Spark团队之后对SparkStreaming的维护可能越来越少，Spark2.4版本的ReleaseNote里面果然一个SparkStreaming

weixin_33709609·2020-07-28 17:16

用maven编译spark2.1.0

Java7+,这里是官方文档中要求的maven和jdk版本，其他版本未测;2.执行exportMAVEN_OPTS="-Xmx2g-XX:ReservedCodeCacheSize=512m"3.切换到spark2.1.0

bit小兵·2020-07-28 17:00

Spark集群框架搭建01【VM15+CentOS7+Hadoop+Scala+Spark+Zookeeper+HBase+Hive】

二、准备工作VMware15ProCentos7JDK1.8Hadoop2.7.2SecureCRTversion8.5Scala2.12.7Spark2.3.1Zookeeper3.4.10HBase2.0.2Hive2.3.4

流浪中的UncleLivin·2020-07-28 16:18

spark 2.3 导致driver OOM的一个SparkPlanGraphWrapper源码的bug

背景长话短说，我们部门一个同事找到我，说他的spark2.3structuredstreaming程序频繁报OOM，从来没有坚持过超过三四天的，叫帮看一下。

weixin_30588675·2020-07-28 16:24

Spark 2.0系列之SparkSession详解

本文就SparkSession在Spark20中的功能和地位加以阐释。

u013063153·2020-07-28 14:54

spark2.4 sql 快速列去重（冗余列检查）

一直想做一个勤奋的人，笔耕方田，将自己在从事spark开发四年来积累的奇淫巧技分享出来。在给大家提供参考方案的同时也在总结和优化之前的设计。如果在有幸碰到大牛忍不住提出更好的优化方案能从中受益，也不枉码了这么多字。每当设计出一个很好的计算方案，就会忍不住打开博客想分享出来。然后会一直琢磨该以什么样的文字描述出来，想着想着就放弃了。总是想构思一个比较完美的结构段落，结果到最后什么也没有写出来。分享也

sunkl_·2020-07-28 13:23

pyspark系列--dataframe基础

dataframe基础1.连接本地spark2.创建dataframe3.查看字段类型4.查看列名5.查看行数6.重命名列名7.选择和切片筛选8.删除一列9.增加一列10.转json11.排序12.缺失值

振裕·2020-07-28 12:45

pyspark系列--读写dataframe

目录1.连接spark2.创建dataframe2.1.从变量创建2.2.从变量创建2.3.读取json2.4.读取csv2.5.读取MySQL2.6.从pandas.dataframe创建2.7.从列式存储的

振裕·2020-07-28 12:44

MetaException(message:Hive Schema version 2.3.0 does not match metastore's schema version 1.2.0

环境：spark2.2.0hive2.3.3问题：用spark应用创建一张hive表后，在通过hiveshell来操作hive时报如下错；MetaException(message:HiveSchemaversion2.3.0doesnotmatchmetastore'sschemaversion1.2.0

struggling_rong·2020-07-28 11:33

MetaException(message:file:/user/hive/warehouse/xxx is not a directory or unable to create one)

环境:hadoop2.7.6spark2.2.0hive2.3.3问题：编写spark应用保存数据到hive表，之前不存在该表，报如下错：Causedby:MetaException(message:file

struggling_rong·2020-07-28 11:33

spark的maven项目的pom文件

并且spark2.2的版本是需要jdk1.8的。这里是引用1.81.82.10.51.6.22.6.4UTF-8org.scala-

sheep8521·2020-07-28 10:58

spark2.0版本的 DataFrame、DataSet 与 Spark sql

参考：http://www.cnblogs.com/seaspring/p/5804178.htmlhttps://my.oschina.net/cjun/blog/655263?p={{currentPage%201}}http://spark.apache.org/docs/latest/sql-programming-guide.html1.相关概念1)RDD：spark中最基本的弹性分布式

ronaldo4511·2020-07-28 10:49

sparksql调优之第一弹

spark调优系列之内存和GC调优2，内存调优缓存表spark2.

大数据星球-浪尖·2020-07-28 10:37

IDEA导入JAR包引起的错误

所用软件版本：spark2.3.0kafka1.10IDEA2019.1(spark-streaming-kafka-0-8-2.11-2.3.0)在用IDEA导入kafkaJAR包的时候，一直导入不进去

reedom1991·2020-07-28 10:16

解决如何对sparkStreaming的DataFrame某一column的部分内容进行修改！

所用的软件版本：spark2.3.0hbase1.4.6IDEA2019.1今天遇到一个问题，sparkStreaming的DataFrame的有些column的内容有换行符\n，然后DF.show()

reedom1991·2020-07-28 10:44

SparkSQL DataFrame进阶篇

SparkSQLDataFrame基础篇SparkSQLDataFrame进阶篇1.创建SparkSession【2.0】和SQLContext实例【1.x】1.创建SparkSession【2.0】///spark2.0

ihoge·2020-07-28 08:48

maven编译spark2.3.2源码

软件版本spark2.3.2scala2.11.8jdk1.8+maven3.3.9hadoop-2.6.0-cdh5.7.0编译步骤：1、先安装配置jdk，scala，maven（略）2、到spark

夏至1208·2020-07-28 06:23

问题-为什么需要搭建数据平台

比如数据采集的flume、sqoop，离线处理的hive，分布式计算引擎spark2.数据资产。公司业务产生的；公司运作产生的；从外界购买、爬虫得来的。3.数据管理。

zdkdchao·2020-07-28 06:39

spark2.x-内存管理机制

MemoryManager管理在jvm内部的spark整体的内存使用,该组件实现了将可用内存按任务划分的策略。在内存（内存使用缓存和数据传输）和执行之间分配内存（计算所使用的内存，如shuffles、joins、sorts和aggregations）。执行内存指的是计算shuffles、joins、sorts和aggregations，而存储内存指的是用于缓存和传播跨集群的内部数据。每个JVM存在

小蜗牛也有梦想·2020-07-28 05:27

Spark SQL函数

SparkSQL函数一、概述1、来源：本文总结自spark2.3.1API文档org.apache.spark.sql：objectfunctions；2、使用：org.apache.spark.sql.functions

简之·2020-07-28 04:55

spark2.3.2+Yarn+Carbondata Thrift Server 配置carbondata1.5

Carbondata简介ApacheCarbondata是一种新的融合存储解决方案，利用先进的列式存储，索引，压缩和编码技术提高查询效率。ApacheCarbondata中文文档地址:http://carbondata.iteblog.comApacheCarbondata英文文档:http://carbondata.apache.org/GitHub源码地址https://github.com/

nszkadrgg·2020-07-28 04:00

推荐频道

spark2