spark2 第18页

spark 发布 2.2.0版本

ApacheSpark2.2.0是2.x分支上的第三次主版本发布，其他两个版本分别2.0.x,2.1.x两个主版本以及下属的分支版本。

learneraiqi·2020-07-28 01:23

Spark 2.0系列之SparkSession详解

原文链接：HowtouseSparkSessioninApacheSpark2.0作者：JulesDamji译者：刘旭坤责编：郭芮，关注大数据领域，寻求报道或投稿请发邮件[email protected]。

csdn郭芮·2020-07-28 00:17

Spark 2.3.0 Driver 内存泄漏

Spark2.3.0Driver内存泄漏问题描述线上StructedStreaming随着运行时间变长，处理能力越来越慢，重启程序后恢复到之前的处理能力。

王捷·2020-07-27 22:20

Spark 2.1.0的运行模式

Spark2.1.0支持的运行模式Spark支持多种运行模式，可以在集群环境中运行，也可以单机本地运行，或者在单机上部署伪分布集群来运行Spark。

远太狼·2020-07-27 22:52

spark2.4.3 sparkSQL 用户自定义函数笔记

1、简介从Spark2.0以上的版本开始，spark是使用全新的SparkSession接口代替Spark1.6中的SQLcontext和HiveContext来实现对数据的加载、转换、处理等工作，并且实现了

cqi024442·2020-07-27 20:21

Spark2.4.0 SparkSession 源码分析

Spark2.4.0SparkSession源码分析更多资源github:https://github.com/opensourceteams/spark-scala-maven-2.4.0时序图前置条件

chongqueluo2709·2020-07-27 20:56

Spark2.x学习笔记：14、Spark SQL程序设计

Spark2.x学习笔记：14、SparkSQL程序设计14.1RDD的局限性RDD仅表示数据集，RDD没有元数据，也就是说没有字段语义定义。RDD需要用户自己优化程序，对程序员要求较高。

程裕强·2020-07-27 20:12

spark2.2 SparkSession思考与总结1

问题导读1.你认为为何出现SparkSession？2.SparkSession如何创建RDD？3.SparkSession通过那个类来实例化？4.bulider包含哪些函数？为何出现SparkSession对于spark1.x的版本，我们最常用的是rdd，如果我们想使用DataFrame，则需要通过rdd转换。随着dataframe和dataset使用的越来越多，所以spark就寻找了新的切入点

about云·2020-07-27 19:01

spark2.x读取csv文件乱码问题

由于spark读取csv时，默认编码格式是utf-8，如果csv文件的格式是其他，需要加上编码格式的设定例：如果csv格式为GBKimportorg.apache.spark.sql.SparkSessionvalspark=SparkSession.builder().appName(“demo”).getOrCreate();如果用默认格式utf-8读取：vardata=spark.read.

楓尘林间·2020-07-27 19:57

Spark2.1.0——SparkContext初始化之Spark环境的创建

阅读指导：在《Spark2.1.0——SparkContext概述》一文中，曾经简单介绍了SparkEnv。本节内容将详细介绍SparkEnv的创建过程。

泰山不老生·2020-07-27 19:15

Spark2.1.0安装和配置

Spark主要使用HDFS充当持久化层，所以完整地使用Spark需要预先安装HadoopHadoop的下载地址：http://hadoop.apache.org/Spark的下载地址：http://spark.apache.org/同时也可使用Ambari安装Hadoop生态系统的所有需要的组件，参看文章：http://blog.csdn.net/wee_mita/article/details/

狮锅艺·2020-07-27 17:47

Spark2.2源码剖析——SparkContext初始化及Spark环境创建

阅读指导：在《Spark2.2——SparkContext概述》一文中，曾经简单介绍了SparkEnv。本节内容将详细介绍SparkEnv的创建过程。

Jorocco·2020-07-27 16:13

大数据笔试真题集锦---第二章:Spark面试题

我会不间断的更新,维护,希望可以对正在找大数据工作的朋友们有所帮助.第二章目录第二章Spark2.1Spark原理2.1.1Shuffle原理2.1.1.1SortShufflemapTask将map（

千锋教育官方博客·2020-07-27 15:49

Spark性能调优-总结分享

环境：服务器600+，spark2.0.2，Hadoop2.6.02、调优结果调优随机选取线上9条SQL，表横轴是调优测试项目，测试在集群空闲情况下进行，后一个的测试都是叠

打怪的蚂蚁·2020-07-27 14:54

SparkSession简单介绍

ApacheSpark2.0引入了SparkSession，其为用户提供了一个统一的切入点来使用Spark的各项功能，并且允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序

铭霏·2020-07-27 13:19

Spark 2.0的SparkSession详解

翻译自：HowtouseSparkSessioninApacheSpark2.0转载自：-SparkSession简单介绍(是否为原创初始翻译不详)-Spark2.0系列之SparkSession详解(

远太狼·2020-07-27 11:41

Spark项目的创建&Spark-shell用法

Spark2.2.0isbuiltanddistributedtoworkwithScala2.11bydefault.

烙痕·2020-07-16 06:13

SparkSQL读写kudu小记

在操作之前首先要有相应的依赖org.apache.kudukudu-spark2_2.111.8.0compile-->SparkSQL读取Kudu（Java语言描述）publicstaticDatasetgetDatasetFromKudu

RDeduction·2020-07-16 06:08

spark2.x 读写cassandra

spark2.x连接cassandra示例importorg.apache.spark.SparkConfimportorg.apache.spark.sql.

yixl·2020-07-16 05:35

Spark2.11 任务划分以及执行流程

1、sparkApplication中可以由不同的action触发job，也就是说一个Application里可以有很多的job，每个job是由一个或者多个stage构成的，后面的stage依赖前面的stage，只有前面依赖的stage计算完成后面的stage才会计算；2、stage划分的就是根据宽依赖如：reduceByKey、groupByKey等前后就需要划分为两个stage；3、由acti

qq_22796957·2020-07-16 05:59

Spark-submit诡异问题之：ERROR XJ040: Failed to start database 'metastore_db'

背景今天写了一个sparkjar包任务，在CDH集群上命令提交exportHADOOP_USER_NAME=lcc;spark2-submit--classcom.dtwave.spark.SparkMain

九师兄·2020-07-16 05:41

CentOS7+Hapdoop2.8+spark2.1完全分布式平台的搭建经历

写在前面个人心得与经验：1、关于全分布和伪分布的区别：全分布是指在不同物理主机上搭建平台。伪分布是指一台物理主机中有多台虚拟机，这些虚拟机搭建的平台就是伪分布式平台。2、关于平台版本选择：尽量选择成熟的版本，不要太旧也不要选择最新版本的。版本太旧会出现一些异常，可能是它平台本身存在的问题，也可能会出现与现在的一些主流框架不兼容的情况。最新版本的话会在配置文件上有所不同，网上搜到的资料不也是特别多，

PsG庞士冠·2020-07-16 04:56

总结Spark2. 内存管理

本文引用的博客有下面两篇，学习后进行了相应的总结，如有spark方面的疑问，欢迎探讨。https://blog.csdn.net/qq_16038125/article/details/80359414https://www.cnblogs.com/gaoxing/p/5041806.html)Spark架构图：JVM堆空间下Spark的内存默认分配情况：1、ExecutionMemory用来计算

ouweiqi·2020-07-16 04:10

phoenix for cloudera

phoenixforcloudera软件版本:spark2.0.2cdh5.9phoenix4.9(phoenix-spark模块使用4.11)下载CDH版本的phoenix，最新版本目前只有phoenix4.9

breeze_lsw·2020-07-16 02:07

thriftserver log4j.properties 生效

/home/isuhadoop/spark2/sbin/start-thriftserver.sh--driver-class-path/home/isuhadoop/ark_data_bin/jar/

lingzhi007·2020-07-16 02:46

【六】Spark SQL中SparkSession的使用

Spark2.X中SparkSQL的入口点：SparkSession。

jy02268879·2020-07-16 01:41

xgboost之spark上运行-scala接口

概述xgboost可以在spark上运行，我用的xgboost的版本是0.7的版本，目前只支持spark2.0以上版本上运行,编译好jar包，加载到maven仓库里面去： mvninstall:install-file-Dfile

hellozhxy·2020-07-15 23:24

spark上运行xgboost-scala接口

概述xgboost可以在spark上运行，我用的xgboost的版本是0.7的版本，目前只支持spark2.0以上版本上运行,编译好jar包，加载到maven仓库里面去：mvninstall:install-file-Dfile

hellozhxy·2020-07-15 23:24

SparkSQL 入门操作

1.前提启动hadoop,spark2.进入saprk-shellbin/spark-shell--masterspark://c1:7077--executor-memory2g3.SQL操作文本文件

JamesFen·2020-07-15 23:40

大数据Spark “蘑菇云”行动第50课程 Spark 2.0项目概述项目！！！大项目！！！超大型大数据项目！！！

大数据Spark“蘑菇云”行动第50课程Spark2.0项目概述从9月20号的大数据项目课程内容开始，所有的同学每节课必须按照课程内容动手实战，且基于课程内容写项目的学习博客；第一步：需求：数据的输入和数据的产出

段智华·2020-07-15 22:13

大数据Spark “蘑菇云”行动第48课程 Spark 2.0内幕深度解密和学习最佳实践

大数据Spark“蘑菇云”行动第48课程Spark2.0内幕深度解密和学习最佳实践观点1：从Spark2.0开始，Spark本身成为了编译器90%左右都是在基于Hive做SQL多维度数据分析，现在的主要的潮流是

段智华·2020-07-15 22:42

hive小操作·关于 spark2.4-读取hive3.1事务表

版本信息：spark2.4hive3.1.1异常情况：使用altertable*compact'major'后，spark仍无法读取hive事务表中数据具体流程如下1、建表语句createtablesugon_transaction

concealed0·2020-07-15 21:13

spark2 sql读取json文件的格式要求

问题导读1.spark2sql如何读取json文件？2.spark2读取json格式文件有什么要求？3.spark2是如何处理对于带有表名信息的json文件的?

about云·2020-07-15 21:37

使用Spark SQL构建交互式查询引擎

准备工作下载StreamingProREADME中有下载地址如果你使用了Spark2.0版

祝威廉·2020-07-15 20:34

【编译安装】Spark2.3.3-CDH

前置准备&软件安装spark2.3.3源码官方Apache下载地址：http://spark.apache.org/downloads.htmlwgethttps://archive.apache.org

木亦汐·2020-07-15 20:54

【PySpark】Spark 2.0系列SparkSession与Spark 2.0之前版本中的SQLContext和HiveContext的联系与区别

SparkSession的三种创建方式4.1SparkSession直接builder方式4.2SparkConf的builder方式4.3SparkContext方式1.Spark在2.0版本和之前版本的入口在Spark2.0

J小白Y·2020-07-15 17:08

spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决

spark2.2错误java.lang.UnsupportedOperationException:NoEncoderfoundfororg.apache.spark.sql.Row解决办1、错误描述：

aijiudu·2020-07-15 14:10

SparkStreaming与Kafka010之05 监控Spark程序获取Metrics信息 addStreamingListener或读取http信息解析json串

要获取Metrics信息，监控1.加监听：新的办法，直接一句话搞定ssc.addSparkStreamingListenerSparkStreaming、spark程序都能加监听只适合spark2.2.0

C_time·2020-07-15 13:50

2018年新春报喜！热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍清华大学出版社发行上市!...

weixin_30896825·2020-07-15 13:34

王家林大咖新书预发布：清华大学出版社即将出版《Spark大数据商业实战三部曲：内核解密|商业案例|性能调优》第二版及《企业级AI技术内幕讲解》

段智华·2020-07-15 13:09

2020年重磅喜讯！热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》畅销书籍第二版清华大学出版社发行上市!

本书以数据智能为灵魂，以Spark2.4.X版本为载体，以Spark+AI商业案例实战和生产环境下几乎所有类型的性能调优为核心，对企业生产环境下的Spark

段智华·2020-07-15 13:36

spark standalone work扩展

192.168.2.28master192.168.2.29node1192.168.2.30node21.创建spark用户[root@master~]#useraddspark[root@node1~]#useraddspark2

Jevic·2020-07-15 13:15

spark streaming程序因集群kafka版本不一致造成ZkUtils类无法更新offset解决方案

问题：因为CDH集群环境问题，我sparkstreaming程序的依赖就依照其版本来进行，但这就遇到一个问题，集群spark2支持的kafka版本是0.9.0，而我们程序操作zookeeper的ZkUtils

zeb_perfect·2020-07-15 12:56

【总结】PySpark的DataFrame处理方法：增删改差

基本操作：运行时获取spark版本号（以spark2.0.0为例）：sparksn=SparkSession.builder.appName("PythonSQL").getOrCreate()printsparksn.version

weimingyu945·2020-07-15 02:46

StructuredStreaming官方文档翻译

基于spark2.1的官方文档翻译而来Overviewstructuredstreaming是一种基于SparkSQL引擎构建的可扩展且容错的流处理引擎。

无尴尬不青春·2020-07-14 22:54

SparkStreaming 搭建《一》Win10可通用，供参考

编译环境：Spark2.3.1scala2.11.8jdk1.8hadoop2.6.5hive1.2.2kafka1.1.0Hbase1.4.5一、新建工程：File-scala-idea二、指定工程名称

sinat_32176267·2020-07-14 22:09

spark本地开发环境搭建（maven + scala + java）

开发工具和软件版本信息IDEA2019.2JAVA1.8Scala2.11.12Spark2.4.3Hadoop2.7.7WindowsWin10专业版64位Centos7.5部署Spark和Hadoop

克念·2020-07-14 22:01

Spark Shell入门教程

SparkShell2.使用SparkShell进行Scala编程0x02测试词频统计案例1.查看SparkShell的启动信息2.修改词频统计代码3.执行词频统计代码0x03Pyspark初体验1.启动与关闭Pyspark2

邵奈一·2020-07-14 22:24

sparkStreaming消费kafka时发生"java.lang.NoSuchMethodError: net.jpountz.util.Utils.checkRange"的解决办法

问题描述：开发环境为spark2.0+kafka0.8，spark-streaming-kafka-0-8-assembly_2.11.jarsparkStreaming消费kafka时遇到如下错误：18

sh0308·2020-07-14 22:08

推荐频道

spark2