Spark2 第10页

【Spark】Spark2.x版新特性

【Spark】Spark2.x版新特性一、API二、SQL三、性能四、SparkStreaming五、SparkMLlib六、Other一、API出现新的上下文接口：SparkSession，统一了SQLContext

太阳下的兰花草·2020-09-15 17:31

spark学习-SparkSQL-SparkSession与SparkContext

SparkSession-Spark的一个全新的切入点SparkSession是Spark2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习spark的各项功能。

九师兄·2020-09-15 17:37

Spark介绍（七）PySpark

Spark2.0之后的初始化，会在spark安装pyspark的模块，直接在spark/bin/启动pyspark是会报错的：原因是因为spark2.0默认安装的Python是3.6的，而“Spark<

kxiaozhuk·2020-09-15 17:50

spark笔记（1）——SparkContext 与JavaSparkContext互相转化

挪威马天雨·2020-09-15 17:57

SparkContext，SparkConf 和 SparkSession

SparkContext，SparkConf在Spark2.0之前，SparkContext是所有Spark功能的结构，驱动器（driver）通过SparkContext连接到集群（通过resourcemanager

大胖头leo·2020-09-15 16:30

【Spark】 SparkSession与SparkContext

文章开始先让我们看一张图：从图中我们可以大概看出SparkSession与SparkContext的关系了SparkSession是Spark2.0引如的新概念。

孙文旭·2020-09-15 16:32

SparkContext、SparkConf以及进化版的SparkSession

Spark2.0之前需要显式地创建SparkConf实例，并用Conf实例初始化SparkContext，再用SparkContext创建SQLContext。

詩和遠方·2020-09-15 16:38

Spark Streaming 接入 kafka 之 sasl配置

开发环境spark2.2.0scala2.11.8(目前为止，高版本的scala貌似对kafka的支持还有坑。。。)

xo19882011·2020-09-15 15:32

Spark2.x与ElasticSearch的完美结合

2019独角兽企业重金招聘Python工程师标准>>>ElasticSearch（简称ES）是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RestFulweb接口。ElasticSearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便的目地，当前在

weixin_33676492·2020-09-15 15:00

Kafka的两种连接方式

Kakfa的版本0.8.0Receiver模式（接收者模式）Driect模式(直连模式)0.10.0Driect模式(直连模式)spark2.3之后（包括2.3）已经把0.8.0版本低Kadka淘汰了連接模式第一種

struggle@徐磊·2020-09-15 14:43

spark 导入文件到hive出现多小文件的问题

环境：ambari:2.6.1spark2.1python3.6oracle11.2sqoop1.4将sqoop采集到HDFS中的文件导入到HIVE数据库，导入成功后，发现hive数据库中出现多个小文件的问题

shdqiu·2020-09-15 14:23

windows下python3.6+pycharm+spark2.3+jdk1.8+hadoop2.7环境搭建

最近要做日志分析所以想搭建spark环境但是又觉得双系统有点麻烦而且文件量不大所以就用了windows系统。在网上看了很多博客有篇博客介绍说spark不支持python3.6但是我发现搭建以后测试程序也成功运行了所以写出来跟大家分享一下。把错误写在前头：我一开始用的jdk1.7，在控制台输入pyspark的时候一直报版本不匹配的错误，后来我换成了jdk1.8就好了。下载jdk1.8的时候，官网上一

口天吴1114·2020-09-15 11:09

安装Spark 客户端提示"the install4j wizard could not find a java(TM) Runntime......“

解决问题思路：Spark2.7是一款32位的软件，但我自身的电脑系统版本是windows7家庭版64位，JDK也是安装的64位。

在奋斗的大道·2020-09-15 06:43

Spark2.3.2源码解析： 4.1.Yarn cluster 模式 SparkSubmit源码分析（一）

因为所有的任务提交代表都是从SparkSubmit开始，所以先从开始看源码，但是这个估计会有点复杂，先通读一下。准备工作：启动脚本--namespark-test--classWordCount--masteryarn--deploy-modecluster/A/spark-test/spark-test.jar/tmp/zl/data/data.txt执行jar包spark-test.jar代码

张伯毅·2020-09-15 03:06

spark on yarn模式安装和配置carbondata

carbondata1.5.1的编译可以看上一篇版本:spark2.3.1,carbondata1.5.1前置条件HadoopHDFS和Yarn需要安装和运行。

JasonLee'blog·2020-09-15 03:10

Spark 通讯架构详解

Spark通信架构概述Spark2.x版本使用Netty通讯框架作为内部通讯组件。

大数据小同学·2020-09-15 03:07

[hadoop]简单的MapReduce项目，计算文件中单词出现的次数（五）

计算文件中单词出现的次数，试题如下图1、创建读取单词的文件tast，内容如下：hadoopcoremapreducehivhbaseHbasepighadoopmapreduceMapReduceHadoopHbasespark2

alex_bean·2020-09-15 02:58

Spark 2.x永久自定义函数编写

以前写过一篇spark1.6.x编写永久的自定义函数，今天补上写spark2.x永久自定义函数的步骤：1、使用scala语言编写自定义函数，spark2.x已经不在支持使用hive的方式加载函数Scala

wuzhilon88·2020-09-15 02:21

ubuntu下安装scala的步骤

spark的版本，所以这里我选择下载scala2.10.5，这里可以选择下载多个版本，想切换时应该在环境变量配置时修改一下就可以了spark和scala版本对应关系:spark1.6.2--scala2.10spark2.0.0

一坨大象·2020-09-14 23:11

Spark 2.4.0编程指南--Spark SQL UDF和UDAF

Spark2.4.0编程指南–SparkSQLUDF和UDAF更多资源github:https://github.com/opensourceteams/spark-scala-maven-2.4.0视频

thinktothings·2020-09-14 20:18

Spark2.x 如何实现自定义排序（利用元组，类--隐式转换Ordering,Ordered等实现）

gssgch·2020-09-14 19:14

使用idea sbt运行spark程序

scala-sbt项目（参考http://blog.sina.com.cn/s/blog_5742944d0102vfwo.html）2.待sbt及相关依赖下载完成后，配置spark依赖spark2.0.0

ronaldo4511·2020-09-14 15:06

spark2

1停掉集群运行/opt/cm-5.13.0/etc/init.d/cloudera-scm-serverstop/opt/cm-5.13.0/etc/init.d/cloudera-scm-agentstop2上传jar依赖，修改相应的用户组[root@master01csd]#pwd/opt/cloudera/csd[root@master01csd]#lltotal20-rw-r--r--1r

浮生若梦1379·2020-09-14 11:07

CDH5.13离线并行安装Spark2.3

2019独角兽企业重金招聘Python工程师标准>>>简介：在我的CDH5.13集群中，默认安装的spark是1.6版本，这里需要将其升级为spark2.x版本。

weixin_33979363·2020-09-14 11:09

Pyspark访问Hbase

作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/7347167.html转载请注明出处记录自己最近抽空折腾虚拟机环境时用spark2.0的pyspark访问Hbase1.2

weixin_30670151·2020-09-14 11:13

cdh5.13.1 升/降级SPARK2 （parcel安装的同理）

weixin_30340819·2020-09-14 11:28

[CDH] CDH5.13.1集成 Apache Spark2.3.4（CDS 2.3.4）

背景：已有CDH5.13.1，集成CDS2.3.4(ApacheSpark2.3.4）。

cindysz110·2020-09-14 11:54

大数据平台搭建（hadoop+spark）

scalaspark-slave01172.16.200.82jdk、hadoop、sparkspark-slave02172.16.200.83jdk、hadoop、sparkspark-slave03172.16.200.84jdk、hadoop、spark2

redhorse_plus·2020-09-14 11:50

CDH5.13.3部署并升级Spark2.x

御剑江湖载酒行·2020-09-14 11:42

通过Spark访问Hbase的Hive外部表（hive on hbase的表）

1.拷贝如下jar包到${spark_home}/jars（spark2.0之前是${spark_home}/lib）:hbase-protocol-1.2

levy_cui·2020-09-14 10:22

CDH 5.13.0安装Spark 2.2

1.将CDH环境安装好2.在CDH的主节点和备节点创建目录[root@yp-test-3/]#mkdir/opt/cloudera/csd/3.下载Spark2.2软件包下载csd地址：http://archive.cloudera.com

cny0120·2020-09-14 10:40

【CDH CM版本5.13以下】解决「通过Parcel对spark2版本升级无法发现服务」问题

【CDHCM版本5.13以下】解决「通过Parcel对spark2版本升级无法发现服务」问题前言现象报错报错原因新升级方案操作留档准备版本升级升级验证版本回退回退验证后记前言公司对于CDH5.10(注意这个版本

Jack_Roy·2020-09-14 09:08

【spark2】“spark2 on yarn client提交模式下报错：XXXX line xx: xxxx 已杀死 ”问题剖析

【spark2】ai-bigdata-20200806.sh：行24：10259已杀死spark2-submit……前言描述观点内容问题发现内存原因OOM机制解决方案后记前言报错内容：ai-bigdata

Jack_Roy·2020-09-14 09:08

CDH集成spark2组件

文章目录CDH集成spark2组件下载相关文件上传文件（主节点）重启CM和集群添加服务配置设置CDH集成spark2组件参考网站：https://www.jianshu.com/p/6acd6419f697

麻雀加·2020-09-14 09:14

windows 安装配置 hadoop2.7.2 spark2.2.3 初学入门

Hadoop1.下载安装包，不赘述了。我解压路径为：E:\soft\hadoop-2.7.22.修改etc文件夹下的文件：core-site.xml：fs.defaultFShdfs://localhost:9000hadoop.tmp.dir/E:/soft/hadoop-2.7.2/workplace/tmphadoop-env.cmd：setJAVA_HOME=C:\PROGRA~1\Jav

csdn_dengfan·2020-09-14 06:03

windows 10 安装 spark 环境（spark 2.2.1 + hadoop2.7）

不过在安装新版本spark2.2.1（基于hadoop2.7）的配置时，略略有一些不同。

Inside_Zhang·2020-09-14 05:23

Spark学习—— (5) RDD基础编程（基于Python）

虽然Spark2.x中建议使用效率更高的DataSet代替RDD，但还是有必要学习一下RDD的相关知识。本文第一部分简单介绍RDD的一些基本概念，第二部分则介绍RDD的常用操作并给出例子。

茵茵的聪聪·2020-09-14 02:10

深入理解Spark 2.1 Core （二）：DAG调度器的原理与源码分析

上一篇《深入理解Spark2.0（一）：RDD实现及源码分析》的5.2Spark任务调度器我们省略过去了，这篇我们就来讲讲Spark的调度器。

卓寿杰_SoulJoy·2020-09-14 01:59

Spark的有向无环图DAG(代码及图解)

Tiger-Li·2020-09-14 01:39

Spark：java api读取hdfs目录下多个文件

于是把一个大文件拆分为多个小文件后上传到hdfs，然而在spark2.2下如何加载某个目录下多个文件呢?

weixin_34361881·2020-09-14 01:46

spark2.4 on yarn安装

SparkisbuiltwithScala2.11bydefault.Scala2.10usersshoulddownloadtheSparksourcepackageandbuildwithScala2.10support.也就是说spark2.0

lbship·2020-09-14 00:50

java.lang.NoSuchMethodError: breeze.linalg.DenseVector$.canSetD()

背景：跑时间序列模型报错环境：scala2.11+spark2.0报错：java.lang.NoSuchMethodError:breeze.linalg.DenseVector$.canSetD().

南宫木java·2020-09-14 00:32

基于 Apache Pulsar 和 Apache Spark 进行批流一体的弹性数据处理

2017年7月，Spark2.2.0版本正式推出的Sparkstructuredstreami

Apache Pulsar·2020-09-13 23:30

Cloudera Manager进行CDH生产环境集群配置及相关功能示例

目录主页主机角色Parcel配置-非默认值动态资源池静态服务池HDFSHiveImpalaKafkaSpark2YARNZooKeeperClouderaManagerService主页主机

ddttoop·2020-09-13 18:02

【pyspark】一 spark dataframe 读写parquet、json、csv等文件

pyspark读写文件环境：zeppelin中的notebook提交的代码，python2.7,spark2.3.1pyspark读jsondataframe=spark.read.format("json

百物易用是苏生·2020-09-13 06:48

并发编程模型AKKA

因为AKKA不同版本通讯不了，用户使用AKKA和spark中AKKA冲突，spark放弃维护AKKA等原因，在spark2.x后全更改成netty写的了

水墨风漾·2020-09-13 04:45

天池比赛-资金流入流出预测-挑战Baseline--第一次乱来的预测过程

需要的工具库：1.pyspark2.pandas提示：本文下的代码都是基于pyspark的ml库思路：因为实在是不知道怎么预测，所以索性将每日近3万用户的申购总量和赎回总量累加起来，得到每天总的申购和赎回总量

希明人·2020-09-12 21:20

java中RunTime类的用途

最近公司准备使用spark做流式计算，把原来做过的东西拿出来整理一下，有以下内容1、通过java调用shell脚本启动spark2、在虚拟机退出时执行特定的方法即注册一个回调函数对于Runtime类的测试

lyzx_in_csdn·2020-09-12 16:47

[Spark2.0]Spark SQL, DataFrames 和Datasets指南

综述SparkSQL是Spark提供的针对结构化数据处理的模块。不同于基本的SparkRDDAPI，SparkSQL提供的接口提供了更多的关于数据和计算执行的信息。在内部，SparkSQL使用这些额外信息完成额外的优化。这里有几种方式可以和SparkSQL相互操作，包括SQL和DatasetAPI。计算结果的时候使用相同的执行本页中所有示例使用到的样例的数据都包含在Spark发布中，而且都能在sp

yhao浩·2020-09-12 09:51

Spark 中通讯架构

4、Spark2系列中，不再使用Akka，使用Netty。二、Spark通讯架构解析架构图为：1

火成哥哥·2020-09-12 08:33

推荐频道

Spark2