spark2 第25页

如何使用Hue上创建一个完整Oozie工作流

集群中经常会有一些特定顺序的作业需要在集群中运行，对于需要多个作业顺序执行的情况下，如何能够方便的构建一个完整的工作流在CDH集群中执行，前面Fayson也讲过关于Hue创建工作流的一系列文章具体可以参考《如何使用Hue创建Spark1和Spark2

zkf541076398·2020-06-21 15:24

kylin 2.3.0部署和遇到问题整理

一、部署kylin环境1.部署的环境准备Kylin2.3.0默认支持spark2.1版本，对版本的spark2.2兼容存在问题。

wuzhilon88·2020-06-21 14:23

新闻实时分析系统 Spark2.X分布式弹性数据集

1.三大弹性数据集介绍1）概念2）优缺点对比2.SparkRDD概述与创建方式1）概述在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（resilientdistributeddataset，RDD），它是逻辑集中的实体，在集群中的多台机器上进行了数据分区。RDD是Spark的核心数据结构，通过RDD的依赖关系形成Spark的调度顺序。通过对RDD的操作形成整个Spark程序。2）创

weixin_30730151·2020-06-21 10:12

新闻实时分析系统 Spark2.X集群运行模式

1.几种运行模式介绍Spark几种运行模式：1）Local2）Standalone3）Yarn4）Mesos下载IDEA并安装，可以百度一下免费文档。2.sparkStandalone模式配置并测试1）jdk1.8已经安装2）scala2.11.8已经安装3）Hadoop2.5.0已经安装4）安装SparkStandalonea）配置slavevislavesbigdata-pro01.kfk.c

weixin_30730151·2020-06-21 10:41

在VM虚拟机上搭建Hadoop2.7.3+Spark2.1.0完全分布式集群

1.选取三台服务器（CentOS系统64位）114.55.246.88主节点114.55.246.77从节点114.55.246.93从节点之后的操作如果是用普通用户操作的话也必须知道root用户的密码，因为有些操作是得用root用户操作。如果是用root用户操作的话就不存在以上问题。我是用root用户操作的。2.修改hosts文件修改三台服务器的hosts文件。vi/etc/hosts在原文件的

windflyhuang·2020-06-21 08:52

第四步：HADOOP-SPARK2

scala$wgethttps://downloads.lightbend.com/scala/2.12.11/scala-2.12.11.tgz$tar-zxvfscala-2.12.11.tgz-C/usr/local$suhadoop$cd$vim~/.bashrc#scalaexportSCALA_HOME=/usr/local/scala-2.12.11exportPATH=$PATH:

发热安啃·2020-06-21 03:44

Spark SQL读取MySQL数据写入Kudu

（1）pom文件中加入SparkKudu相关依赖org.apache.kudukudu-spark2_2.111.7.0（2）编写代码objectSparkKuduApp{defmain(args:Array

温文尔雅的流氓·2020-06-21 01:36

Apache Kylin的安装和使用

1.5维度和度量1.6事实表和维表2部署2.1软件要求2.2硬件要求2.3下载并解压2.4环境变量和Spark2.5检查运行环境2.6配置Kylin参数2.7启动和停止Kylin2.8报错问题解决2.9

YoreYuan·2020-06-21 01:45

Apache kylin 安装配置

开发环境Ubuntu18.04Hadoop2.7.7Hbase1.3.3Hive1.2.2MySQL5.7.26Spark2.4.0Kylin2.6.1安装准备1.安装hadoop2.安装hbase见博客

eioway·2020-06-21 01:44

Hive报错笔记-ls: 无法访问/opt/SoftWare/Spark/spark/lib/spark-assembly-*.jar: 没有那个文件或目录

没有那个文件或目录[root@hadoopbin]#hivels:无法访问/opt/SoftWare/Spark/spark/lib/spark-assembly-*.jar:没有那个文件或目录原因：spark升级到spark2

阿倩啊·2020-06-20 23:47

spark-2.1.0-bin-2.6.0-cdh5.x源码编译

前置条件:CentOS6.7JDK1.7+Maven3.3.9Spark2.1.01.到spark官网上下载spark2.1.0的源码spark-download.png2.执行mkdirsource新建目录

sparkle123·2020-06-20 22:51

Apache CarbonData 2.0 开发实用系列之一：与Spark SQL集成使用

CarbonDatajar包链接：https://github.com/QiangCai/carbonjars/blob/master/master/apache-carbondata-2.1.0-SNAPSHOT-bin-spark2.4.5

华为云·2020-06-20 20:05

Spark大数据分布式机器学习处理实战 | 博文精选

本文的参考配置为：Deepin15.11、Java1.8.0_241、Hadoop2.10.0、Spark2.4.4、scala2.11.12基本统计1.相关性计算两列数据之间的相关性是

CSDN云计算·2020-06-20 20:22

Linkis安装

都支持)，如何安装PythonHadoop(社区版和CDH3.0以下版本都支持)Hive(1.2.1，2.0和2.0以上版本，可能存在兼容性问题)Spark(Linkisrelease0.7.0开始，支持Spark2.0

lccjhs·2020-06-19 16:47

Spark文档阅读之二：Programming Guides - Quick Start

QuickStart:https://spark.apache.org/docs/latest/quick-start.html在Spark2.0之前，Spark的编程接口为RDD(ResilientDistributedDataset

沙木鱼·2020-06-15 19:00

调优 | Apache Hudi应用调优指南

输入并行性：Hudi对输入进行分区默认并发度为1500，以确保每个Spark分区都在2GB的限制内（在Spark2.4.0版本之后去除了该限制），如果有更大的输入，则相应地进行调整。

leesf·2020-06-06 15:00

调优 | Apache Hudi应用调优指南

输入并行性：Hudi对输入进行分区默认并发度为1500，以确保每个Spark分区都在2GB的限制内（在Spark2.4.0版本之后去除了该限制），如果有更大的输入，则相应地进行调整。

leesf·2020-06-06 15:00

Spark_SparkSQL 中定义 UDTF

Basespark2.2.0BaseHive2.1.1历史方案Spark1.*Hive2.1.1目前Spark内部不直接支持udtf,在比较久远的版本spark1.

高达一号·2020-05-31 16:52

Spark源码学习--内置RPC框架(1)

但是Akka在Spark2.0.0版本中被移除了，Spark官网文档对此的描述为：“Akka的依赖被

小明的数据脚印·2020-05-28 00:49

Spark源码阅读环境搭建（基于idea+maven）

前置准备1.安装jdk1.82.安装idea3.安装maven,编译spark对maven版本有要求，spark2.4.5需要maven3.5.4以上，建议安装最新版本的maven在环境变量path中配置

bugDesigner·2020-05-28 00:34

Spark 权威指南——Spark 是什么？（qbit）

TheDefinitiveGuide》Bill Chambers/Matei Zaharia著2018年2月第一版#中文译著《Spark权威指南》张岩峰/王方京/陈晶晶译2020年4月第一版《Spark权威指南》大部分内容使用Spark2.2

qbit·2020-05-27 23:42

Spark2.4报value foreach is not a memeber of Object错

一.原因分析根据是使用java集合还是scala数据集原因也不尽相同。1.java集合因为Java集合类型在Scala操作时没有foreach方法。2.scala数据集一般为scala版本与spark版本不兼容导致！二.解决方案1.java集合需要将其转换为Scala的集合类型,因此需要在代码中加入如下内容(Scala支持与Java的隐式转换)：importscala.collection.Jav

云山之巅·2020-05-18 18:00

Spark 2.x 机器学习实战（算法篇：基于Kaggle竞赛数据集，六大算法模型构建）

Spark2.x机器学习实战（算法篇：基于Kaggle竞赛数据集，六大算法模型构建）百度网盘下载地址：https://pan.baidu.com/s/1x8_h9D7SBQh_htpw7BkQVA提取码

相爱1生·2020-05-04 15:51

linkis重编译适配cdh

1、系统环境：redhat7、cdh5.15.1、spark2.3.0、开启了sentry、没有开启kerberos2、获取源码在linkis的github上有一个linkis-cdh5.6的分支https

bioamin·2020-04-30 17:00

CDH| Spark升级

升级之Spark升级在CDH5.12.1集群中，默认安装的Spark是1.6版本，这里需要将其升级为Spark2.1版本。

kris12·2020-04-22 11:00

Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述

以Spark2.4.3为例，SparkSQL这个大模块分为三个子模块，如下图所示其中Catalyst可以说是Spark内部专门用来解析SQL的一个框架，在Hive中类似的框架是Calcite（将SQL解析成

zzzzMing·2020-04-21 20:00

spark内存溢出及其解决方案

spark2.x的内存模型oom通常出现在execution内存中，因为storage这块内存在放满之后，会直接丢弃内存中旧的数据，对性能有点影响但不会导致oom。

becooner·2020-04-16 10:39

《SparkSql使用教程》--- 大数据系列

SparkSession：Spark2.0中引入了SparkSession的概念，它为用户提供了一个统一的切入点来使用Spark的各项功能，用户不但可

xbmchina·2020-04-12 12:17

##Spark 2.0技术预览：更容易、更快速、更智能

Spark2.0技术预览：更容易、更快速、更智能http://mp.weixin.qq.com/s?

葡萄喃喃呓语·2020-04-11 13:02

PySpark_Streaming+DBUtils+MySQL

DesignPatternsforusingforeachRDDdstream.foreachRDDisapowerfulprimitivethatallowsdatatobesentouttoexternalsystems.However,itisimportanttounderstandhowtousethisprimitivecorrectlyandefficiently.spark2.3

一ke大白菜·2020-04-11 11:03

spark2.x依赖包POM

4.0.0com.jbsxtspark-project0.0.1-SNAPSHOTjarspark-projecthttp://maven.apache.orgUTF-8junitjunit3.8.1testorg.apache.sparkspark-core_2.101.5.1org.apache.sparkspark-sql_2.101.5.1org.apache.sparkspark-hiv

Albert陈凯·2020-04-10 03:46

每日一读 11.21

spark2.2以后版本任务调度将增加黑名单机制http://www.aboutyun.com/thread-23346-1-1.html––1.spark如何开启黑名单机制？

Vicor·2020-04-09 09:46

【Spark】Catalog

基于版本：Spark2.2.0把一些概念搞清楚，Spark轮廓就清晰了。什么是Catalog，中文翻译目录，那啥叫目录呢？

PowerMe·2020-04-09 09:17

spark2.0的sparkContext初始化过程

1,driver启动以后会先构建SparkContext，基于常用的standealone创建taskscheduler2，TaskSchedulerImpl*底层通过操作一个schedulerBackend，针对不同种类的cluster(standalone,yarn,mesos)，调度task*他也可以使用一个localBackend,并将isLocal参数设为true,来在本地模式下工作*它

scottzcw·2020-04-08 21:51

Spark数据传输

本文基于spark2.111.前言在sparkshufflewrite和read一文中3.1.1节创建ShuffleBlockFetchIterator来从上游所有partition从fetch数据，回顾一下调用

aaron1993·2020-04-07 05:05

Apache Spark连接MongoDB

image.png1.前提安装并运行MongodbSpark2.1Scala2.112.安装MongoDB（通过yum安装）MongoDB安装教程2.1配置yum源vim/etc/yum.repos.d

Michaelhbjian·2020-04-06 23:58

Spark 内存相关（qbit）

前言本文对spark2.1.x适用executor内存模型堆内内存与堆外内存堆内内存堆外内存动态资源分配基本参数设置#配置externalshuffleservice服务（一定要配置启用）spark.shuffle.service.enabled

qbit·2020-04-06 19:07

如何在华为平台使用自己的spark

场景我们私有云团队在给客户部署系统时遇到困难，客户要求在他们购买的华为大数据平台上部署我们的产品，我们底层主要用到了spark、hdfs、和hive，hdfs和hive可以用华为的，但spark不能用华为的，华为目前只有spark1.5和spark2.10

frb502·2020-04-02 17:54

大数据学习技术指南

一、大数据通用处理平台1、Spark2、Flink3、Hadoop二、流式计算1、Storm/JStorm2、SparkStreaming3、Flink三、分布式存储1、HDFS四、资源调度1、Yarn2

lmem·2020-04-02 15:05

用线性回归无编码实现文章浏览数预测

这篇文章的示例将会跑在Spark2.0上了。为了方便大家体验，我已经将Spark安装包，StreamignPro,以及分词包都准备好，大家下载即可。准备工作下载Spark

祝威廉·2020-03-31 20:24

Spark Sql 源码剖析（一）：sql 执行的主要流程

本文基于Spark2.1，其他版本实现可能会有所不同之前写过不少SparkCore、SparkStreaming相关的文章，但使用更广泛的SparkSql倒是极少，恰好最近工作中使用到了，便开始研读相关的源码以及写相应的文章

牛肉圆粉不加葱·2020-03-31 20:06

spark2.0 配置ipython,本地访问远程spark

1、vi~/.bashrcexportPYSPARK_DRIVER_PYTHON=ipythonexportPYSPARK_DRIVER_PYTHON_OPTS="notebook"source~/.bashrc2、vipyspark把python改成ipython3、jupyternotebook--generate-configvi/data1/user/zhanghd/.jupyter/ju

思索人生_mind·2020-03-31 06:41

Structured Streaming 介绍(一)

基本介绍和编程模型Spark2.2.0在7月12号发布，这个版本的StructuredStreaming抛掉了试验的标签，可以正式在生产环境使用。

Cherish_Qiang·2020-03-31 03:23

Spark2.0，重要更新与改进

01引言就在前天（2016.07.26号），Spark2.0正式版本发布了。来看看当今最世上最强大的全栈数据处理框架吧！作为数据科学人员，如果一生只能学一个框架，那就先Spark！

i败火·2020-03-31 03:27

15分钟学会SparkSQL通过JDBC连接外部数据库（PostgreSQL为例）

本文基于Spark2.1.0版本1，先简单介绍一下通过SparkSQLJDBC连接数据库的好处，不过这不是本文的重点。

俺是亮哥·2020-03-30 18:24

Spark Streaming使用Receiver机制消费Kafka时，任务并发度如何设置？

（本文基于Spark2.1.1、Kafka0.10.2、Scala2.11.8、Zookeeper3.4.9、Kafka-manager-1.3.0.7）利用Receiver机制接收数据，需要加载spark-streaming-kafka

俺是亮哥·2020-03-29 16:10

Spark OFF_HEAP

在文章的开头，安利一下我自己的github上的一个项目：AlluxioBlockManager，同时还有我的github上的博客：blog这个项目的作用是替代Spark2.0以前默认的TachyonBlockManager

AlbertCheng·2020-03-29 07:45

cdh部署spark2

不是完spark2不能启动分配、激活parcelimage.png磁盘太小sudofdisk-lDisk/dev/nvme1n1:100GiB,107374182400bytes,209715200sectorsUnits

xuefly·2020-03-29 01:51

1.Why Apache Spark?

1WhyApacheSpark2关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9SparkStreaming

全能程序猿·2020-03-28 22:42

Spark Task 的执行流程④ - task 结果的处理

本文为Spark2.0源码分析笔记，其他版本可能稍有不同SparkTask的执行流程③-执行task一文中介绍了task是如何执行并返回task执行结果的，本文将进一步介绍task的结果是怎么处理的。

牛肉圆粉不加葱·2020-03-27 23:23

推荐频道

spark2

如何使用Hue上创建一个完整Oozie工作流

kylin 2.3.0部署和遇到问题整理

新闻实时分析系统 Spark2.X分布式弹性数据集

新闻实时分析系统 Spark2.X集群运行模式

在VM虚拟机上搭建Hadoop2.7.3+Spark2.1.0完全分布式集群

第四步：HADOOP-SPARK2

Spark SQL读取MySQL数据写入Kudu

Apache Kylin的安装和使用

Apache kylin 安装配置

Hive报错笔记-ls: 无法访问/opt/SoftWare/Spark/spark/lib/spark-assembly-*.jar: 没有那个文件或目录

spark-2.1.0-bin-2.6.0-cdh5.x源码编译

Apache CarbonData 2.0 开发实用系列之一：与Spark SQL集成使用

Spark大数据分布式机器学习处理实战 | 博文精选

Linkis安装

Spark文档阅读之二：Programming Guides - Quick Start

调优 | Apache Hudi应用调优指南

调优 | Apache Hudi应用调优指南

Spark_SparkSQL 中定义 UDTF

Spark源码学习--内置RPC框架(1)

Spark源码阅读环境搭建（基于idea+maven）

Spark 权威指南——Spark 是什么？（qbit）

Spark2.4报value foreach is not a memeber of Object错

Spark 2.x 机器学习实战（算法篇：基于Kaggle竞赛数据集，六大算法模型构建）

linkis重编译适配cdh

CDH| Spark升级

Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述

spark内存溢出及其解决方案

《SparkSql使用教程》--- 大数据系列

##Spark 2.0技术预览：更容易、更快速、更智能

PySpark_Streaming+DBUtils+MySQL

spark2.x依赖包POM

每日一读 11.21

【Spark】Catalog

spark2.0的sparkContext初始化过程

Spark数据传输

Apache Spark连接MongoDB

Spark 内存相关（qbit）

如何在华为平台使用自己的spark

大数据学习技术指南

用线性回归无编码实现文章浏览数预测

Spark Sql 源码剖析（一）：sql 执行的主要流程

spark2.0 配置ipython,本地访问远程spark

Structured Streaming 介绍(一)

Spark2.0，重要更新与改进

15分钟学会SparkSQL通过JDBC连接外部数据库（PostgreSQL为例）

Spark Streaming使用Receiver机制消费Kafka时，任务并发度如何设置？

Spark OFF_HEAP

cdh部署spark2

1.Why Apache Spark?

Spark Task 的执行流程④ - task 结果的处理