spark2 第8页

Spark 2.0 Structured Streaming 分析

前言Spark2.0将流式计算也统一到DataFrame里去了，提出了StructuredStreaming的概念，将数据源映射为一张无线长度的表，同时将流式计算的结果映射为另外一张表，完全以结构化的方式去操作流式数据

祝威廉·2021-06-08 14:05

Apache hive 3.1.2从单机到高可用部署 HiveServer2高可用 Metastore高可用 hive on spark hiveserver2 web UI 高可用集群启动脚本

后面配置hiveonspark可以使用spark2.3.0。而spark2.3.0对应的hadoop版本是2.x。重新编译，参考本人写的另一篇文章hive3.1.4

薛定谔的猫不吃猫粮·2021-05-21 16:59

pycharm利用pyspark远程连接spark集群的实现

1方法1.1软件配置spark2.3.3,hadoop2.6,python31.2spark配置Spark集群的每个节点的Python版本必须保持一致。在每个节点的$S

·2021-05-17 17:26

Ubuntu18.04 + docker + hadoop + spark 搭建分布式集群

物料说明宿主机ubuntu18.04dockerjdk1.8.0_211hadoop3.2spark2.4.3约定操作的路径为/home/bigdata/step0安装docker容器#删除可能有的旧版本

等流心0316·2021-05-15 01:00

Spark2.0与HDP2.4集成

很多感兴趣的朋友想要在HDP2.4的环境上尝鲜Spark2.0，笔者自己也尝试着在HDP2.4的环境下运行了spark2.0onYARN模式。将一些配置整理如下，感兴趣的朋友可以作为参考。

biggeng·2021-05-10 23:18

CDH5.12.0 安装Spark2及Gateway显示的状态为“不适用”问题

https://www.cloudera.com/documentation/spark2/latest/topics/spark2_installing.html1.首先下载想安装的CustomServiceDescriptor

白面葫芦娃92·2021-05-09 18:02

spark实时处理hdfs流数据

spark-SQL：python如图：Paste_Image.png问题总结1、spark-streaming流处理2、sbt打包3、hdfs小文件（20150701_记，后续补充）后续1、flume、kafka结合spark2

gk4030·2021-05-09 13:15

Spark的那些事（一）

Spark生态：1111.png支持SparkSql用于sql和结构化数据查询处理；支持MLlib用于机器学习；支持GraphX用于图形处理；支持SparkStreaming和StructuredSql(spark2.1.1

假文艺的真码农·2021-05-09 06:46

Spark Hive

配置在hive-site.xml中的参数hive.metastore.warehouse.dir自版本spark2.0.0起废弃了。

金刚_30bf·2021-05-07 15:07

Spark Streaming如何消费Kafka的大消息(30M-40MB)

本文基于Spark2.1.0版本虽然很少有生产环境用Kafka传递超过1M消息的场景（因为高吞吐、低延时的要求，Kafka发布-订阅模型中Producer-Broker-Consumer3方的相关默认配置都是

俺是亮哥·2021-05-07 14:29

phoenix for cloudera

软件版本:spark2.0.2cdh5.9phoenix4.9(phoenix-spark模块使用4.11)下载CDH版本的phoenix，最新版本目前只有phoenix4.9，不过在4.10开始才可以使用

breeze_lsw·2021-05-06 21:06

win10系统Pycharm配置spark环境

首先下载spark,可以去官网去下，我这里是spark2.2.0版本。然后解压到相应文件夹下2.复制-粘贴。将

在朝阳寺树下·2021-05-04 05:58

StreamingPro 再次支持 Structured Streaming

前言之前已经写过一篇文章，StreamingPro支持SparkStructuredStreaming，不过当时只是玩票性质的，因为对Spark2.0+版本其实也只是尝试性质的,重点还是放在了spark1.6

祝威廉·2021-05-02 10:14

Spark2.x---6. Spark Yarn Client模式解析

最近在定位Yarn的crash问题时，顺便把spark怎么使用yarn的好好的梳理了一遍。不过我先了解一下Yarn和怎么提交yarn的job的。首先我们先看看Yarn的架构：图1Yarn分布式架构ResourceManagera)一个纯粹的调度器b)根据应用程序的资源请求严格限制系统的可用资源c)在保证容量、公平性及服务等级的情况下，优化集群资源利用率，让所有资源都得到充分的利用d)由可插拔的调度

shuitai·2021-05-01 06:57

StreamingPro 支持Spark Structured Streaming

前言StructuredStreaming的文章参考这里：Spark2.0StructuredStreaming分析。

祝威廉·2021-04-30 04:14

使用spark-shell访问hive里面的数据

在spark2.0.2这个版本中，正常启动，然后执行如下命令，会报错。

扣篮的左手·2021-04-28 21:02

大数据常见面试题非常棒

一、当前集群环境CDH6.3.3hadoop3.0.0hbase2.1.0hive2.1.1impala3.2.0spark2.4.0kafka2.2.1scala2.11.12二、hadoop1.Hdfs

小猿笔记·2021-04-25 10:15

大数据常见面试题（一）

一、当前集群环境CDH6.3.3hadoop3.0.0hbase2.1.0hive2.1.1impala3.2.0spark2.4.0kafka2.2.1scala2.11.12二、hadoop1.Hdfs

纯净天空7·2021-04-21 23:38

2021年大数据Spark（三十四）：Spark Streaming概述

SparkStreaming在很多实时数据处理的场景中，都需要用到流式处理（StreamProcess）框架，Spark也包含了两个完整的流式处理框架SparkStreaming和StructuredStreaming（Spark2.0

Lansonli·2021-04-21 19:39

Spark2.x机器学习视频教程

Spark2.x机器学习视频教程课程学习址：http://www.xuetuwuyou.com/course/311课程出自学途无忧网：http://www.xuetuwuyou.com本课程讲解Spark

菜花小噗噗·2021-04-21 07:00

Spark2.x 机器学习视频教程

Spark2.x机器学习视频教程讲师：轩宇老师课程观看地址：http://www.xuetuwuyou.com/course/311课程出自学途无忧网：http://www.xuetuwuyou.com

菜花小噗噗·2021-04-20 22:12

解决集群org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://hadoop1:7077问题

问题出现：出现该问题的原因在于其他集群的profile并没有设置好：exportJAVA_HOME=/usr/java/defaultexportSPARK_HOME=/usr/local/spark2.4.7exportPATH

master_hunter·2021-04-18 22:09

HDP 2.6 上配置 Oozie 同时支持 Spark 1.6 和 2.1 两个版本

需求历史任务基于Spark1.新任务计划转移到Spark2.需要Oozie同时支持两个版本.步骤1配置sharelib参照Hortonworks文档创建spark2sharelib:hdfsdfs-mkdir

紫菜包饭哟嘻·2021-04-14 04:25

Spark内存管理机制

本文中阐述的原理基于Spark2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。在执行

·2021-04-12 21:52

spark内核解析和调优指南

本文中阐述的原理基于Spark2.X版本。

HUC-暖阳·2021-04-12 17:05

Spark内存管理机制

本文中阐述的原理基于Spark2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。在执行

·2021-04-09 21:03

Spark学习之路（二）Spark2.3 HA集群的分布式安装

王知无-大数据技术与架构·2021-02-12 20:36

Spring boot结合Kafka的Demo

.54tianzhisheng.cn/...Spark安装：厦大数据库实验室Spark安装Scala安装：厦大数据库实验室Scala安装相应软件的安装环境：jdk1.8.0_161scala2.12.12spark2.4.7maven

·2021-02-08 20:34

大数据日志监控平台

技术选型：前端：vue、element-UI、nginx-1.15后端：Java8、SpringBoot、JPA、Mybatis、Redis、MySql大数据：Spark2.4.5、kafka_2.13

魑魅魍魉_5a55·2021-02-04 13:37

Spark 3.0 已来，是时候 on kubernetes 了

从Spark2.4版本开始，Spark实验性支持Kubernetes作为资源管理器。

·2021-01-24 22:12

Spark 3.0 已来，是时候 on kubernetes 了

从Spark2.4版本开始，Spark实验性支持Kubernetes作为资源管理器。

·2021-01-24 22:26

Hive SQL的数仓迁移成Spark SQL，之前的UDF函数怎么办?

环境：spark2.11，hive2.3.6，hadoop2.7.2解决方案首先，hive的元数据一般生产我们都会存在mysql当时，所以设想：sparkonhive也是使用hive的元数

俩只猴·2021-01-24 14:38

spring boot整合spark，集群模式或local模式运行，http请求调用spark API，启动job任务配置、优化spark配置等

文章目录一、集群环境二、项目配置环境一、集群环境包版本：1.java1.82.spark2.3.13.scala2.114.C

技多不压身·2021-01-22 11:45

Spark2.4.5集群安装与本地开发

下载官网地址：https://www.apache.org/dyn/closer.lua/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz验证Java是否安装java-verisonJDK下载地址解压安装tar-zxvfjdk-14.0.1_linux-x64_bin.tar.gzmvjdk-14.0.1/usr/local/java验证Scala是否

架构设计之道·2021-01-19 11:24

记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群

一、基本信息官网http://spark.apache.org/ApacheSpark官方文档中文版（Spark2.2.0）http://spark.apachecn.org/#/Spark中文文档（Spark2.2.0

一花一世界~·2021-01-11 23:58

Spark集成Hive和mysql

的配置文件拷贝到Spark的配置文件目录下，软拷贝硬拷贝皆可以ln-s/opt/software/hadoop/hive110/conf/hive-site.xml/opt/software/hadoop/spark244

xiaoxaoyu·2021-01-09 22:01

spark sql 类型转换array_Spark源码和调优简介 Spark Core

作者：calvinrzluo，腾讯IEG后台开发工程师本文基于Spark2.4.4版本的源码，试图分析其Core模块的部分实现原理，其中如有错误，请指正。

Yifeng Guo·2021-01-02 07:21

Spark SQL WebUI监控，查看SQL执行计划

/bin/bashcd/home/test_gp/SparkSQLExamplenohupspark2-submit\--classcom.example.SparkSQLExample.SparkSQLExampleMain

xiaogp·2020-12-29 17:57

sparkcore分区_Spark学习：Spark源码和调优简介 Spark Core (二）

本文基于Spark2.4.4版本的源码，试图分析其Core模块的部分实现原理，其中如有错误，请指正。为了简化论述，将部分细节放到了源码中作为注释，因此正文中是主要内容。

蒲牢森·2020-12-27 16:59

spark的数三角形算法_Spark2.1.0入门：Spark GraphX 算法实例

weixin_39609541·2020-12-19 21:44

eclipse运行python异常报错_win8+python2.7+Eclipse开发spark环境搭建

Python语言表现不俗，故我选择使用Python语言作为Spark机器学习的开发语言，也为后续的深度学习打下基础，故下面是在windows8.1下搭建eclipse4.4.2+Python2.7.14+Spark2.1.0

weixin_39902608·2020-12-08 15:33

【spark系列3】spark 3.0.1 AQE(Adaptive Query Exection)分析

AQE简介从sparkconfiguration,到在最早在spark1.6版本就已经有了AQE;到了spark2.x版本，intel大数据团队进行了相应的原型开发和实践；到了spark3.0时代，Databricks

鸿乃江边鸟·2020-12-07 18:04

【spark系列3】spark 3.0.1 AQE(Adaptive Query Exection)分析

AQE简介从sparkconfiguration,到在最早在spark1.6版本就已经有了AQE;到了spark2.x版本，intel大数据团队进行了相应的原型开发和实践；到了spark3.0时代，Databricks

鸿乃江边鸟·2020-12-07 09:37

大数据学习之路~Spark

目录Spark学习之路（一）Spark初识Spark学习之路（二）Spark2.3HA集群的分布式安装Spark学习之路（三）Spark之RDDSpark学习之路（四）Spark的广播变量和累加器Spark

素颜vv风之殇·2020-12-01 19:11

【spark系列3】spark 3.0.1 AQE(Adaptive Query Exection)分析

AQE简介从sparkconfiguration,到在最早在spark1.6版本就已经有了AQE;到了spark2.x版本，intel大数据团队进行了相应的原型开发和实践；到了spark3.0时代，Databricks

鸿乃江边鸟·2020-12-01 19:24

hive load data外部表报错_生产SparkSQL如何读写本地外部数据源及排错

https://spark-packages.org/里有很多third-party数据源的package，spark把包加载进来就可以使用了csv格式在spark2.0版本之后是内置的，2.0之前属于第三方数据源一

weixin_39638048·2020-11-29 16:31

spark2020面试题

文章目录一、RDD二、driver、Executor相关三、spark存储四、数据倾斜五、宽窄依赖、Stage、Job、task六、Spark性能优化七、并发八、pyspark内置函数、常用算子九、常见OOM类型报错，及解决办法十、集群资源十一、查看应用问题一、RDD1.spark中的RDD是什么，有哪些特性答：RDD（ResilientDistributedDataset）叫做分布式数据集，是s

BlackEyes_SGC·2020-11-19 17:29

HCIA-Big Data华为认证大数据工程师在线课程笔记

文章目录一、简介二、HDFS分布式文件系统三、MapReduce分布式离线批处理和Yarn资源协调四、Spark2.x基于内存的分布式计算五、HBase分布式NoSQL数据库HBase架构关键流程和特性

L小Ray想有腮·2020-11-19 16:21

Structured Streaming

第1章StructuredStreaming概述从spark2.0开始,spark引入了一套新的流式计算模型:StructuredStreaming.该组件进一步降低了处理数据的延迟时间,它实现了“有且仅有一次

wm_43827516·2020-11-15 21:48

spark 合并github (pull request)pr 的正确姿势

最近在做内部spark版本升级的工作，涉及到github上合并pr的工作，具体的是spark2.x升级到spark3.0.1时兼容hdfscdh-2.6.0-5.13.1，报编译错误[INFO]Compiling25Scalasourcesto

鸿乃江边鸟·2020-11-13 11:58

推荐频道

spark2

Spark 2.0 Structured Streaming 分析

Apache hive 3.1.2从单机到高可用部署 HiveServer2高可用 Metastore高可用 hive on spark hiveserver2 web UI 高可用集群启动脚本

pycharm利用pyspark远程连接spark集群的实现

Ubuntu18.04 + docker + hadoop + spark 搭建分布式集群

Spark2.0与HDP2.4集成

CDH5.12.0 安装Spark2及Gateway显示的状态为“不适用”问题

spark实时处理hdfs流数据

Spark的那些事（一）

Spark Hive

Spark Streaming如何消费Kafka的大消息(30M-40MB)

phoenix for cloudera

win10系统Pycharm配置spark环境

StreamingPro 再次支持 Structured Streaming

Spark2.x---6. Spark Yarn Client模式解析

StreamingPro 支持Spark Structured Streaming

使用spark-shell访问hive里面的数据

大数据常见面试题 非常棒

大数据常见面试题（一）

2021年大数据Spark（三十四）：Spark Streaming概述

Spark2.x机器学习视频教程

Spark2.x 机器学习视频教程

解决集群org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://hadoop1:7077问题

HDP 2.6 上配置 Oozie 同时支持 Spark 1.6 和 2.1 两个版本

Spark内存管理机制

spark内核解析和调优指南

Spark内存管理机制

Spark学习之路 （二）Spark2.3 HA集群的分布式安装

Spring boot结合Kafka的Demo

大数据日志监控平台

Spark 3.0 已来，是时候 on kubernetes 了

Spark 3.0 已来，是时候 on kubernetes 了

Hive SQL的数仓迁移成Spark SQL，之前的UDF函数怎么办?

spring boot整合spark，集群模式或local模式运行，http请求调用spark API，启动job任务配置、优化spark配置等

Spark2.4.5集群安装与本地开发

记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群

Spark集成Hive和mysql

spark sql 类型转换array_Spark源码和调优简介 Spark Core

Spark SQL WebUI监控，查看SQL执行计划

sparkcore分区_Spark学习：Spark源码和调优简介 Spark Core (二）

spark的数三角形算法_Spark2.1.0入门：Spark GraphX 算法实例

eclipse运行python异常报错_win8+python2.7+Eclipse开发spark环境搭建

【spark系列3】spark 3.0.1 AQE(Adaptive Query Exection)分析

【spark系列3】spark 3.0.1 AQE(Adaptive Query Exection)分析

大数据学习之路~Spark

【spark系列3】spark 3.0.1 AQE(Adaptive Query Exection)分析

hive load data外部表报错_生产SparkSQL如何读写本地外部数据源及排错

spark2020面试题

HCIA-Big Data华为认证大数据工程师在线课程笔记

Structured Streaming

spark 合并github (pull request)pr 的正确姿势

大数据常见面试题非常棒

Spark学习之路（二）Spark2.3 HA集群的分布式安装

记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群