Spark2 第8页

ET钱包2月19日早报|pEOS将进行空投

ET钱包2019.2.19星期二EOS价值￥24.56（来源Gate.io）ET钱包每日早报----------------------------1.EOS主网数据&行情据EOSPark2月19日8:

ET钱包·2022-02-06 09:33

Spark Streaming+Kakfa细节剖析

SparkStreaming+Kakfa细节剖析本文基于Kafka1.1.0和Spark2.3.0版本源代码进行分析Kafka消费接口Kafka消费接口包含：低级和高级API，这个区分主要针对broker

alan787·2022-02-05 09:09

用户画像和留存预测模型

用户画像设计Hive数据结构Spark2Hbase逻辑处理样本设计标签设计样本标签表算法模型特征工程模型封装模型应用目标1.spark从hive获取数据对用户特征进行处理写入hbase2.保留30天用户特征数据

carollia·2022-01-28 15:59

「Spark 从精通到重新入门(一)」Spark 中不可不知的动态优化

我们Erda的FDP平台（FastDataPlatform）也从Spark2.4升级到Spark3.0

·2021-12-01 14:38

Spark-StructuredStreaming 下的checkpointLocation分析以及对接 Grafana 监控和提交Kafka Lag 监控

一、Spark-StructuredStreamingcheckpointLocation介绍StructuredStreaming在Spark2.0版本于2016年引入，是基于SparkSQL引擎构建的可扩展且容错的流处理引擎

张永清·2021-11-22 14:00

Centos7——hostname和hosts

修改hostname1.查看主机名2.修改主机名[spark@localhost~]$sudovim/etc/hostname打开之后的内容是：localhost.localdomain删掉spark2023

^o^Smile^_^·2021-11-07 19:19

Spark2.0.0与Elasticsearch6.5的jar包冲突问题

1.问题在工作中，多次遇到了jar包冲突的情况，就以这个为例，整理下解决思路。现有某Spark程序，从Elasticsearch中读取数据进行后续的各种分析。当Spark版本是2.0.0，Elasticsearch的版本是5.2的时候，程序能够正常运行；后来由于项目需要，将Elasticsearch版本升级到了6.5，而Spark版本依然是2.0.0，此时出现了以下情况，异常如下：image.pn

本熊本·2021-06-27 20:04

spark Thriftserver配置自定义端口

1.在ambarispark界面中删除port设置：hive.server2.thrift.http.port=100152.启动命令中添加端口号：/usr/hdp/2.6.1.0-129/spark2

哇哈哈乐园·2021-06-27 16:07

Spark core源码分析--shuffle管理器

ShuffleManager的实现类目前只有SortShuffleManager，因此现对它进行分析：spark2.4-4901.1ShuffleWriter详解ShuffleWriter是一个抽象类，

倾听内心的声音·2021-06-25 00:33

spark 2.3 structured streaming 长时间运行内存溢出排查

structuredstreaming运行一段时间后，就会出现OOM异常，虽然task会重新执行一次，但会导致系统内存监控报警，经过dump线上堆内存，用mat分析后发现一个占用大量内存的HashMapimage.png搜索得知是spark2.3

shaun_x·2021-06-24 07:18

Apache Spark 2.4 and 3.0

一场介绍Spark2.4和3.0的讲座，当然是满座了，并且也站满了。

smilegator·2021-06-24 03:29

java中使用SparkLauncher提交spark应用

将开发好的sparkapplication（对于java/scala来说是jar）提交到spark集群执行的方式通常包括两种，一种是通常使用的sparksubmit脚本（spark2.x版本是spark2

alexlee666·2021-06-20 23:06

win10 spark+scala+eclipse+sbt 安装配置

转载请务必注明原创地址为：https://dongkelun.com/2018/03/15/winSparkConf/1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装spark2.1

董可伦·2021-06-14 00:21

Spark-sql与hive整合运行在Yarn上，经典错误解决方案！

1.版本spark2.3.0hive1.2.12.错误现象jar通过spark-submit提交到yarn运行时报错如下：org.apache.hadoop.hive.ql.metadata.HiveException

文儿哥·2021-06-13 20:42

CentOS7搭建Spark-2.3集群

spark2.3-hadoop-2.71.配置环境变量exportSPARK_HOME=/opt/sparkexportPATH=$PATH:$SPARK/bin2.修改spark-env.shcp/opt

hipeer·2021-06-13 04:57

Spark2.x精通：Standalone模式Master节点启动源码剖析

微信公众号：大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读对于Spark生产环境部署模式通常是SparkStandalone或SparkOnYarn,这里我们跟踪下源码，分析Standalone模式下Master节点的启动流程，已经相关的初始化流程:源码版

大数据开发运维架构·2021-06-12 07:51

如何基于 Pulsar 和 Spark 进行批流一体的弹性数据处理？

2017年7月，Spark2.2.0版本正式推出的Sparkstructuredstreaming将SparkSQL作为流处理、批处理底层统一的执

StreamNative·2021-06-09 21:13

快乐大数据第8课 Spark计算引擎概述

(一)本地模式启动在node01上cd~/apps/spark2.2bin/spark-shell定义变量valrdd=sc.parallelize(1to100,3)#生成三个分区，每个分区中的数值是

快乐大数据·2021-06-09 10:21

Spark 2.0 Structured Streaming 分析

前言Spark2.0将流式计算也统一到DataFrame里去了，提出了StructuredStreaming的概念，将数据源映射为一张无线长度的表，同时将流式计算的结果映射为另外一张表，完全以结构化的方式去操作流式数据

祝威廉·2021-06-08 14:05

Apache hive 3.1.2从单机到高可用部署 HiveServer2高可用 Metastore高可用 hive on spark hiveserver2 web UI 高可用集群启动脚本

后面配置hiveonspark可以使用spark2.3.0。而spark2.3.0对应的hadoop版本是2.x。重新编译，参考本人写的另一篇文章hive3.1.4

薛定谔的猫不吃猫粮·2021-05-21 16:59

pycharm利用pyspark远程连接spark集群的实现

1方法1.1软件配置spark2.3.3,hadoop2.6,python31.2spark配置Spark集群的每个节点的Python版本必须保持一致。在每个节点的$S

·2021-05-17 17:26

Ubuntu18.04 + docker + hadoop + spark 搭建分布式集群

物料说明宿主机ubuntu18.04dockerjdk1.8.0_211hadoop3.2spark2.4.3约定操作的路径为/home/bigdata/step0安装docker容器#删除可能有的旧版本

等流心0316·2021-05-15 01:00

Spark2.0与HDP2.4集成

很多感兴趣的朋友想要在HDP2.4的环境上尝鲜Spark2.0，笔者自己也尝试着在HDP2.4的环境下运行了spark2.0onYARN模式。将一些配置整理如下，感兴趣的朋友可以作为参考。

biggeng·2021-05-10 23:18

CDH5.12.0 安装Spark2及Gateway显示的状态为“不适用”问题

https://www.cloudera.com/documentation/spark2/latest/topics/spark2_installing.html1.首先下载想安装的CustomServiceDescriptor

白面葫芦娃92·2021-05-09 18:02

spark实时处理hdfs流数据

spark-SQL：python如图：Paste_Image.png问题总结1、spark-streaming流处理2、sbt打包3、hdfs小文件（20150701_记，后续补充）后续1、flume、kafka结合spark2

gk4030·2021-05-09 13:15

Spark的那些事（一）

Spark生态：1111.png支持SparkSql用于sql和结构化数据查询处理；支持MLlib用于机器学习；支持GraphX用于图形处理；支持SparkStreaming和StructuredSql(spark2.1.1

假文艺的真码农·2021-05-09 06:46

Spark Hive

配置在hive-site.xml中的参数hive.metastore.warehouse.dir自版本spark2.0.0起废弃了。

金刚_30bf·2021-05-07 15:07

Spark Streaming如何消费Kafka的大消息(30M-40MB)

本文基于Spark2.1.0版本虽然很少有生产环境用Kafka传递超过1M消息的场景（因为高吞吐、低延时的要求，Kafka发布-订阅模型中Producer-Broker-Consumer3方的相关默认配置都是

俺是亮哥·2021-05-07 14:29

phoenix for cloudera

软件版本:spark2.0.2cdh5.9phoenix4.9(phoenix-spark模块使用4.11)下载CDH版本的phoenix，最新版本目前只有phoenix4.9，不过在4.10开始才可以使用

breeze_lsw·2021-05-06 21:06

win10系统Pycharm配置spark环境

首先下载spark,可以去官网去下，我这里是spark2.2.0版本。然后解压到相应文件夹下2.复制-粘贴。将

在朝阳寺树下·2021-05-04 05:58

StreamingPro 再次支持 Structured Streaming

前言之前已经写过一篇文章，StreamingPro支持SparkStructuredStreaming，不过当时只是玩票性质的，因为对Spark2.0+版本其实也只是尝试性质的,重点还是放在了spark1.6

祝威廉·2021-05-02 10:14

Spark2.x---6. Spark Yarn Client模式解析

最近在定位Yarn的crash问题时，顺便把spark怎么使用yarn的好好的梳理了一遍。不过我先了解一下Yarn和怎么提交yarn的job的。首先我们先看看Yarn的架构：图1Yarn分布式架构ResourceManagera)一个纯粹的调度器b)根据应用程序的资源请求严格限制系统的可用资源c)在保证容量、公平性及服务等级的情况下，优化集群资源利用率，让所有资源都得到充分的利用d)由可插拔的调度

shuitai·2021-05-01 06:57

StreamingPro 支持Spark Structured Streaming

前言StructuredStreaming的文章参考这里：Spark2.0StructuredStreaming分析。

祝威廉·2021-04-30 04:14

使用spark-shell访问hive里面的数据

在spark2.0.2这个版本中，正常启动，然后执行如下命令，会报错。

扣篮的左手·2021-04-28 21:02

大数据常见面试题非常棒

一、当前集群环境CDH6.3.3hadoop3.0.0hbase2.1.0hive2.1.1impala3.2.0spark2.4.0kafka2.2.1scala2.11.12二、hadoop1.Hdfs

小猿笔记·2021-04-25 10:15

大数据常见面试题（一）

一、当前集群环境CDH6.3.3hadoop3.0.0hbase2.1.0hive2.1.1impala3.2.0spark2.4.0kafka2.2.1scala2.11.12二、hadoop1.Hdfs

纯净天空7·2021-04-21 23:38

2021年大数据Spark（三十四）：Spark Streaming概述

SparkStreaming在很多实时数据处理的场景中，都需要用到流式处理（StreamProcess）框架，Spark也包含了两个完整的流式处理框架SparkStreaming和StructuredStreaming（Spark2.0

Lansonli·2021-04-21 19:39

Spark2.x机器学习视频教程

Spark2.x机器学习视频教程课程学习址：http://www.xuetuwuyou.com/course/311课程出自学途无忧网：http://www.xuetuwuyou.com本课程讲解Spark

菜花小噗噗·2021-04-21 07:00

Spark2.x 机器学习视频教程

Spark2.x机器学习视频教程讲师：轩宇老师课程观看地址：http://www.xuetuwuyou.com/course/311课程出自学途无忧网：http://www.xuetuwuyou.com

菜花小噗噗·2021-04-20 22:12

解决集群org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://hadoop1:7077问题

问题出现：出现该问题的原因在于其他集群的profile并没有设置好：exportJAVA_HOME=/usr/java/defaultexportSPARK_HOME=/usr/local/spark2.4.7exportPATH

master_hunter·2021-04-18 22:09

HDP 2.6 上配置 Oozie 同时支持 Spark 1.6 和 2.1 两个版本

需求历史任务基于Spark1.新任务计划转移到Spark2.需要Oozie同时支持两个版本.步骤1配置sharelib参照Hortonworks文档创建spark2sharelib:hdfsdfs-mkdir

紫菜包饭哟嘻·2021-04-14 04:25

Spark内存管理机制

本文中阐述的原理基于Spark2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。在执行

·2021-04-12 21:52

spark内核解析和调优指南

本文中阐述的原理基于Spark2.X版本。

HUC-暖阳·2021-04-12 17:05

Spark内存管理机制

本文中阐述的原理基于Spark2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。在执行

·2021-04-09 21:03

Spark学习之路（二）Spark2.3 HA集群的分布式安装

王知无-大数据技术与架构·2021-02-12 20:36

Spring boot结合Kafka的Demo

.54tianzhisheng.cn/...Spark安装：厦大数据库实验室Spark安装Scala安装：厦大数据库实验室Scala安装相应软件的安装环境：jdk1.8.0_161scala2.12.12spark2.4.7maven

·2021-02-08 20:34

大数据日志监控平台

技术选型：前端：vue、element-UI、nginx-1.15后端：Java8、SpringBoot、JPA、Mybatis、Redis、MySql大数据：Spark2.4.5、kafka_2.13

魑魅魍魉_5a55·2021-02-04 13:37

Spark 3.0 已来，是时候 on kubernetes 了

从Spark2.4版本开始，Spark实验性支持Kubernetes作为资源管理器。

·2021-01-24 22:12

Spark 3.0 已来，是时候 on kubernetes 了

从Spark2.4版本开始，Spark实验性支持Kubernetes作为资源管理器。

·2021-01-24 22:26

Hive SQL的数仓迁移成Spark SQL，之前的UDF函数怎么办?

环境：spark2.11，hive2.3.6，hadoop2.7.2解决方案首先，hive的元数据一般生产我们都会存在mysql当时，所以设想：sparkonhive也是使用hive的元数

俩只猴·2021-01-24 14:38

推荐频道

Spark2

ET钱包2月19日早报|pEOS将进行空投

Spark Streaming+Kakfa细节剖析

用户画像和留存预测模型

「Spark 从精通到重新入门(一)」Spark 中不可不知的动态优化

Spark-StructuredStreaming 下的checkpointLocation分析以及对接 Grafana 监控和提交Kafka Lag 监控

Centos7——hostname和hosts

Spark2.0.0与Elasticsearch6.5的jar包冲突问题

spark Thriftserver配置自定义端口

Spark core源码分析--shuffle管理器

spark 2.3 structured streaming 长时间运行内存溢出排查

Apache Spark 2.4 and 3.0

java中使用SparkLauncher提交spark应用

win10 spark+scala+eclipse+sbt 安装配置

Spark-sql与hive整合运行在Yarn上，经典错误解决方案！

CentOS7搭建Spark-2.3集群

Spark2.x精通：Standalone模式Master节点启动源码剖析

如何基于 Pulsar 和 Spark 进行批流一体的弹性数据处理？

快乐大数据第8课 Spark计算引擎概述

Spark 2.0 Structured Streaming 分析

Apache hive 3.1.2从单机到高可用部署 HiveServer2高可用 Metastore高可用 hive on spark hiveserver2 web UI 高可用集群启动脚本

pycharm利用pyspark远程连接spark集群的实现

Ubuntu18.04 + docker + hadoop + spark 搭建分布式集群

Spark2.0与HDP2.4集成

CDH5.12.0 安装Spark2及Gateway显示的状态为“不适用”问题

spark实时处理hdfs流数据

Spark的那些事（一）

Spark Hive

Spark Streaming如何消费Kafka的大消息(30M-40MB)

phoenix for cloudera

win10系统Pycharm配置spark环境

StreamingPro 再次支持 Structured Streaming

Spark2.x---6. Spark Yarn Client模式解析

StreamingPro 支持Spark Structured Streaming

使用spark-shell访问hive里面的数据

大数据常见面试题 非常棒

大数据常见面试题（一）

2021年大数据Spark（三十四）：Spark Streaming概述

Spark2.x机器学习视频教程

Spark2.x 机器学习视频教程

解决集群org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://hadoop1:7077问题

HDP 2.6 上配置 Oozie 同时支持 Spark 1.6 和 2.1 两个版本

Spark内存管理机制

spark内核解析和调优指南

Spark内存管理机制

Spark学习之路 （二）Spark2.3 HA集群的分布式安装

Spring boot结合Kafka的Demo

大数据日志监控平台

Spark 3.0 已来，是时候 on kubernetes 了

Spark 3.0 已来，是时候 on kubernetes 了

Hive SQL的数仓迁移成Spark SQL，之前的UDF函数怎么办?

大数据常见面试题非常棒

Spark学习之路（二）Spark2.3 HA集群的分布式安装