E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2
ET钱包2月19日早报|pEOS将进行空投
ET钱包2019.2.19星期二EOS价值¥24.56(来源Gate.io)ET钱包每日早报----------------------------1.EOS主网数据&行情据EO
SPark2
月19日8:
ET钱包
·
2022-02-06 09:33
Spark Streaming+Kakfa细节剖析
SparkStreaming+Kakfa细节剖析本文基于Kafka1.1.0和
Spark2
.3.0版本源代码进行分析Kafka消费接口Kafka消费接口包含:低级和高级API,这个区分主要针对broker
alan787
·
2022-02-05 09:09
用户画像和留存预测模型
用户画像设计Hive数据结构
Spark2
Hbase逻辑处理样本设计标签设计样本标签表算法模型特征工程模型封装模型应用目标1.spark从hive获取数据对用户特征进行处理写入hbase2.保留30天用户特征数据
carollia
·
2022-01-28 15:59
「Spark 从精通到重新入门(一)」Spark 中不可不知的动态优化
我们Erda的FDP平台(FastDataPlatform)也从
Spark2
.4升级到Spark3.0
·
2021-12-01 14:38
Spark-StructuredStreaming 下的checkpointLocation分析以及对接 Grafana 监控和提交Kafka Lag 监控
一、Spark-StructuredStreamingcheckpointLocation介绍StructuredStreaming在
Spark2
.0版本于2016年引入,是基于SparkSQL引擎构建的可扩展且容错的流处理引擎
张永清
·
2021-11-22 14:00
Centos7——hostname和hosts
修改hostname1.查看主机名2.修改主机名[spark@localhost~]$sudovim/etc/hostname打开之后的内容是:localhost.localdomain删掉
spark2
023
^o^Smile^_^
·
2021-11-07 19:19
服务器
centos
linux
运维
Spark2
.0.0与Elasticsearch6.5的jar包冲突问题
1.问题在工作中,多次遇到了jar包冲突的情况,就以这个为例,整理下解决思路。现有某Spark程序,从Elasticsearch中读取数据进行后续的各种分析。当Spark版本是2.0.0,Elasticsearch的版本是5.2的时候,程序能够正常运行;后来由于项目需要,将Elasticsearch版本升级到了6.5,而Spark版本依然是2.0.0,此时出现了以下情况,异常如下:image.pn
本熊本
·
2021-06-27 20:04
spark Thriftserver配置自定义端口
1.在ambarispark界面中删除port设置:hive.server2.thrift.http.port=100152.启动命令中添加端口号:/usr/hdp/2.6.1.0-129/
spark2
哇哈哈乐园
·
2021-06-27 16:07
Spark core源码分析--shuffle管理器
ShuffleManager的实现类目前只有SortShuffleManager,因此现对它进行分析:
spark2
.4-4901.1ShuffleWriter详解ShuffleWriter是一个抽象类,
倾听内心的声音
·
2021-06-25 00:33
spark 2.3 structured streaming 长时间运行内存溢出排查
structuredstreaming运行一段时间后,就会出现OOM异常,虽然task会重新执行一次,但会导致系统内存监控报警,经过dump线上堆内存,用mat分析后发现一个占用大量内存的HashMapimage.png搜索得知是
spark2
.3
shaun_x
·
2021-06-24 07:18
Apache Spark 2.4 and 3.0
一场介绍
Spark2
.4和3.0的讲座,当然是满座了,并且也站满了。
smilegator
·
2021-06-24 03:29
java中使用SparkLauncher提交spark应用
将开发好的sparkapplication(对于java/scala来说是jar)提交到spark集群执行的方式通常包括两种,一种是通常使用的sparksubmit脚本(
spark2
.x版本是
spark2
alexlee666
·
2021-06-20 23:06
win10 spark+scala+eclipse+sbt 安装配置
转载请务必注明原创地址为:https://dongkelun.com/2018/03/15/winSparkConf/1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装
spark2
.1
董可伦
·
2021-06-14 00:21
Spark-sql与hive整合运行在Yarn上,经典错误解决方案!
1.版本
spark2
.3.0hive1.2.12.错误现象jar通过spark-submit提交到yarn运行时报错如下:org.apache.hadoop.hive.ql.metadata.HiveException
文儿哥
·
2021-06-13 20:42
CentOS7搭建Spark-2.3集群
spark2
.3-hadoop-2.71.配置环境变量exportSPARK_HOME=/opt/sparkexportPATH=$PATH:$SPARK/bin2.修改spark-env.shcp/opt
hipeer
·
2021-06-13 04:57
Spark2
.x精通:Standalone模式Master节点启动源码剖析
微信公众号:大数据开发运维架构关注可了解更多大数据相关的资讯。问题或建议,请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助,欢迎转发朋友圈从微信公众号拷贝过来,格式有些错乱,建议直接去公众号阅读对于Spark生产环境部署模式通常是SparkStandalone或SparkOnYarn,这里我们跟踪下源码,分析Standalone模式下Master节点的启动流程,已经相关的初始化流程:源码版
大数据开发运维架构
·
2021-06-12 07:51
如何基于 Pulsar 和 Spark 进行批流一体的弹性数据处理?
2017年7月,
Spark2
.2.0版本正式推出的Sparkstructuredstreaming将SparkSQL作为流处理、批处理底层统一的执
StreamNative
·
2021-06-09 21:13
快乐大数据第8课 Spark计算引擎概述
(一)本地模式启动在node01上cd~/apps/
spark2
.2bin/spark-shell定义变量valrdd=sc.parallelize(1to100,3)#生成三个分区,每个分区中的数值是
快乐大数据
·
2021-06-09 10:21
Spark 2.0 Structured Streaming 分析
前言
Spark2
.0将流式计算也统一到DataFrame里去了,提出了StructuredStreaming的概念,将数据源映射为一张无线长度的表,同时将流式计算的结果映射为另外一张表,完全以结构化的方式去操作流式数据
祝威廉
·
2021-06-08 14:05
Apache hive 3.1.2从单机到高可用部署 HiveServer2高可用 Metastore高可用 hive on spark hiveserver2 web UI 高可用集群启动脚本
后面配置hiveonspark可以使用
spark2
.3.0。而
spark2
.3.0对应的hadoop版本是2.x。重新编译,参考本人写的另一篇文章hive3.1.4
薛定谔的猫不吃猫粮
·
2021-05-21 16:59
Hive
hive
大数据
hadoop
spark
pycharm利用pyspark远程连接spark集群的实现
1方法1.1软件配置
spark2
.3.3,hadoop2.6,python31.2spark配置Spark集群的每个节点的Python版本必须保持一致。在每个节点的$S
·
2021-05-17 17:26
Ubuntu18.04 + docker + hadoop + spark 搭建分布式集群
物料说明宿主机ubuntu18.04dockerjdk1.8.0_211hadoop3.2
spark2
.4.3约定操作的路径为/home/bigdata/step0安装docker容器#删除可能有的旧版本
等流心0316
·
2021-05-15 01:00
Spark2
.0与HDP2.4集成
很多感兴趣的朋友想要在HDP2.4的环境上尝鲜
Spark2
.0,笔者自己也尝试着在HDP2.4的环境下运行了
spark2
.0onYARN模式。将一些配置整理如下,感兴趣的朋友可以作为参考。
biggeng
·
2021-05-10 23:18
CDH5.12.0 安装
Spark2
及Gateway显示的状态为“不适用”问题
https://www.cloudera.com/documentation/
spark2
/latest/topics/
spark2
_installing.html1.首先下载想安装的CustomServiceDescriptor
白面葫芦娃92
·
2021-05-09 18:02
spark实时处理hdfs流数据
spark-SQL:python如图:Paste_Image.png问题总结1、spark-streaming流处理2、sbt打包3、hdfs小文件(20150701_记,后续补充)后续1、flume、kafka结合
spark2
gk4030
·
2021-05-09 13:15
Spark的那些事(一)
Spark生态:1111.png支持SparkSql用于sql和结构化数据查询处理;支持MLlib用于机器学习;支持GraphX用于图形处理;支持SparkStreaming和StructuredSql(
spark2
.1.1
假文艺的真码农
·
2021-05-09 06:46
Spark Hive
配置在hive-site.xml中的参数hive.metastore.warehouse.dir自版本
spark2
.0.0起废弃了。
金刚_30bf
·
2021-05-07 15:07
Spark Streaming如何消费Kafka的大消息(30M-40MB)
本文基于
Spark2
.1.0版本虽然很少有生产环境用Kafka传递超过1M消息的场景(因为高吞吐、低延时的要求,Kafka发布-订阅模型中Producer-Broker-Consumer3方的相关默认配置都是
俺是亮哥
·
2021-05-07 14:29
phoenix for cloudera
软件版本:
spark2
.0.2cdh5.9phoenix4.9(phoenix-spark模块使用4.11)下载CDH版本的phoenix,最新版本目前只有phoenix4.9,不过在4.10开始才可以使用
breeze_lsw
·
2021-05-06 21:06
win10系统Pycharm配置spark环境
首先下载spark,可以去官网去下,我这里是
spark2
.2.0版本。然后解压到相应文件夹下2.复制-粘贴。将
在朝阳寺树下
·
2021-05-04 05:58
StreamingPro 再次支持 Structured Streaming
前言之前已经写过一篇文章,StreamingPro支持SparkStructuredStreaming,不过当时只是玩票性质的,因为对
Spark2
.0+版本其实也只是尝试性质的,重点还是放在了spark1.6
祝威廉
·
2021-05-02 10:14
Spark2
.x---6. Spark Yarn Client模式解析
最近在定位Yarn的crash问题时,顺便把spark怎么使用yarn的好好的梳理了一遍。不过我先了解一下Yarn和怎么提交yarn的job的。首先我们先看看Yarn的架构:图1Yarn分布式架构ResourceManagera)一个纯粹的调度器b)根据应用程序的资源请求严格限制系统的可用资源c)在保证容量、公平性及服务等级的情况下,优化集群资源利用率,让所有资源都得到充分的利用d)由可插拔的调度
shuitai
·
2021-05-01 06:57
StreamingPro 支持Spark Structured Streaming
前言StructuredStreaming的文章参考这里:
Spark2
.0StructuredStreaming分析。
祝威廉
·
2021-04-30 04:14
使用spark-shell访问hive里面的数据
在
spark2
.0.2这个版本中,正常启动,然后执行如下命令,会报错。
扣篮的左手
·
2021-04-28 21:02
大数据常见面试题 非常棒
一、当前集群环境CDH6.3.3hadoop3.0.0hbase2.1.0hive2.1.1impala3.2.0
spark2
.4.0kafka2.2.1scala2.11.12二、hadoop1.Hdfs
小猿笔记
·
2021-04-25 10:15
计算机就业
大数据
大数据常见面试题(一)
一、当前集群环境CDH6.3.3hadoop3.0.0hbase2.1.0hive2.1.1impala3.2.0
spark2
.4.0kafka2.2.1scala2.11.12二、hadoop1.Hdfs
纯净天空7
·
2021-04-21 23:38
面试
2021年大数据Spark(三十四):Spark Streaming概述
SparkStreaming在很多实时数据处理的场景中,都需要用到流式处理(StreamProcess)框架,Spark也包含了两个完整的流式处理框架SparkStreaming和StructuredStreaming(
Spark2
.0
Lansonli
·
2021-04-21 19:39
大数据
Spark
Streaming
Spark2
.x机器学习视频教程
Spark2
.x机器学习视频教程课程学习址:http://www.xuetuwuyou.com/course/311课程出自学途无忧网:http://www.xuetuwuyou.com本课程讲解Spark
菜花小噗噗
·
2021-04-21 07:00
Spark2
.x 机器学习视频教程
Spark2
.x机器学习视频教程讲师:轩宇老师课程观看地址:http://www.xuetuwuyou.com/course/311课程出自学途无忧网:http://www.xuetuwuyou.com
菜花小噗噗
·
2021-04-20 22:12
解决集群org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://hadoop1:7077问题
问题出现:出现该问题的原因在于其他集群的profile并没有设置好:exportJAVA_HOME=/usr/java/defaultexportSPARK_HOME=/usr/local/
spark2
.4.7exportPATH
master_hunter
·
2021-04-18 22:09
spark
HDP 2.6 上配置 Oozie 同时支持 Spark 1.6 和 2.1 两个版本
需求历史任务基于Spark1.新任务计划转移到
Spark2
.需要Oozie同时支持两个版本.步骤1配置sharelib参照Hortonworks文档创建
spark2
sharelib:hdfsdfs-mkdir
紫菜包饭哟嘻
·
2021-04-14 04:25
Spark内存管理机制
本文中阐述的原理基于
Spark2
.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。在执行
·
2021-04-12 21:52
spark
spark内核解析和调优指南
本文中阐述的原理基于
Spark2
.X版本。
HUC-暖阳
·
2021-04-12 17:05
spark技术篇
大数据之调优篇
mysql
spark
hadoop
hdfs
java
Spark内存管理机制
本文中阐述的原理基于
Spark2
.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。在执行
·
2021-04-09 21:03
spark
Spark学习之路 (二)
Spark2
.3 HA集群的分布式安装
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、下载Spark安装包1、从官网下载2、从微软的镜像站下载3、从清华的镜像站下载二、安装基础三、Spark安装过程1、上传并解压缩2、为安装包创建一个软连接3、进入spark/conf修改配置文件4、配置环境变量四、启动1、先启动zookeeper集群2、在启动HDFS集群3、在启动Spark集群4、查看进程5
王知无-大数据技术与架构
·
2021-02-12 20:36
Spark
Spring boot结合Kafka的Demo
.54tianzhisheng.cn/...Spark安装:厦大数据库实验室Spark安装Scala安装:厦大数据库实验室Scala安装相应软件的安装环境:jdk1.8.0_161scala2.12.12
spark2
.4.7maven
·
2021-02-08 20:34
大数据日志监控平台
技术选型:前端:vue、element-UI、nginx-1.15后端:Java8、SpringBoot、JPA、Mybatis、Redis、MySql大数据:
Spark2
.4.5、kafka_2.13
魑魅魍魉_5a55
·
2021-02-04 13:37
Spark 3.0 已来,是时候 on kubernetes 了
从
Spark2
.4版本开始,Spark实验性支持Kubernetes作为资源管理器。
·
2021-01-24 22:12
Spark 3.0 已来,是时候 on kubernetes 了
从
Spark2
.4版本开始,Spark实验性支持Kubernetes作为资源管理器。
·
2021-01-24 22:26
Hive SQL的数仓迁移成Spark SQL,之前的UDF函数怎么办?
环境:
spark2
.11,hive2.3.6,hadoop2.7.2解决方案首先,hive的元数据一般生产我们都会存在mysql当时,所以设想:sparkonhive也是使用hive的元数
俩只猴
·
2021-01-24 14:38
数据仓库
hive
大数据
数据仓库
spark
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他