E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
如何使用Hue上创建一个完整Oozie工作流
集群中经常会有一些特定顺序的作业需要在集群中运行,对于需要多个作业顺序执行的情况下,如何能够方便的构建一个完整的工作流在CDH集群中执行,前面Fayson也讲过关于Hue创建工作流的一系列文章具体可以参考《如何使用Hue创建Spark1和
Spark2
zkf541076398
·
2020-06-21 15:24
Oozie
kylin 2.3.0部署和遇到问题整理
一、部署kylin环境1.部署的环境准备Kylin2.3.0默认支持
spark2
.1版本,对版本的
spark2
.2兼容存在问题。
wuzhilon88
·
2020-06-21 14:23
kylin
kylin
新闻实时分析系统
Spark2
.X分布式弹性数据集
1.三大弹性数据集介绍1)概念2)优缺点对比2.SparkRDD概述与创建方式1)概述在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilientdistributeddataset,RDD),它是逻辑集中的实体,在集群中的多台机器上进行了数据分区。RDD是Spark的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序。通过对RDD的操作形成整个Spark程序。2)创
weixin_30730151
·
2020-06-21 10:12
新闻实时分析系统
Spark2
.X集群运行模式
1.几种运行模式介绍Spark几种运行模式:1)Local2)Standalone3)Yarn4)Mesos下载IDEA并安装,可以百度一下免费文档。2.sparkStandalone模式配置并测试1)jdk1.8已经安装2)scala2.11.8已经安装3)Hadoop2.5.0已经安装4)安装SparkStandalonea)配置slavevislavesbigdata-pro01.kfk.c
weixin_30730151
·
2020-06-21 10:41
在VM虚拟机上搭建Hadoop2.7.3+
Spark2
.1.0完全分布式集群
1.选取三台服务器(CentOS系统64位)114.55.246.88主节点114.55.246.77从节点114.55.246.93从节点之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作。如果是用root用户操作的话就不存在以上问题。我是用root用户操作的。2.修改hosts文件修改三台服务器的hosts文件。vi/etc/hosts在原文件的
windflyhuang
·
2020-06-21 08:52
spark
Hadoop
spark
centos
hadoop
linux
第四步:HADOOP-
SPARK2
scala$wgethttps://downloads.lightbend.com/scala/2.12.11/scala-2.12.11.tgz$tar-zxvfscala-2.12.11.tgz-C/usr/local$suhadoop$cd$vim~/.bashrc#scalaexportSCALA_HOME=/usr/local/scala-2.12.11exportPATH=$PATH:
发热安啃
·
2020-06-21 03:44
hadoop
spark
运维
Spark SQL读取MySQL数据写入Kudu
(1)pom文件中加入SparkKudu相关依赖org.apache.kudukudu-
spark2
_2.111.7.0(2)编写代码objectSparkKuduApp{defmain(args:Array
温文尔雅的流氓
·
2020-06-21 01:36
Spark
Kudu
Apache Kylin的安装和使用
1.5维度和度量1.6事实表和维表2部署2.1软件要求2.2硬件要求2.3下载并解压2.4环境变量和
Spark2
.5检查运行环境2.6配置Kylin参数2.7启动和停止Kylin2.8报错问题解决2.9
YoreYuan
·
2020-06-21 01:45
大数据
数据库
Apache kylin 安装配置
开发环境Ubuntu18.04Hadoop2.7.7Hbase1.3.3Hive1.2.2MySQL5.7.26
Spark2
.4.0Kylin2.6.1安装准备1.安装hadoop2.安装hbase见博客
eioway
·
2020-06-21 01:44
大数据
Hive报错笔记-ls: 无法访问/opt/SoftWare/Spark/spark/lib/spark-assembly-*.jar: 没有那个文件或目录
没有那个文件或目录[root@hadoopbin]#hivels:无法访问/opt/SoftWare/Spark/spark/lib/spark-assembly-*.jar:没有那个文件或目录原因:spark升级到
spark2
阿倩啊
·
2020-06-20 23:47
Hive
Spark
spark-2.1.0-bin-2.6.0-cdh5.x源码编译
前置条件:CentOS6.7JDK1.7+Maven3.3.9
Spark2
.1.01.到spark官网上下载
spark2
.1.0的源码spark-download.png2.执行mkdirsource新建目录
sparkle123
·
2020-06-20 22:51
Apache CarbonData 2.0 开发实用系列之一:与Spark SQL集成使用
CarbonDatajar包链接:https://github.com/QiangCai/carbonjars/blob/master/master/apache-carbondata-2.1.0-SNAPSHOT-bin-
spark2
.4.5
华为云
·
2020-06-20 20:05
技术交流
mysql
大数据
数据库
SQL
apache
Spark大数据分布式机器学习处理实战 | 博文精选
本文的参考配置为:Deepin15.11、Java1.8.0_241、Hadoop2.10.0、
Spark2
.4.4、scala2.11.12基本统计1.相关性计算两列数据之间的相关性是
CSDN云计算
·
2020-06-20 20:22
Linkis安装
都支持),如何安装PythonHadoop(社区版和CDH3.0以下版本都支持)Hive(1.2.1,2.0和2.0以上版本,可能存在兼容性问题)Spark(Linkisrelease0.7.0开始,支持
Spark2
.0
lccjhs
·
2020-06-19 16:47
运维
Spark文档阅读之二:Programming Guides - Quick Start
QuickStart:https://spark.apache.org/docs/latest/quick-start.html在
Spark2
.0之前,Spark的编程接口为RDD(ResilientDistributedDataset
沙木鱼
·
2020-06-15 19:00
调优 | Apache Hudi应用调优指南
输入并行性:Hudi对输入进行分区默认并发度为1500,以确保每个Spark分区都在2GB的限制内(在
Spark2
.4.0版本之后去除了该限制),如果有更大的输入,则相应地进行调整。
leesf
·
2020-06-06 15:00
调优 | Apache Hudi应用调优指南
输入并行性:Hudi对输入进行分区默认并发度为1500,以确保每个Spark分区都在2GB的限制内(在
Spark2
.4.0版本之后去除了该限制),如果有更大的输入,则相应地进行调整。
leesf
·
2020-06-06 15:00
Spark_SparkSQL 中定义 UDTF
Base
spark2
.2.0BaseHive2.1.1历史方案Spark1.*Hive2.1.1目前Spark内部不直接支持udtf,在比较久远的版本spark1.
高达一号
·
2020-05-31 16:52
Spark
Spark源码学习--内置RPC框架(1)
但是Akka在
Spark2
.0.0版本中被移除了,Spark官网文档对此的描述为:“Akka的依赖被
小明的数据脚印
·
2020-05-28 00:49
spark
源码学习
大数据
Spark源码阅读环境搭建(基于idea+maven)
前置准备1.安装jdk1.82.安装idea3.安装maven,编译spark对maven版本有要求,
spark2
.4.5需要maven3.5.4以上,建议安装最新版本的maven在环境变量path中配置
bugDesigner
·
2020-05-28 00:34
spark
源码学习
大数据
Spark 权威指南——Spark 是什么?(qbit)
TheDefinitiveGuide》Bill Chambers/Matei Zaharia著2018年2月第一版#中文译著《Spark权威指南》张岩峰/王方京/陈晶晶译2020年4月第一版《Spark权威指南》大部分内容使用
Spark2
.2
qbit
·
2020-05-27 23:42
spark
Spark2
.4报value foreach is not a memeber of Object错
一.原因分析根据是使用java集合还是scala数据集原因也不尽相同。1.java集合因为Java集合类型在Scala操作时没有foreach方法。2.scala数据集一般为scala版本与spark版本不兼容导致!二.解决方案1.java集合需要将其转换为Scala的集合类型,因此需要在代码中加入如下内容(Scala支持与Java的隐式转换):importscala.collection.Jav
云山之巅
·
2020-05-18 18:00
Spark 2.x 机器学习实战(算法篇:基于Kaggle竞赛数据集,六大算法模型构建)
Spark2
.x机器学习实战(算法篇:基于Kaggle竞赛数据集,六大算法模型构建)百度网盘下载地址:https://pan.baidu.com/s/1x8_h9D7SBQh_htpw7BkQVA提取码
相爱1生
·
2020-05-04 15:51
spark机器学习
linkis重编译适配cdh
1、系统环境:redhat7、cdh5.15.1、
spark2
.3.0、开启了sentry、没有开启kerberos2、获取源码在linkis的github上有一个linkis-cdh5.6的分支https
bioamin
·
2020-04-30 17:00
CDH| Spark升级
升级之Spark升级在CDH5.12.1集群中,默认安装的Spark是1.6版本,这里需要将其升级为
Spark2
.1版本。
kris12
·
2020-04-22 11:00
Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述
以
Spark2
.4.3为例,SparkSQL这个大模块分为三个子模块,如下图所示其中Catalyst可以说是Spark内部专门用来解析SQL的一个框架,在Hive中类似的框架是Calcite(将SQL解析成
zzzzMing
·
2020-04-21 20:00
spark内存溢出及其解决方案
spark2
.x的内存模型oom通常出现在execution内存中,因为storage这块内存在放满之后,会直接丢弃内存中旧的数据,对性能有点影响但不会导致oom。
becooner
·
2020-04-16 10:39
《SparkSql使用教程》--- 大数据系列
SparkSession:
Spark2
.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户不但可
xbmchina
·
2020-04-12 12:17
##Spark 2.0技术预览:更容易、更快速、更智能
Spark2
.0技术预览:更容易、更快速、更智能http://mp.weixin.qq.com/s?
葡萄喃喃呓语
·
2020-04-11 13:02
PySpark_Streaming+DBUtils+MySQL
DesignPatternsforusingforeachRDDdstream.foreachRDDisapowerfulprimitivethatallowsdatatobesentouttoexternalsystems.However,itisimportanttounderstandhowtousethisprimitivecorrectlyandefficiently.
spark2
.3
一ke大白菜
·
2020-04-11 11:03
spark2
.x依赖包POM
4.0.0com.jbsxtspark-project0.0.1-SNAPSHOTjarspark-projecthttp://maven.apache.orgUTF-8junitjunit3.8.1testorg.apache.sparkspark-core_2.101.5.1org.apache.sparkspark-sql_2.101.5.1org.apache.sparkspark-hiv
Albert陈凯
·
2020-04-10 03:46
每日一读 11.21
spark2
.2以后版本任务调度将增加黑名单机制http://www.aboutyun.com/thread-23346-1-1.html––1.spark如何开启黑名单机制?
Vicor
·
2020-04-09 09:46
【Spark】Catalog
基于版本:
Spark2
.2.0把一些概念搞清楚,Spark轮廓就清晰了。什么是Catalog,中文翻译目录,那啥叫目录呢?
PowerMe
·
2020-04-09 09:17
spark2
.0的sparkContext初始化过程
1,driver启动以后会先构建SparkContext,基于常用的standealone创建taskscheduler2,TaskSchedulerImpl*底层通过操作一个schedulerBackend,针对不同种类的cluster(standalone,yarn,mesos),调度task*他也可以使用一个localBackend,并将isLocal参数设为true,来在本地模式下工作*它
scottzcw
·
2020-04-08 21:51
Spark数据传输
本文基于
spark2
.111.前言在sparkshufflewrite和read一文中3.1.1节创建ShuffleBlockFetchIterator来从上游所有partition从fetch数据,回顾一下调用
aaron1993
·
2020-04-07 05:05
Apache Spark连接MongoDB
image.png1.前提安装并运行Mongodb
Spark2
.1Scala2.112.安装MongoDB(通过yum安装)MongoDB安装教程2.1配置yum源vim/etc/yum.repos.d
Michaelhbjian
·
2020-04-06 23:58
Spark 内存相关(qbit)
前言本文对
spark2
.1.x适用executor内存模型堆内内存与堆外内存堆内内存堆外内存动态资源分配基本参数设置#配置externalshuffleservice服务(一定要配置启用)spark.shuffle.service.enabled
qbit
·
2020-04-06 19:07
spark
内存管理
如何在华为平台使用自己的spark
场景我们私有云团队在给客户部署系统时遇到困难,客户要求在他们购买的华为大数据平台上部署我们的产品,我们底层主要用到了spark、hdfs、和hive,hdfs和hive可以用华为的,但spark不能用华为的,华为目前只有spark1.5和
spark2
.10
frb502
·
2020-04-02 17:54
大数据学习技术指南
一、大数据通用处理平台1、
Spark2
、Flink3、Hadoop二、流式计算1、Storm/JStorm2、SparkStreaming3、Flink三、分布式存储1、HDFS四、资源调度1、Yarn2
lmem
·
2020-04-02 15:05
用线性回归无编码实现文章浏览数预测
这篇文章的示例将会跑在
Spark2
.0上了。为了方便大家体验,我已经将Spark安装包,StreamignPro,以及分词包都准备好,大家下载即可。准备工作下载Spark
祝威廉
·
2020-03-31 20:24
Spark Sql 源码剖析(一):sql 执行的主要流程
本文基于
Spark2
.1,其他版本实现可能会有所不同之前写过不少SparkCore、SparkStreaming相关的文章,但使用更广泛的SparkSql倒是极少,恰好最近工作中使用到了,便开始研读相关的源码以及写相应的文章
牛肉圆粉不加葱
·
2020-03-31 20:06
spark2
.0 配置ipython,本地访问远程spark
1、vi~/.bashrcexportPYSPARK_DRIVER_PYTHON=ipythonexportPYSPARK_DRIVER_PYTHON_OPTS="notebook"source~/.bashrc2、vipyspark把python改成ipython3、jupyternotebook--generate-configvi/data1/user/zhanghd/.jupyter/ju
思索人生_mind
·
2020-03-31 06:41
Structured Streaming 介绍(一)
基本介绍和编程模型
Spark2
.2.0在7月12号发布,这个版本的StructuredStreaming抛掉了试验的标签,可以正式在生产环境使用。
Cherish_Qiang
·
2020-03-31 03:23
Spark2
.0,重要更新与改进
01引言就在前天(2016.07.26号),
Spark2
.0正式版本发布了。来看看当今最世上最强大的全栈数据处理框架吧!作为数据科学人员,如果一生只能学一个框架,那就先Spark!
i败火
·
2020-03-31 03:27
15分钟学会SparkSQL通过JDBC连接外部数据库(PostgreSQL为例)
本文基于
Spark2
.1.0版本1,先简单介绍一下通过SparkSQLJDBC连接数据库的好处,不过这不是本文的重点。
俺是亮哥
·
2020-03-30 18:24
Spark Streaming使用Receiver机制消费Kafka时,任务并发度如何设置?
(本文基于
Spark2
.1.1、Kafka0.10.2、Scala2.11.8、Zookeeper3.4.9、Kafka-manager-1.3.0.7)利用Receiver机制接收数据,需要加载spark-streaming-kafka
俺是亮哥
·
2020-03-29 16:10
Spark OFF_HEAP
在文章的开头,安利一下我自己的github上的一个项目:AlluxioBlockManager,同时还有我的github上的博客:blog这个项目的作用是替代
Spark2
.0以前默认的TachyonBlockManager
AlbertCheng
·
2020-03-29 07:45
cdh部署
spark2
不是完
spark2
不能启动分配、激活parcelimage.png磁盘太小sudofdisk-lDisk/dev/nvme1n1:100GiB,107374182400bytes,209715200sectorsUnits
xuefly
·
2020-03-29 01:51
1.Why Apache Spark?
1WhyApache
Spark2
关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9SparkStreaming
全能程序猿
·
2020-03-28 22:42
Spark Task 的执行流程④ - task 结果的处理
本文为
Spark2
.0源码分析笔记,其他版本可能稍有不同SparkTask的执行流程③-执行task一文中介绍了task是如何执行并返回task执行结果的,本文将进一步介绍task的结果是怎么处理的。
牛肉圆粉不加葱
·
2020-03-27 23:23
上一页
21
22
23
24
25
26
27
28
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他