E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
Hive On
Spark2
.0.0 搭建
Hive作为Hadoop家族成员中一份子,在现在的离线数据分析中的重要性已经不用多说。但是众所周知,hive是以MR程序跑在YARN集群上的,这其中的酸爽,想必用过的都说好了。随着技术的进步,Hive的开发者也已经意识到了MR的效率已经不能满足很多的日常需求,所以从hive二代开始,尝试着用spark引擎来替换掉MR,到现在为止,已经hive已经能支持几个版本的spark了。好了,下面就来搞一下h
Dzhantao
·
2020-07-04 23:17
Delta Lake 平台化实践(离线篇)
本文是在DeltaLake0.4与
Spark2
.4集成、平台化过程中的一些实践与思考目录SQL支持DMLQueryInsert平台化工作浏览delta数据元数据兼容碎片文件整理结语一些限制merge使用场景
breeze_lsw
·
2020-07-04 22:47
Spark
Delta
Lake
生产环境中的spark
【备忘】年薪50万2017年最新
Spark2
.0从入门到精通教程
Spark从入门到精通(Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端)下载地址:http://www.javaxxz.com/thread-342081-1-1.html本课程主要讲解目前大数据领域最热门、最火爆、最有前景的技术——Spark。在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企...适合人群:中级课时数量:278课
jazz2013
·
2020-07-04 19:20
大数据Spark “蘑菇云”行动第72课: 基于Spark 2.0.1项目实现之二. 实战 各种小bug修复及性能调优 200并行度调整为2个task
大数据Spark“蘑菇云”行动第72课:基于
Spark2
.0.1项目实现之二.源数据格式及代码的小bug修复。
段智华
·
2020-07-04 15:40
大数据蘑菇云行动
Apache Spark 统一内存管理模型详解
本文将对Spark的内存管理模型进行分析,下面的分析全部是基于Apache
Spark2
.2.1进行的。为了让下面的文章看起来不枯燥,我不打算贴出代码层面的东西。
Hadoop技术博文
·
2020-07-04 11:51
spark 2.3.1集群搭建(Master,Slave,Slave)
基础配置同上篇博客配置教程请先参阅:厦门大学数据库实验室系列博客
Spark2
.0分布式集群环境搭建需要注意的配置有两个cd/usr/local/spark/cp.
「已注销」
·
2020-07-04 06:07
spark
hadoop
Spark2
.1.1中用各种模式运行计算圆周率的官方Demo
1使用单机local模式提交任务2使用独立的Spark集群模式提交任务3使用Spark集群+Hadoop集群的模式提交任务3.1用yarn-client模式执行计算程序3.1.1操作步骤和方法3.1.2常见错误解决3.1.2.1Yarnapplicationhasalreadyended!3.1.2.1.1主要错误信息3.1.2.1.2错误原因3.1.2.1.3解决方法3.1.2.2Require
陈南志
·
2020-07-02 14:33
Linux
运维
CentOS
hadoop
spark
yarn
CDH升级
Spark2
异常java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream
而默认的Spark是1.6版本的,为配合客户需要升级成
Spark2
,由于机器资源有限制,先把Spark1.6删除了,下载
SPARK2
-2.1.0.cloudera3-1.cdh5.13.3.p0.569822
mlwise
·
2020-07-02 12:39
大数据
Spark2
.x源码剖析系列文章(共21篇|经典必读)
问题或建议,请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助,欢迎转发朋友圈从微信公众号拷贝过来,格式有些错乱,建议直接去公众号阅读经过小半年的努力,终于把
Spark2
.x主流程部分的代码看完了
陆继森
·
2020-07-02 10:59
Spark
spark源码编译
如果官方给的安装包不能满足我们生产环境的要求又或者我们基于自己的需求修改了spark源码,那么我们就需要对spark源码重新编译打包,相关方法和命令官网也写的特别清楚,我们只需要安装官网一步步操作即可,本文基于
spark2
.1.0
Sx_Ren
·
2020-07-02 07:53
使用Eclipse编写Spark应用程序(Scala+Maven) scala ide for eclipse
本教程介绍如何在Ubuntu中使用Eclipse来开发scala程序(使用Maven工具),在
Spark2
.1.0,scala2.11.8下验证通过。
DemonHunter211
·
2020-07-02 07:00
JAVA
SparkSQL自适应执行优化引擎
核心在于两点执行计划可动态调整调整的依据是中间结果的精确统计信息
spark2
.3开始试验功能spark3.0正式发布自适应查询执行(AdaptiveQueryExecution)现状与挑战如何设置合适的
github_28583061
·
2020-07-02 01:07
spark-submit的参数传递源码分析
版本:
spark2
.3相关源码:org.apache.spark.deploy.SparkSubmitArguments作用:解析并封装spark-submit脚本传递的参数/**LicensedtotheApacheSoftwareFoundation
diaoxie5099
·
2020-07-01 22:23
Spark 2.4.0 standalone 模式安装
Spark2
.4.0standalone模式安装视频
Spark2
.4.0standalone模式安装(bilibili视频):https://www.bilibili.com/video/av38193405
chongqueluo2709
·
2020-07-01 20:28
Spark 2.4.0 集成Hive 1.2.1
Spark2
.4.0集成Hive1.2.1更多资源github:https://github.com/opensourceteams/spark-scala-maven-2.4.0apache-hive
chongqueluo2709
·
2020-07-01 20:28
Spark2
学习1之基本环境搭建(win)问题
更多代码请见:https://github.com/xubo245/SparkLearning版本:Spark-2.0.01解释从【2】中下载release版,idea打开mvnpackage,报错遇到的问题:main:[INFO]------------------------------------------------------------------------[INFO]Reacto
KeepLearningBigData
·
2020-07-01 18:45
Spark2-0
Spark常见故障诊断(一)
目前运维的Spark主要有
Spark2
.3和Spark1.6两个版本。
泰山不老生
·
2020-07-01 18:06
大数据
Spark
Scala
Java
运维
深入理解Spark
spark-submit 提交源码过程研究
1,前言网上很多别人写的都是基于spark1的版本,因为
spark2
的版本差异还是有点的,我打算研究一下
Spark2
作业的提交过程2,spark提交方式以及参数.
scottzcw
·
2020-07-01 17:43
关于Adaboost的一些理解
近段时间一直在学习
spark2
.0框架,一个任务就是在spark下实现adaboost+logisticRegression的组合分类器,即利用逻辑回归作为adaboost的底层分类器,利用adaboost
Mac Jiang
·
2020-07-01 15:34
机器学习
Mac
Jiang的机器学习专栏
spark dataframe, rdd unpersist的坑
目前使用的
Spark2
.1.0有一个很坑爹的问题,如果persist一个df1后unpersist与df1相关的df0,那么df1也会被unpersist掉,导致后续用到df1的地方又需要重新算df1,
Code_LT
·
2020-07-01 08:09
Spark
使用Hue创建Spark1和
Spark2
的Oozie工作流
那能不能支持
Spark2
的呢,接下来本文章就主要讲述如何使用Hue创建Spark1和
Spark2
的Oozie工作流。
zkf541076398
·
2020-06-30 18:03
Oozie
spark 2.3.1 Standalone 集群
1.先下载
spark2
.3.1下载地址:http://spark.apache.org/downloads.html2.安装
spark2
.3.1上传到/usr/spark目录下解压安装:tar-zxvfspark
zhangyongbo
·
2020-06-30 14:43
spark
2.3.1
Standalone
集群
Hadoop2.7.3+
Spark2
.1.0 完全分布式环境 搭建全过程
原文地址:http://www.cnblogs.com/purstar/p/6293605.html一、修改hosts文件在主节点,就是第一台主机的命令行下;vim/etc/hosts我的是三台云主机:在原文件的基础上加上;ip1masterworker0namenodeip2worker1datanode1ip3worker2datanode2其中的ipN代表一个可用的集群IP,ip1为mast
奋斗吧_攻城狮
·
2020-06-30 09:27
运维和部署
Spark Streaming 转向 Structured Streaming
导读Spark团队对SparkStreaming的维护将会越来越少,
Spark2
.4版本的ReleaseNote里面甚至一个SparkStreaming相关的ticket都没有。
GOD_WAR
·
2020-06-30 09:12
spark
技术博览
SparkStreaming项目实战系列——1.实时流概述
SparkStreaming项目实战系列——实时流概述Spark官网关于
Spark2
.2.0需要以下条件:maven3.3.9+Java8+
Spark2
.2.01.初识实时流处理1.1业务现状分析需求:
陈府才俊
·
2020-06-30 08:58
spark
使用Spark SQL构建交互式查询引擎
准备工作下载StreamingProREADME中有下载地址如果你使用了
Spark2
.0版
祝威廉
·
2020-06-29 22:53
SparkSql 读取elasticsearch 表数据
SparkSql读取elasticsearch表数据1版本
Spark2
.3.2,elasticsearch5.3.3,scala2.112Pom.xml部分依赖 org.elasticsearch
羞羞的铁脚
·
2020-06-29 22:46
编程
docker下部署spark+python+pyspark+Jupyter
1、使用singularities/
spark2
.2搭建spark参考https://hub.docker.com/r/singularities/sparksingularities/spark:2.2
吕海洋
·
2020-06-29 21:36
python
docker
spark
Spark2
.0.X源码深度剖析之 Spark Submit..
Spark目前是大数据领域中最火的框架之一,可高效实现离线批处理,实时计算和机器学习等多元化操作,阅读源码有助你加深对框架的理解和认知本人将依次剖析
Spark2
.0.0.X版本的各个核心组件,包括以后章节的
我要按时吃早饭
·
2020-06-29 20:52
如何使用Hue创建
Spark2
的Oozie工作流
1.Oozie共享库添加
Spark2
1.查看当前Oozie的share-lib共享库HDFS目录oozieadmin-ooziehttp://lefincluster-rt1:11000/oozie-sharelibupdate
worldchinalee
·
2020-06-29 20:14
spark
基于openfire+smack的Android、消息推送服务
即时通信客户端可使用
spark2
.6.3,这个版本是目前最新的release版本,经过测试发现上一版本在视频支持,msn网关支持上可
wind520
·
2020-06-29 18:14
Java
如何做Spark 版本兼容
我们知道
Spark2
.0,Spark1.6还有Spark1.5三者之间版本是不兼容的,尤其是一些内部API变化比较大。如果你的系统使用了不少底层的API,那么这篇文章或许对你有帮助。
祝威廉
·
2020-06-29 17:33
应用华为大数据平台配置大数据项目①
应用华为大数据平台配置大数据项目①概述框架详述关于log4j概述智慧交通项目,由车载硬件设备发送GPS等数据,经过简单处理后经大数据平台计算返回结果,实时处理使用
Spark2
X,离线批处理使用Hive的
"Baal
·
2020-06-29 12:49
智慧交通项目
Spark2
.x RPC解析
Spark2
.0之后,master和worker之间完全不使用akka通信,改用netty实现。
Quinto0
·
2020-06-29 10:44
spark内核
启动hive,提示ls: 无法访问/home/software/spark-2.0.1-bin-hadoop2.7/lib/spark-assembly-*.jar: 没有那个文件或目录
]#hivels:无法访问/home/software/spark-2.0.1-bin-hadoop2.7/lib/spark-assembly-*.jar:没有那个文件或目录原因是:spark升级到
spark2
我是A_lin呀
·
2020-06-29 05:23
hive
Spark机器学习流程(ML Pipeline)(持续更新ing)
参考:[1]林大贵.Python+
Spark2
.0+Hadoop机器学习与大数据实战[M].博硕文化股份有限公司名词说明DataFrame:SparlML机器学习API处理的数据格式是DF,我们必须使用
NoOne-csdn
·
2020-06-28 23:02
机器学习
pyspark
Spark bug:java.lang.IllegalArgumentException: Illegal pattern component: XXX 解决办法
一.特点:1.此问题经常出现在
spark2
.1.x升级到
spark2
.2.x的时候出现。比如通过maven构建spark环境的时候,依赖maven进行版本升级。
人唯优
·
2020-06-28 19:34
Spark
零基础Ubuntu16.04+Hadoop2.7.3+
Spark2
.3.4+Zookeeper3.4.14+HBase2.1.6+Kafka2.11大数据集群配置教程
半年后重新整理了大数据集群搭建方案,优化了部分步骤与目录设计目录1、环境搭建虚拟机:系统:节点:2、相关软件版本3、主要参考文章4、搭建步骤4.1安装虚拟机4.2修改hostname与hosts文件4.3创建hadoop用户与hadoop用户4.4配置虚拟机网络,使虚拟机系统之间以及和host主机之间可以通过相互ping通4.5配置Java4.6配置ssh4.6.1安装ssh4.6.2验证ssh是
景雨泽
·
2020-06-28 19:37
大数据——从入门到放弃
Spark 2.x企业级大数据项目实战(实时统计、离线分析和实时ETL)
Spark2
.x企业级大数据项目实战(实时统计、离线分析和实时ETL)全套课程下载:https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg提取码:9n1x本门课程来源于一线生产项目
weixin_34391854
·
2020-06-28 18:19
Spark2
.0流式处理读Kafka并写ES
2019独角兽企业重金招聘Python工程师标准>>>maven依赖:org.apache.sparkspark-core_2.112.1.0providedorg.apache.sparkspark-streaming_2.112.1.0providedorg.apache.sparkspark-sql_2.112.1.0providedorg.apache.sparkspark-streami
weixin_34258078
·
2020-06-28 15:38
大数据平台CDH6.1.0 安装配置
cloudera-manager安装一:关于CDH6.1.0的介绍Cloudera在前天12月19日,对外宣布正式发布ClouderaEnterprise6.1包含大数据生态版本如下:1.组件版本:Kafka2.0,
Spark2
weixin_34195546
·
2020-06-28 13:52
Spark2
.x写入Elasticsearch的性能测试
为什么80%的码农都做不了架构师?>>>一、Spark集成ElasticSearch的设计动机ElasticSearch毫秒级的查询响应时间还是很惊艳的。其优点有:1.优秀的全文检索能力2.高效的列式存储与查询能力3.数据分布式存储(Shard分片)相应的也存在一些缺点:1.缺乏优秀的SQL支持2.缺乏水平扩展的Reduce(Merge)能力,现阶段的实现局限在单机3.JSON格式的查询语言,缺乏
weixin_34130269
·
2020-06-28 12:44
干货 | 5本大数据与机器学习书籍以及算法视频教程推荐,附下载~
1、《白话大数据与机器学习》2、《机器学习web应用》3、《Spark机器学习》4、《Python+
Spark2
.0+Hadoop机器学习与大数据实践》5、《机器学习周志华》机器学习是计算机科学与人工智能的重要分支领域
weixin_33686714
·
2020-06-28 03:03
idea_pyspark 环境配置
1、配置好Hadoop和
spark2
、配置好Pytho3.53、安装py4jpip3installpy4j4、idea中添加Python插件file->setting->editor->plugins右边搜索框中搜索
weixin_30919571
·
2020-06-28 02:49
在Java应用中通过SparkLauncher启动Spark任务
本博客内容基于
Spark2
.2版本,在阅读文章并想实际操作前,请确保你有:一台配置好Spark和yarn的服务器支持正常spark-submit--masteryarnxxxx的任务提交老版本老版本任务提交是基于启动本地进程
weixin_30878361
·
2020-06-28 01:36
新闻网大数据实时分析可视化系统项目——16、
Spark2
.X集群运行模式
1.几种运行模式介绍Spark几种运行模式:1)Local2)Standalone3)Yarn4)Mesos下载IDEA并安装,可以百度一下免费文档。2.sparkStandalone模式配置并测试1)jdk1.8已经安装2)scala2.11.8已经安装3)Hadoop2.5.0已经安装4)安装SparkStandalonea)配置slavevislavesbigdata-pro01.kfk.c
weixin_30709061
·
2020-06-27 23:01
[spark]-
Spark2
.x集群搭建与参数详解
在前面的Spark发展历程和基本概念中介绍了Spark的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的。我们可以了解到每个参数配置的作用是什么。这里将详细介绍Spark集群搭建以及xml参数配置。Spark的集群搭建分为分布式与伪分布式,分布式主要是与hadoopYarn集群配合使用,伪分布式主要是单独使用作为测试。Spark完全分布式搭建由于Hadoop和Spark集群占用的内存较高
weixin_30642267
·
2020-06-27 22:29
Spark练习册
Spark练习pyspark=>
Spark2
.4,local编写框架frompysparkimportSparkConf,SparkContext#创建SparkConf:设置的是Spark相关参数信息
weixin_30569033
·
2020-06-27 21:17
web日志采集实战
占比达到70%左右).先来看一下整体的流程图:应用服务器搭建安装nginx,修改配置文件(/etc/nginx/conf.d/default.conf)server{listen80;server_name
spark2
weixin_30432007
·
2020-06-27 19:44
使用Spark ML进行数据分析
Spark版本:2.4.0语言:Scala任务:分类这里对数据的处理步骤如下:载入数据归一化PCA降维划分训练/测试集线性SVM分类验证精度输出cvs格式的结果前言从
Spark2
.0开始,Spark机器学习
涛O_O
·
2020-06-27 11:40
机器学习
上一页
18
19
20
21
22
23
24
25
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他