E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
Spark 内存管理详解
本文中阐述的原理基于
Spark2
.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。在执行
Alukar
·
2019-11-03 16:50
spark on mesos Coarse Mode 调度模式的改变
在
spark2
.0以前,sparkonmesos粗粒度模式中,一个application不支持在一个slave上启动多个executor,因此会造成资源(cpu,memory)浪费的问题。
breeze_lsw
·
2019-11-03 14:42
spark2
.2.1 shuffle过程map端不聚合过程分析
在之前的分析中,if分支很多,不利于思考,我们这里单纯的考虑map端不聚合的情况那么去除第一个if语句,sorter就确定下来了sorter=newExternalSorter[K,V,V](context,aggregator=None,Some(dep.partitioner),ordering=None,dep.serializer)然后我们再看下一句sorter.insertAll(rec
HUAWEIMate20
·
2019-11-03 01:32
spark2
.3 加载postgresql数据 java.sql.SQLException: No suitable driver
项目中
spark2
.3加载postgresql数据java.sql.SQLException:Nosuitabledriver项目中
spark2
.3加载postgresql数据时报错java.sql.SQLException
秋风暮霞挽红曲_5f60
·
2019-11-02 14:35
Spark Task 的执行流程① - 分配 tasks 给 executors
本文为
Spark2
.0版本的源码分析,其他版本可能会有所不同TaskScheduler作为资源调度器的一个重要职责就在:集群可用资源发生变化(比如有新增的executor,有executorlost等)
牛肉圆粉不加葱
·
2019-11-01 20:26
Spark2
.2.0源码阅读-stage提交
之前介绍了stage的划分,还是从这个地方开始DAGSchedulerprivate[scheduler]defhandleMapStageSubmitted(jobId:Int,dependency:ShuffleDependency[_,_,_],callSite:CallSite,listener:JobListener,properties:Properties){//Submitting
pcqlegend
·
2019-11-01 05:27
PY => Ubuntu-Hadoop-YARN-HDFS-Spark安装配置
官方建议环境条件Java8Python2.7+/3.4+Scala2.12
Spark2
.4.4R3.1+(可以不安装)安装Java先验传送门:https://segmentfault.com/a/11.
Cython_lin
·
2019-10-31 09:38
hdfs
hadoop
yarn
python
spark
Spark Shuffle(ExternalSorter)
1、Shuffle流程spark的shuffle过程如下图所示,和mapreduce中的类似,但在
spark2
.0及之后的版本中只存在SortShuffleManager而将原来的HashShuffleManager
觉悟吧骚年
·
2019-10-31 09:46
完全修改Linux用户名
特此来记录一下在linux上直接改名字是不行彻底的,还要对用户的家目录、UID、组名都要进行修改如果我们要将用户名为spark的主机修改为hadoop1.更改用户名sudousermod-lhadoop
spark2
OYmaster
·
2019-10-22 20:03
Linux
Linux
scala学习--方法与函数
Spark2
.0版本以上使用是Scala2.11版本。
小鸡
·
2019-10-21 02:04
scala
解决modulenotfounderror: no module named 'resource' &&Python worker failed to connect back
如果你也是
spark2
.4.0,那么在windows系统上肯定会出现该错误。
Solarzhou
·
2019-10-20 22:56
spark
大数据
伐木累
SparkStreaming整合Flume的pull报错解决方案
先说下版本情况:
Spark2
.4.3Scala2.11.12Flume-1.6.0Flume配置文件:simple-agent.sources=netcat-sourcesimple-agent.sinks
彪悍大蓝猫
·
2019-10-17 03:50
spark
SparkStreaming整合Flume的pull报错解决方案
先说下版本情况:
Spark2
.4.3Scala2.11.12Flume-1.6.0Flume配置文件:simple-agent.sources=netcat-sourcesimple-agent.sinks
彪悍大蓝猫
·
2019-10-16 17:00
Linkis简单版安装教程
遇到问题,可参看我的另一篇博客“linkis和scripts使用中遇到问题解决办法”Linkis安装教程:软件准备:①wedatasphere-linkis-0.9.0-dist-
spark2
.1.tar.gzhttps
渡月桥
·
2019-10-16 14:18
linkis
大数据
安装
MySQL_docker
Spark2
的序列化(JavaSerializer/KryoSerializer)
环境JDK1.8.0Scala2.11.8
Spark2
.1.2Oozie4.1Hue3.9简单说明官方文档:DataSerializationspark默认的序列化器是JavaSerializer,能够支持所有对象自动的序列化
walker
·
2019-10-15 05:32
spark
java
kryo
Oozie(HUE) 调度
Spark2
环境JDK1.8.0Scala 2.11.8Spark 2.1.2Oozie4.1Hue3.9yarnlocal模式进入Workspace进入lib目录,并上传jar和配置文件拖拽SparkProgram选择刚才的lib目录填入jar名称,点击add确认填写业务主类名称,并配置参数点击小齿轮,查看其他参数保存配置提交运行yarncluster模式进入Workspace进入lib目录,并上传jar和
walker
·
2019-10-15 05:45
java
python
spark
Spark 使用 Redisson 读写 Redis 集群遇到的相关问题及解决办法
遇到的相关问题问题一:由于
Spark2
环境使用的netty-all-4.0.43.Final.jar与redisson中的netty-all-4.1.41.Final.jar冲突,直接将redisson
storm_fury
·
2019-10-14 14:55
Spark
Redisson
java.io.IOException: Failed to delete: C:\Users\dell\AppData\Local\Temp\spark- in windows
实验环境windows10
spark2
.4Scala2.11.12问题描述\sbtSpark1_jar>spark-submit--classcom.spark.WordCount.WordCountsbtSpark
Solarzhou
·
2019-10-14 14:36
大数据
spark
windows
大数据
Spark无法读取hive 3.x的表数据
通过Ambari2.7.3安装HDP3.1.0成功之后,通过sparksql去查询hive表的数据发现竟然无法查询HDP3.0集成了hive3.0和
spark2
.3,然而spark却读取不了hive表的数据
鹏飞万丈
·
2019-10-14 11:00
在Windows平台安装Hadoop&&idea调试spark程序
实验环境windows10;idea2019.1.3scala-sdk-2.11.0jdk1.8.0_201hadoop-2.7.1
spark2
.4.3下载安装包由于hadoop依赖于jdk,所以需要先安装配置
Solarzhou
·
2019-10-12 20:36
大数据
Spark2
.X ML中Pipeline详解、特征转换和决策树分类算法的使用
Spark中有关机器学习的库已经在从MLlib往ML逐步迁移了,MLlib库也将在Spark3.0后停止维护,所以我们需要尽快熟悉ML库。在SparkML库中,核心数据对象由RDD变为了DataFrame,同时,ML库中有一些特征转换的方法,并提供了Pipeline这一工具,可以使用户很方便的将对数据的不同处理组合起来,一次运行,从而使整个机器学习过程变得更加易用、简洁、规范和高效。本文将介绍使用
那记忆微凉
·
2019-10-12 15:07
Spark
升级 spark 2.4问题:Spark Streaming日志级别设置,最小堆内存设置
一、内存问题1、旧集群spark1.6.1jdk1.7或1.8jvm堆内存分配,直接分配的为driver申请的内存(最大、最小堆内存相等)2、新集群
spark2
.4.1jdk1.8jvm堆内存分配,刚开始分比较小的内存
灵佑666
·
2019-10-07 17:11
Spark
SparkSession与SparkContext SparkConf SQLContext HiveContext StreamingContext
SparkSession-Spark的一个全新的切入点SparkSession是
Spark2
.0引如的新概念。SparkSe
dufufd
·
2019-09-26 18:06
Spark
2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》 畅销书籍 清华大学出版社发行上市!
本书基于
Spark2
.2.0新版本,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,以Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析
段智华
·
2019-09-26 18:47
出版书籍
AI
&
Big
Data案例实战课程
使用Spark 2.2.1 + Kudu 1.5.0 操作Kudu大数据系统
使用
Spark2
.2.1+Kudu1.5.0操作Kudu大数据系统Kudu的版本查询:(https://www.cloudera.com/documentation/enterprise/release-notes
段智华
·
2019-09-26 18:15
AI
&
Big
Data案例实战课程
SPARK 2.2.1 SQL处理各种数据源的案例与解读
SPARK2
.2.1SQL处理各种数据源的案例与解读由于集团下的各个子公司在数据集成之前,使用数据有多种格式,因此需要支持多种数据来源的处理,将各个子公司的不同数据源集成到集团统一的大数据平台下。
段智华
·
2019-09-26 18:12
AI
&
Big
Data案例实战课程
Spark 2.2.1 使用JDBC 操作其他数据库的案例与解读
Spark2
.2.1使用JDBC操作其他数据库的案例与解读SparkSQL包括一个数据源,可以从其他数据库使用JDBC读取数据。这个功能优先于使用JdbcRDD。
段智华
·
2019-09-26 18:32
AI
&
Big
Data案例实战课程
Hadoop MapReduce Spark 配置项
适用范围本文涉及到的配置项主要针对Hadoop2.x,
Spark2
.x。
walker
·
2019-09-23 06:59
mapreduce
rdd
spark
hadoop
java
Spark、BulkLoad Hbase、单列、多列
现在要用
spark2
.3.2和hbase2.0.2来实现相应的功能;本以为会很简单,两个框架经过大版本的升级,API变化很大;官网的案例其实有点难实现,且网上的
lillcol
·
2019-09-18 15:00
[转]大数据环境搭建步骤详解(Hadoop,Hive,Zookeeper,Kafka,Flume,Hbase,Spark等安装与配置)
article/details/85313410大数据环境安装和配置(Hadoop2.7.7,Hive2.3.4,Zookeeper3.4.10,Kafka2.1.0,Flume1.8.0,Hbase2.1.1,
Spark2
.4.0
JackieZhengChina
·
2019-09-16 09:45
Hadoop
Hive
Zookeeper
Kafka
Flume
机器学习
大数据
Spark SQL操作之-函数汇总篇-下
SparkSQL操作之-自定义函数篇-下环境说明自定义函数分类用户自定义函数(UDF)用户自定义聚合函数(UDAF)环境说明1.JDK1.82.
Spark2
.1自定义函数分类不同的业务需要不同的处理函数
野男孩
·
2019-09-12 22:05
大数据
Spark
spark-sql
dataset
Spark
SQL专栏
spark2
.x读取csv文件
spark2
.x读取csv文件,写入到文件系统中(例如hdfss3或者本地)println("day:::"+day)ss.read.format("csv").option("header","true
功夫老五
·
2019-09-10 15:03
spark
Spark2
.3.0解决Exception in thread "main" java.lang.IllegalArgumentException: Illegal pattern component
原文链接:
Spark2
.3.0解决Exceptioninthread“main”java.lang.IllegalArgumentException:Illegalpatterncomponent:XXX
袁一白
·
2019-09-04 15:53
bigdata
windows下安装pyspark
Path中添加%JAVA_HOME%\bin配置完毕,打开cmd,执行java-versionScala安装配置Scaladownload下载对应scala版本【注意:Scala1.6.2版本只能使用
Spark2
.10
ninglu1989
·
2019-09-04 09:30
pyspark
spark sqlcontext 读取json 文件
sqlcontext.read().json("path")读取时候报错如下:Exceptioninthread"main"org.apache.spark.sql.AnalysisException:Since
Spark2
.3
H.King
·
2019-09-01 15:54
spark-sql
案例为王,实战为主,基于
spark2
.x机器学习十大案例全方位剖析
课程下载地址:https://pan.baidu.com/s/1LuffQVoVjJjDkN3jT2TfQA提取码:ytyc本课程主要讲解SparkMLlib,SparkMLlib是一种高效、快速、可扩展的分布式计算框架;实现了常用的机器学习,如:聚类、分类、回归等算法。本课拒绝枯燥的讲述,将循序渐进从Spark的基础知识、矩阵向量的基础知识开始,然后再透彻讲解各个算法的理论、详细展示Spark源
qq5d5a5a39ddd7c
·
2019-08-30 15:06
机器学习
Windows上IDEA搭建最新
Spark2
.4.3源码阅读及调试的开发环境
本篇就来介绍下如何在Windows下,将最新版的
Spark2
.4.3编译,并导入到IDEA编译器中。最后通过在IDEA运行Spark自带的一共Example代码结尾。
zzzzMing
·
2019-08-28 18:00
Spark Streaming checkpoint技术初探
本文基于
spark2
.4.3版本CheckpointingGettingStarted如何使用SS的checkpoint,下面是官方的样例,本文就从这个样例说起//FunctiontocreateandsetupanewStreamingContextdeffunctionToCreateContext
Woople
·
2019-08-28 14:45
Spark Streaming checkpoint技术初探
本文基于
spark2
.4.3版本CheckpointingGettingStarted如何使用SS的checkpoint,下面是官方的样例,本文就从这个样例说起//FunctiontocreateandsetupanewStreamingContextdeffunctionToCreateContext
Woople
·
2019-08-28 14:45
大数据篇:oozie与
spark2
整合进行资源调度
文章目录1.oozie资源调度1.1oozie概览1.2oozie与
spark2
整合1.2.1oozie添加
spark2
依赖库1.2.2打包与提交
spark2
jar,创建
spark2
工作流1.2.3管理与查看工作流相关状态
杨铖
·
2019-08-24 10:46
大数据篇
Spark2
.4-----JVM 内存不足
1、虚拟机配置物理内存:3G磁盘大小:100G2、使用hive插入事务表提示内存不足如下DiagnosticMessagesforthisTask:[2019-08-2014:10:13.903]Container[pid=33009,containerID=container_1566276450532_0003_01_000018]isrunning337144320Bbeyondthe'VI
concealed0
·
2019-08-22 23:10
Hadoop小操作
cdh集群的
spark2
和jupyter集成
1.前提1.1、
spark2
已经安装好,在shell可以正常使用py
spark2
1.2、jupyter已经安装好,可以正常启动使用python32.集成2.1、在cm页面添加spark和jupyter的关联
kyle0349
·
2019-08-18 16:20
python3
组件安装
spark2
CDH5.14安装
spark2
cdh5.14默认自带的spark版本是1.6的,如果需要使用
spark2
,那么需要另外安装。
kyle0349
·
2019-08-18 13:20
cdh
组件安装
spark2
大数据学习笔记之Spark(一):Spark基础解析
文章目录第1章Spark概述spark的产生背景1.1什么是Spark1.2Spark特点1.3Spark的用户和用途第2章Spark集群安装2.1集群角色2.2机器准备2.3下载Spark安装包2.4配置
Spark2
.5
Leesin Dong
·
2019-08-13 08:06
Big
Data
Cloud
Technology❤️
#
BigData
------
Spark
【DataWhale-Spark】2.1-Linux虚拟机部署Spark
在不考虑集群的情况下,有三种部署方式:1.Window:在已安装JDK8+的环境下,只需到Spark官网下载,解压,到bin目录下执行spark-shell.cmd即可运行
Spark2
.Linux+Spark
Damionew
·
2019-08-09 13:17
Docker
Spark
【DataWhale-Spark】2.1-Linux虚拟机部署Spark
在不考虑集群的情况下,有三种部署方式:1.Window:在已安装JDK8+的环境下,只需到Spark官网下载,解压,到bin目录下执行spark-shell.cmd即可运行
Spark2
.Linux+Spark
Damionew
·
2019-08-09 13:17
Docker
Spark
Spark SQL中出现 CROSS JOIN 问题解决
SparkSQL中出现CROSSJOIN问题解决1、问题显示如下所示:UsetheCROSSJOINsyntaxtoallowcartesianproductsbetweentheserelation2、原因:
Spark2
鸿燕藏锋
·
2019-08-09 12:39
Python
Spark
Spark项目实战学习电商项目
该项目源码中是用Java开发的,分析计算多用的是sparkcore,我在实践这个项目的时候,
spark2
.x已有了,性能应该比1有提升,所以关于spark部分我基本用的都是SparkSql,并且用scala
maozicb
·
2019-08-09 08:32
Spark2
.4.0和Scala2.11集成Kudu1.8.0遇到的坑
最近做实时数仓用到了sparkstreaming和kudu两个组件,因为资料少得可怜,折腾了一番终于是搞定了,在这里记录下期间遇到的坑先通过Impala建张Kudu表createtablekudu_appbind_test(md5string,useridstring,datetime_string,time_string,cardnostring,flagstring,cardtypestrin
lzw2016
·
2019-08-08 16:43
Hadoop及Spark学习
#
Learning
Spark
spark2
.3源码分析之RDD的persist流程
概述当根据存储级别缓存RDD时,其实是将RDD数据存储到BlockManager的memoryStore和diskStore。memoryStore最终是通过调用UnifiedMemoryManager#acquireStorageMemory()方法分配storagememory,所以缓存RDD到内存使用的是storagememory的内存。cache()方法时最终调用的是persist(Sto
zhifeng687
·
2019-07-31 15:09
spark
上一页
25
26
27
28
29
30
31
32
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他