E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
Spark相关文章索引(2)
基本常识
Spark2
.0时代全面到来——2.0.1版本发布Spark生态系统中的图数据分析知识算法架构Spark任务调度流程及调度策略分析Sparkrdd转换过程Spark计算过程分析可靠保证华为叶琪:
司小幽
·
2020-02-19 04:13
Spark2
.0.0.+hadoop2.7.3
参考:http://blog.csdn.net/gamer_gyt/article/details/52045663hadoop2.7.3yarn模式已经搭建完成.hadoop安装目录:/home/hadoop/hadoop-2.7.3java目录:/home/java/jdk1.8.0_102节点状况:10.0.0.172master17210.0.0.171slave17110.0.0.185
观星
·
2020-02-19 03:39
CDH 5.13安装
spark2
这里需要将spark升级到
spark2
.x版本,以方便使用spark程序读取kafka0.10.x的数据。根据官网上的介绍可知CDH5.13是支持
spark2
.x的。
bigdata_er
·
2020-02-18 01:36
深入理解Spark 2.1 Core (四):运算结果处理和容错的原理与源码分析
在上一篇博文《深入理解
Spark2
.1Core(三):任务调度器的实现与源码分析》TaskScheduler在发送任务给executor前的工作就全部完成了。
小爷Souljoy
·
2020-02-16 17:20
Spark相关文章索引(3)
环境部署
Spark2
.1.0的Standalone模式部署基本常识spark中的rdd的持久化Spark入门实战系列--9.Spark图计算GraphX介绍及实例《Spark官方文档》SparkSQL,
司小幽
·
2020-02-14 17:35
python大数据测试学习总结
最近,工作中要测试数据加工结果表和原表,原先没接触过这块的知识,学习总结下相关知识和概念:1.环境安装Java(JDK8),python3.6.5,pycharm,idea,py
spark2
.jpuyter
pei-金秋十月
·
2020-02-13 17:00
Spark、BulkLoad Hbase、单列、多列
现在要用
spark2
.3.2和hbase2.0.2来实现相应的功能;本以为会很简单,两个框架经过大版本的升级,API变化很大;官网的案例其实有点难实现,且网上的
利伊奥克儿
·
2020-02-13 14:36
Spark学习笔记 (二)
Spark2
.3 HA集群的分布式安装图文详解
本文实例讲述了
Spark2
.3HA集群的分布式安装。
扎心了,老铁
·
2020-02-13 12:56
xmpp
xmpp学习下载:Openfire服务器:Openfire4.0.2客户端:
Spark2
.7.7安装Openfire安装:根据提示一直下一步,服务器域名设置为:localhost(ps:如果使用gloox
赤龙绕月
·
2020-02-13 03:08
CDH安装
spark2
Spark2
安装官方也提供了
spark2
的升级包,在CDH中spark1和
spark2
可以共存,但是由于scala版本的兼容性问题,建议只装一个版本。
nightwish夜愿
·
2020-02-11 15:23
Apache Spark 简介
Spark是啥Apache
Spark2
.2.0isafastandgeneralengineforlarge-scaledataprocessing.Spark有多快Runprogramsupto100xfasterthanHadoopMapReduceinmemory
旺达丨
·
2020-02-11 12:39
搭建spark集群
tidb1.0开始支持spark,有个组件tiSpark,不过目前只支持
spark2
.1版本。所以为了启用tiSpark,还需搭建spark集群。
darkranger
·
2020-02-10 10:52
Spark Task 内存管理(on-heap&off-heap)
本文为
Spark2
.0源码分析,其他版本可能会有所不同在之前的文章中(Spark新旧内存管理方案(上)及Spark新旧内存管理方案(下)),我从粗粒度上对Spark内存管理进行了剖析,但我们依然会有类似这样的疑问
牛肉圆粉不加葱
·
2020-02-09 15:23
寒假日报day14
sparkhttp://spark.apache.org/downloads.html条件:安装成功截图:启动sparkshell,获取spark版本启动命令:1.进入相应的目录:cd/usr/local/
spark2
masuo
·
2020-02-07 17:00
大数据系列:Spark学习笔记
1.关于
Spark2
009年,spark诞生于伯克利大学的amplab。最重要的是,spark只是一个实验项目,只包含很少的代码,属于轻量级框架。2010年,伯克利大学正式启动了Spark项目。
yiyidsj
·
2020-02-07 16:39
大数据
人工智能
互联网
Spark
大数据
大数据开发
大数据分析
大数据学习
pyspark与机器学习
一、基础操作1、sparksession(1)创建SparkSessionSparkSession是
Spark2
.0引如的新概念。SparkSession为用户提
巴拉巴拉_9515
·
2020-02-07 07:53
HDP2.5上尝鲜
Spark2
.1稳定版
HDP2.5不仅支持Spark1.6.2,还推出了
Spark2
.0的预览版。在近期Spark社区又发布了
Spark2
.1正式版。
biggeng
·
2020-02-05 03:28
Effective PySpark(PySpark 常见问题)
下载
spark2
.2.0,然后解压到特定目录,设置SPARK_HOME即可。其实如果通过spark-submit提交程序,并不会需要额外安装pyspark,这里通过pip安装的主
祝威廉
·
2020-02-05 00:37
Log4j整合Flume
1.环境CDH5.16.1
Spark2
.3.0cloudera4Kafka2.1.0+kafka4.0.02.Log4j——>Flume2.1Log4j产生日志importorg.apache.log4j.Logger
大数据小码农
·
2020-02-03 23:00
spark与Scala版本对应问题
在安装时,我们可以在spark的官网中查到对应的Scala版本号,如
spark2
.4.4中对应的版本号为Scala2.11spark官网:http://spark.apache.org/downloads.html
李旭2018
·
2020-02-03 22:00
SparkStreaming(二)--SparkStreaming整合Kafka
1.环境CDH5.16.1
Spark2
.3.0.Cloudera42.SparkStreaming整合Kafka地址:http://spark.apache.org/docs/2.3.0/streaming-kafka-integration.html
大数据小码农
·
2020-02-02 23:00
SparkStreaming(一)--核心概念及算子
1.环境CDH5.16.1
Spark2
.3.0.cloudera42.核心概念官网:https://spark.apache.org/docs/2.3.0/streaming-programming-guide.htmlGitHub
大数据小码农
·
2020-02-02 22:00
利用Kryo序列化库是你提升Spark性能要做的第一件事
本文基于
Spark2
.1.0版本套用官文TuningSpark中的一句话作为文章的标题:*Often,chooseaserializationtypewillbethefirstthingyoushouldtunetooptimizeaSparkapplication
俺是亮哥
·
2020-02-02 07:04
spark2
分布式数据集编辑Spark围绕的核心概念,是弹性分布式数据集(RDD),一个有容错机制,可以被并行操作的集合。目前有两种类型的RDD:并行集合(ParrallelizedCollections),接收一个已经存在的Scala集合,在它上面运行各种并发计算;Hadoop数据集(HadoopDataSets),在一个文件的每条记录上,运行各种函数。只要文件系统是Hdfs,或者hadoop支持的任意存储
20173667
·
2020-02-01 22:00
大数据手册(Spark)--Spark机器学习(PySpark版)
从
Spark2
.0开始,ML是主要的
WilenWu
·
2020-01-09 16:34
大数据(Big
Data)
数据分析(Data
Analysis)
在Apache Spark 2.0中使用DataFrames和SQL (转载)
在Apache
Spark2
.0中使用DataFrames和SQL时间2017-05-2710:15:16百度VR原文http://ivr.baidu.com/it/s5928fa3babbb.html主题
行舟2009
·
2020-01-08 11:57
【2018-04-10】【2.1.1】spark sql操作mysql和hdfs
spark2
.X与1.x的区别sparksql2.x以上版本和1.x版本有个很大的区别:spark1.x的sqlContext在
spark2
.0中被整合到sparkSession,故而利用spark-shell
jackLee
·
2020-01-07 04:45
spark大数据架构初学入门基础详解
离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)特点:i.一站式:一个技术堆栈解决大数据领域的计算问题ii.基于内存d)
Spark2
009
Alukar
·
2020-01-06 21:49
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理
本文由「AI前线」原创,原文链接:
Spark2
.3重磅发布:欲与Flink争高下,引入持续流处理策划编辑|Natalie作者|SameerAgarwal,XiaoLi,ReynoldXin,JulesDamji
AI前线
·
2020-01-05 11:11
Hadoop2.7.3完全分布式(虚拟机)
jdk1.8+Hadoop2.7.3+
Spark2
.2.0+Scala2.11.8hadoop2.7之后的tar.gz包都是64位的1clone之前1.1安装vmware,安装centos7网络连接选host-onlycentos7
tjkt24
·
2020-01-05 03:29
Spark-内存管理调优
spark2
.0+内存模型
spark2
.0+内存模型调优内存使用时需要考虑三个因素:对象使用的内存数量(您可能希望您的整个数据集都能装入内存);访问这些对象的成本垃圾收集的开销(如果对象的周转率很高)。
利伊奥克儿
·
2020-01-04 16:26
Spark Graphx分析豆瓣用户及小组
对这些数据构图2.将这个图进行可视化3.对用户进行画像分析,找出他的兴趣标签环境搭建首先需要搭建Spark,如果需要yarn进行可视化管理的话还需要安装Hadoop,这里我安装的是Hadoop2.7.4+
Spark2
.2.0CentOS7
questionuncle
·
2020-01-04 04:10
Apache Spark 内存管理详解
本文中阐述的原理基于
Spark2
.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。在执行
尼小摩
·
2020-01-04 03:52
centos7搭建yarn模式的spark完全分布式集群
版本要求:我的版本是centos7操作系统,Hadoop-2.5.2,jdk1.8,scala2.11.8,
spark2
.1.0搭建hadoop-2.5.2完全分布式集群https://www.jianshu.com
臻霏
·
2020-01-03 11:04
为Spark Application指定不同的JDK版本
Spark2
.2开始移除了对Java7的支持,大多数情况下,我们的SparkApplication是和Hadoop系统公用的JDK,如果Hadoop
StanZhai
·
2020-01-03 06:36
每日一读 12.08
spark2
sql读取json文件的格式要求http://www.aboutyun.com/forum.php?
Vicor
·
2020-01-03 03:45
Spark之殇
之前
Spark2
.0刚发布不久后的第一个小版本,StructuredStreaming终于支持Kafka了,但是只支持Kafka1.0而不支持Kafka0.8。
祝威廉
·
2020-01-01 23:34
4.Apache Spark的工作原理
ApacheSpark的工作原理1WhyApache
Spark2
关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark
全能程序猿
·
2020-01-01 06:49
spark on yarn部署
软件版本
spark2
.0.22.6.0-cdh5.9.0一.编译参考官网配置即可:http://spark.apache.org/docs/latest/running-on-yarn.html下载
spark2
.0.2
breeze_lsw
·
2020-01-01 02:20
184、Spark 2.0之Spark 2.x与1.x对比以及分析
Spark2
.x与1.x对比Spark1.x:SparkCore(RDD)、SparkSQL(SQL+Dataframe+Dataset)、SparkStreaming、SparkMLlib、SparkGraphx
Spark2
ZFH__ZJ
·
2019-12-31 21:48
RDD、DataFrame和DataSet的区别
spark2
.X开始,三者的关系发生了变化,可以参考《且谈ApacheSpark的API三剑客:RDD、DataFrame和Dataset》,在2.X中DataFrame=DataSet[Row],其实是不知道类型
jacksu在简书
·
2019-12-31 05:40
2.安装Apache Spark 2.1
前言:cloudera自带的Spark版本较低,通过ApacheSpark官网下载并安装
Spark2
.1版本,分为单机和集群两种安装部署方式。
逆流而上kiss
·
2019-12-30 20:44
Spark 2.3新特性
MajorFeatureson
Spark2
.3FeaturesStructuredStreamingStreamingContinuousProcessingExecutionMode相比较之前的StructuredStreaming
丹之
·
2019-12-30 18:15
WaterDrop 系列报错
1.使用WaterDrop从kafka中消费数据,写入到ClickHouse1.1环境
SPARK2
-2.3.0.cloudera4-1.cdh5.13.3.p0.611179clickhouse-1.1.54236
大数据小码农
·
2019-12-30 18:00
PySpark 2.0 SparkSession, DataFrame
TODODataFrameReadandWriteDataFrameWhatnewin
Spark2
.0Officialreleasenote:https://spark.apache.org/releases
abrocod
·
2019-12-30 01:20
翻译:Apache Spark : RDD vs DataFrame vs Dataset
在
Spark2
.0Release中,官方提供了3种数据抽象结构供使用:RDD,DataFrameandDataSet。对于新手来说,可能会对理解三种结构间的关系和决定使用不使用哪一种感到迷惑。
orisonchan
·
2019-12-30 00:34
IDEA开发Spark应用并提交本地Spark 2.1.0 standalone集群运行
写在2017年10月3日凌晨0点57分:最初这篇博文的名字是“IDEA开发Spark应用并提交远程
Spark2
.1.0standalone集群运行”,当时以不能SSH免密码登
就是杨宗
·
2019-12-29 18:31
spark2
.0集群安装
ApacheSpark是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark最大的特点就是快,可比HadoopMapReduce的处理速度快100倍。本文使用一台电脑上构建多个虚拟机的方法来模拟集群。1.安装Hadoop并搭建好Hadoop集群环境Spark分布式集群的安装环境,需要事先配置好Hadoop的分布式集群环境。如果没有配置好Hadoop的分布式集群环境,Hadoop2.7分
hz82114280
·
2019-12-28 18:33
Spark Shuffle 模块③ - Sort Based Shuffle write
SparkShuffle模块③-SortBasedShufflewrite本文为
Spark2
.0源码剖析,其他版本可能有所不同自Spark1.2起,SortBasedShuffle替代HashBasedShuffle
牛肉圆粉不加葱
·
2019-12-27 13:25
Spark 操作hbase(构建一个支持更新和快速检索的数据库)
组件如下:1.
Spark2
.02.hbase1.23.hadoop2.6因而提出以下几个问题:1.如何使用Spark大批量地、快速地导入初始化数据?2.如何从Hbase快速地、大批量地查询数据?
阿海与蜗牛
·
2019-12-27 04:56
上一页
23
24
25
26
27
28
29
30
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他