E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark基础
Spark使用总结与分享
Spark基础
基石RDDspark的核心是RDD(弹性分布式数据集),一种通用的数据抽象,封装了基础的数据操作,如map,filter,r
weixin_34245169
·
2020-07-28 19:27
《深入理解Spark:核心思想与源码分析》——导读
华章社区”公众号查看目录前言准备篇第1章环境准备1.1运行环境准备1.2Spark初体验1.3阅读环境准备1.4Spark源码编译与调试1.5小结第2章Spark设计理念与基本架构2.1初识Spark2.2
Spark
weixin_33948416
·
2020-07-28 18:42
spark基础
调优
本文仅涉及基础代码等设置调优,更深入的还请大家指出~~1.RDD调配对象优化手段RDD、DF、DS对于同一数据源只创建一次,尽量多次使用错误示范:valnewRDD1=spark.read.csc("/helloworld")valnewRDD2=spark.read.csc("/helloworld")//以上的同一RDD创建两次,资源浪费2.持久化多次使用RDD对象优化手段RDD、DF、DS多
寻寻尼尼
·
2020-07-28 08:18
spark
spark
调优
优化
大数据Saprk----
Spark基础
--Scala的组合和继承
firstCodec**publicclassFriend{publicstaticvoidmain(String[]args){System.out.println("BigData加QQ群:947967114");}}**1、布局类库本章我们的学习目的是构建和渲染二维布局元素的类库。每个元素表示用文本填充的长方形。首先需要提供一个elem的工厂方法。可以用下面这个标签的工厂方法创建一个包含字符
爱码-947967114
·
2020-07-28 08:51
大数据
Spark基础
知识学习分享
一、
Spark基础
知识梳理1.Spark是什么?Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。
蓝天的IT生涯
·
2020-07-28 01:23
spark
[
Spark基础
]-- spark rdd collect操作官方解释
官方原文如下PrintingelementsofanRDDAnothercommonidiomisattemptingtoprintouttheelementsofanRDDusingrdd.foreach(println)orrdd.map(println).Onasinglemachine,thiswillgeneratetheexpectedoutputandprintalltheRDD’s
highfei2011
·
2020-07-27 23:45
Spark
面试
Spark
sparkspark大数据处理类型spark生态圈
spark基础
概念spark运行流程RDDRDD依赖关系stage划分RDD运行过程spark部署SparkAPI实践spark基于内存计算的大数据并行计算框架
MP-214
·
2020-07-27 14:41
大数据
python
Spark基础
--Rdds Transformation
@Rddtransformation对于Rdd的基本操作RddfloatMap,map,filter准备数据集importfindsparkfindspark.init()frompysparkimportSparkConf,SparkContext,RDD#创建conf和scconf=SparkConf().setAppName('myApp').setMaster('local')sc=Spa
Jensen.X
·
2020-07-14 19:23
python
spark
python
spark
RDDs
Spark分布式环境搭建
Spark从菜鸟到入门Spark初体验——wordcount词频统计
Spark基础
知识学习Spark单机版环境搭建Spark源码学习Spark分布式环境搭建Spark基准测试平台BigDataBench
五环旗
·
2020-07-14 17:17
Spark
Spark基准测试平台BigDataBench使用教程
【Spark从菜鸟到入门】Spark初体验——wordcount词频统计
Spark基础
知识学习Spark单机版环境搭建Spark源码学习Spark分布式环境搭建Spark基准测试平台BigDataBench
五环旗
·
2020-07-14 17:45
Spark
Spark基础
:如何遍历dataframe
#coding:utf-8frompysparkimportSparkConf,SparkContextfrompyspark.sqlimportHiveContextimportdatetimeimportsysreload(sys)sys.setdefaultencoding('utf-8')#初始化conf=SparkConf().setAppName("genUserDescWords")
DannyHau
·
2020-07-14 15:55
spark
某《Spark机器学习班》最新
第一阶段
Spark基础
入门第1课Spark系统概述与编程接口知识点1:Spark系统概述知识点2:SparkRDD分区及依赖关系知识点3:RDDAPI-transformation、action实战项目
ξς
·
2020-07-14 06:58
Spark基础
知识
欢迎访问博客新址:http://blog.xuezhisd.top
Spark基础
知识什么是SparkSpark是UCBerkeleyAMPlab所开源的类似HadoopMapReduce的通用的并行计算框架
xuezhisdc
·
2020-07-10 13:26
Spark基础
环境搭建——local本地模式
这篇博客,为大家带来的是关于Spark的环境搭建。Spark环境搭建提前声明:1.我们选择目前企业中使用最多的稳定版Spark2.2.02.为了方便浏览和更改配置信息,我们把主机名更换为node01,node02.....local本地模式安装我们需要下载Spark的安装包。下载地址:http://spark.apache.org/downloads.html安装完成后上传到linux解压并重命名
Alice菌
·
2020-07-10 11:27
#
Spark
Spark基础
入门
Spark简介ApacheSpark是一个用于实时处理的开源集群计算框架。它是Apache软件基金会中最成功的项目。Spark已成为大数据处理市场的领导者。今天,Spark被亚马逊,eBay和雅虎等主要厂商采用。许多组织在具有数千个节点的集群上运行Spark。MR的这种方式对数据领域两种常见的操作不是很高效。第一种是迭代式的算法。比如机器学习中ALS、凸优化梯度下降等。这些都需要基于数据集或者数据
磨刀大神
·
2020-07-10 10:58
Spark
Spark基础
与Java Api介绍
原创文章,转载请注明:转载自http://www.cnblogs.com/tovin/p/3832405.html一、Spark简介1、什么是Spark发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。相比于MapReduce,Spark能充分利用内存资源提高计算效率。2、Spark计算框架Driver程序启动很多workers,然后wor
weixin_30608131
·
2020-07-10 06:46
Spark基础
全解析
SPARK全解析标签(空格分隔):SparkSPARK全解析Spark是什么?Spark源码编译Spark本地模式安装配置及SparkShell基本使用Spark集群SparkApplication开发、运行及监控(IDEA)Spark日志监控(HistoryServer)配置SparkRDDSpark共享变量Spark内核Spark依赖SparkShuffleSparkApplication添加
vinfly_li
·
2020-07-10 05:15
hadoop
cloudera
hortonworks
spark
apache
scala
Spark基础
入门(一)--------RDD基础
(一)、RDD定义不可变分布式对象集合比如下图是RDD1的数据,它的Redcord是数字,分布在三个节点上,并且其内容不可变创建RDD有两种方式:1)Driver中分发(parallelize方法)通过parallelize方法,将驱动程序(Driver)里的集合(复制过去)创建为分布式数据集(分区数默认和执行资源核数保持一致)Listdata=Arrays.asList(10,34,567,53
写代码的可可
·
2020-07-10 02:55
spark基础
【Spark】
Spark基础
教程
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark特点Spark具有如下几个主要特点:运行速度快:Spark使用先进的DAG(DirectedAcyclicGraph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比HadoopMapReduce快上百倍,基于磁盘的执行
饥渴的小苹果
·
2020-07-09 22:01
Spark
Scala编程语言视频教程|
Spark基础
--快学Scala
Scala编程语言视频教程分享网盘下载——https://pan.baidu.com/s/1ghdAP83密码:mq6xScala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。它也能运行于CLDC配置的JavaME中。目前还有另一.NET平台的实现,不过该版本更新有些滞后。Scala的编译模
haoyunqilai
·
2020-07-09 16:05
scala
spark基础
入门
原文摘自http://www.donghongchao.cn1、spark概述spark是基于内存的一个计算框架,计算速度非常的快。这里面没有涉及到任何存储,如果想要处理外部的数据源,比如数据在HDFS上,此时我们就需要先搭建一个hadoop集群。2、spark的特点1、速度快(比mapreduce在内存中快100倍,比在磁盘中快10倍)(1)spark在处理的数据中间结果数据可以不落地,mapr
人情世故2017
·
2020-07-09 08:11
大数据
spark基础
之shuffle机制、原理分析及Shuffle的优化(很好很详细)
一概述Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了整个程序的
那记忆微凉
·
2020-07-09 07:24
Spark
spark基础
之shuffle机制和原理分析
一概述Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了整个程序的
happy19870612
·
2020-07-06 20:42
大数据/spark
spark学习笔记1-基础部分
本文是对
Spark基础
知识的一个学习总结,包含如下几部分的内容:概述运行模式SparkShellRDD/DataFrame/DataSet独立可执行程序小结参考资料:1、Spark的核心代码是用scala
我是老薛
·
2020-07-06 17:22
Spark基础
知识详解
ApacheSpark是一种快速通用的集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎。它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图形处理的GraphX和SparkStreaming。Spark优点:减少磁盘I/O:随着实时大数据应用越来越多,Hadoop作为离线的高吞吐、低响应
张伯毅
·
2020-07-06 12:18
Spark
Spark2.3.2源码解析
[
Spark基础
]-- spark submmit大会(2017年6月5日 - 7日)
SparkSummit(2017年6月5日-7日,旧金山)议程发布1、官方:http://spark.apache.org/news/spark-summit-june-2017-agenda-posted.html2、议程:https://spark-summit.org/2017/schedule/3、报名:https://prevalentdesignevents.com/sparksumm
highfei2011
·
2020-07-04 17:59
Spark
Spark高级数据分析(1) ——纽约出租车轨迹的空间和时间数据分析
在开始正文之前,需要掌握以下基础知识:Scala基础语法
Spark基础
概念
IIgeoywq
·
2020-07-02 03:38
数据分析
Spark基础
:使用维基百科数据集来用Spark进行原型实验
ApacheSpark的真正价值和强大能力在于用它可以构建一个统一一致的分析场景,囊括了从ETL(数据抽取、转换和载入)、批处理分析、实时流分析、机器学习、图类型数据分析,到可视化的多种功能。在这个历时2天的课程里,布莱恩·克莱坡通过对多种维基百科数据集的动手操作来展示了理想中Spark可以完成的多样化的编程模式。在培训结束时,参加者将具备运用Spark来进行概念验证和原型搭建的能力。本课程包括5
OReillyData
·
2020-06-30 18:07
一次实践:spark查询hive速度缓慢原因分析并以此看到
spark基础
架构
前一段时间数据挖掘组的同学向我返回说自己的一段pyspark代码执行非常缓慢,而代码本身非常简单,就是查询hive一个视图中的数据,而且通过limit10限制了数据量。不说别的,先贴我的代码吧:frompyspark.sqlimportHiveContextfrompyspark.sql.functionsimport*importjsonhc=HiveContext(sc)hc.setConf(
小昌昌的博客
·
2020-06-30 14:32
Spark
open-source
java
spark基础
之spark sql运行原理和架构
一SparkSQL运行架构SparkSQL对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。SparkSQL会先将SQL语句解析成一棵树,然后使用规则(Rule)对Tree进行绑定、优化等处理过程。SparkSQL由Core、Catalyst、Hive、Hive-ThriftServer四部分构成:Core:负责处理数据的输入和输出,如获取数据,查询结果输出成DataFra
happy19870612
·
2020-06-30 14:44
大数据/spark
spark基础
(1)
1.spark出现原因2.spark架构:spark分为Master节点和slave节点,ApplicationMaster资源调度,Executor执行具体的task;3.yarn架构yarn由RM和NM组成,每个在yarn上运行的计算框架只需要实现AM接口,做到不同类型计算框架都可以在yarn运行;每个运行在yarn上的任务都有一个AM;AM做到了RM与Driver的桥梁;具体作业任务由Dri
火树银花之处
·
2020-06-30 12:25
Spark
流式数据采集和计算(十四):
Spark基础
学习笔记
Spark(Streaming)基础学习笔记-yzg-2018-12-17Spark(Streaming)基础学习笔记..1
Spark基础
..4Spark特性..4Spark部署(onYarn)5Spark
有腹肌的小蝌蚪_
·
2020-06-30 07:50
Spark/Flink的流处理
Spark深入解析:博文大纲
目录一、
Spark基础
解析二、SparkScore三、SparkSql四、SparkStreaming五、StructuredStreaming一、
Spark基础
解析Spark深入解析(一):
Spark
老王的小知识
·
2020-06-29 22:36
【大数据】Spark
大数据技术之
Spark基础
解析
第1章Spark概述1.1什么是Spark1、定义Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。2、历史2009年诞生于加州大学伯克利分校AMPLab,项目采用Scala编写。2010年开源;2013年6月称为Apache孵化项目2014年2月称为Apache顶级项目。1.2Spark内置模块SparkCore:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系
博仔的春天
·
2020-06-29 11:17
大数据Spark学习
大数据之Spark
一、Spark(一)
Spark基础
知识1、Spark的产生背景1.MapReduce的发展1.1、MRv1的缺陷(1)MRv1包括:运行时环境(JobTracker和TaskTracker)编程模型(MapReduce
成神之路
·
2020-06-29 06:59
大数据
第2章 大数据
Spark基础
解析
上篇:第1章大数据Spark概述1、Spark安装地址(1)官网地址http://spark.apache.org/(2)文档查看地址https://spark.apache.org/docs/2.1.1/(3)下载地址https://spark.apache.org/downloads.html2、重要角色2.1、Driver(驱动器)Spark的驱动器是执行开发程序中的main方法的进程。它负
江湖侠客
·
2020-06-28 22:08
Spark
spark基础
知识汇总
目录基础概述分工作业提交流程Executor共享变量BroadcastVariable(广播变量)Accumulator(累加变量)内存管理相关配置堆内内存堆外内存Execution内存和Storage内存动态调整Task之间内存分布SparkCorespark的shuffle内存管理——TungstenSparkSQLParser模块Analyzer模块Optimizer模块SparkPlann
weixin_30851409
·
2020-06-28 01:29
Spark基础
入门(二)--------DAG与RDD依赖
一、DAG定义DAG每个节点代表啥?代表的一个RDD1)一个RDD生成两个RDD:RDD2=RDD1.filter(xxxxx)RDD3=RDD1.filter(yyyy)是从RDD1到RDD2,RDD3这样的过程2)Union是两个RDD合并成一个的过程则是RDD2RDD3变成RDD4的过程3)filter/map/reduceByKey应该都是一条直线是从RDD4到RDD5这样的过程上述都是t
写代码的可可
·
2020-06-26 10:26
spark基础
Spark基础
什么是Spark基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。Spark特点快:Spark计算速度是MapReduce计算速度的10-100倍易用:(算法多)MR支持1种计算模型,Spsark支持更多的计算模型。通用:Spark能够进行离线计算、交互式查询(快速查询)、实时计算、机器学习、图计算等兼容性:Spark支持大数据中的Yarn调度,支持mes
九月木樨
·
2020-06-26 04:40
Spark
基础知识
kylin安装---安装系列十一
承接安装系列hadoop,hivehive与kylin的搭建在原有hadoop+hbase+hive+
spark基础
上搭建hive配置环境变量添加如下:/etc/profile和~/.bash_profileexportHCAT_HOME
李孟lm
·
2020-06-25 00:14
大数据
大数据学习笔记之Spark:
Spark基础
解析
第1章Spark概述spark的产生背景spark是如何产生的,这要先送大数据说起,大数据是如何产生的?Google就是处理大数据的,网页和网页之间有很多的关联关系,为了处理排序啊这些算法,所以Google就发明了,Google就发布了三个论文,基于这三个论文的开源,实现了Hadoop、Hdfs、MapReduce、Hbase等,但是感觉好像每次MapReduce只能处理一次数据,而且开始跑map
BAO7988
·
2020-06-20 21:11
大数据
spark基础
学习(二)
一、绪论上一章节对Spark组件进行了简单的描述,并详细介绍了RDD的内容。本章节主要介绍spark组件之一SparkStreaming的内容。SparkStreaming是用来对实时数据进行流式计算的组件。本章节主要从SparkStreaming的原理及其核心DStream两个大方面来介绍SparkStreaming的运行机制。其中实例代码使用的编程语言是Scala语言。二、原理与架构1、流式计
Pt_Chen
·
2020-04-06 15:43
Spark运行原理
1.Spark内部执行机制1.1内部执行流程spark的内部执行机制在《
spark基础
•下篇》已有介绍,此处再简单介绍下。如下图1为分布式集群上spark应用程序
ZPPenny
·
2020-03-31 10:39
大数据之谜
Spark基础
篇,Spark实现WordCount实例内幕详解
温馨提示本公众号专注分享大数据技术Spark、Hadoop等,如果你是初学者、或者是自学者,这里都是可以提供免费资料,也可以加小编微信号:wusc35,小编可以给你学习上、工作上一些建议以及可以给你提供免费的学习资料!学习技术更重要的是在于学习交流!等你来...注:本公众号纯属个人公益号!免费分享所有学习资料!希望朋友多多支持!多多关注!回顾一下前面几节,我们已经讲解Spark的作用与优劣、基本原
大数据之谜
·
2020-03-28 17:57
spark基础
hadoop生态圈:分布式存储-hdfs;分布式批处理-mapreduce将大量数据进行处理,获取我们需要的有价值的信息弊端:频繁的写磁盘;网络磁盘io1hadoop已经远远无法满足对于数据的处理效率的需求2原先是将数据在批判中进行转移,能不能放到内存中spark处理引擎RDD:分布式的弹性数据集。虽然是数据集但是内部不存储数据,工作地点:内存RDD特性:1是由一个个的partition2每一个p
小太阳may
·
2020-03-25 22:10
spark streaming框架简介
1.sparksteaming概述在《
spark基础
(上篇)》中,sparkstreaming是spark体系中的一个流式处理框架。
ZPPenny
·
2020-03-23 22:56
spark基础
学习-环境搭建(windows+Java)
1、jdk安装jdk下载、安装以及环境变量的配置在此不做赘述。2、Scala安装下载地址:下载Windows对应的.msi文件,完成后双击执行安装。安装成功后会自动将Scala的bin目录添加到系统变量path中,若path中没有则按照JAVA的方法将Scala的bin目录添加到系统变量中验证win+r-->cmd-->scala,若出现以下信息则说明安装成功:3、spark安装下载地址:注意选择
Legents
·
2020-03-19 23:21
笔记:新手的Spark指南
http://blog.csdn.net/MrLevo520/article/details/76087612前言既然做了Hive的整理,那就把spark的也整理下吧,当做入门指南和自己的笔记吧~与君共勉
Spark
mrlevo520
·
2020-03-06 03:36
Spark基础
全解析
我的个人博客:https://www.luozhiyun.com/为什么需要Spark?MapReduce的缺陷第一,MapReduce模型的抽象层次低,大量的底层逻辑都需要开发者手工完成。第二,只提供Map和Reduce两个操作。举个例子,两个数据集的Join是很基本而且常用的功能,但是在MapReduce的世界中,需要对这两个数据集做一次Map和Reduce才能得到结果。第三,在Hadoop中
luozhiyun
·
2020-03-01 11:00
大数据之谜
Spark基础
篇,Spark运行架构原理详解
温馨提示本公众号专注分享大数据技术Spark、Hadoop等,如果你是初学者、或者是自学者,这里都是可以提供免费资料,也可以加小编微信号:wusc35,小编可以给你学习上、工作上一些建议以及可以给你提供免费的学习资料!学习技术更重要的是在于学习交流!等你来...注:本公众号纯属个人公益号!免费分享所有学习资料!希望朋友多多支持!多多关注!本节主要来理解以下五个组件,是怎么相互连接,并配合起来实现我
大数据之谜
·
2020-02-26 09:53
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他