E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark基础
Spark基础
知识03——序列化
一、序列化实现序列化:extendsSerializable首先,任务提交的过程,需要先在Driver端进行初始化,算子的函数需要的Executor端进行计算。Driver端的计算过程需要传给Executor端进行实际的计算,就需要发生网络io,而Executor端的计算需要在jvm里进行计算,Driver端传过来的对象在jvm中是以字节表示所以,在节点传输对象的时候,就需要将所传输的对象进行序列
嘉平11
·
2020-09-14 02:26
Spark基础
知识04——窄依赖、宽依赖、DAG、缓存
一、宽窄依赖RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrowdependency)和宽依赖(widedependency)。窄依赖:窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结:窄依赖我们形象的比喻为独生子女宽依赖宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition总结:宽依赖我们形象的比喻
嘉平11
·
2020-09-14 01:54
Spark
Spark基础
(六):SparkStreaming实操读写kafka(亲测)
文章目录启动环境配置sources文件flume-kafka创建Kafka-topicsflume导入kafka1、sparkstreaming向Kafka读数据2、sparkStreaming向Kafka写数据,没有现成的接口,需要利用Kafka提供的底层接口(1)对KafkaProducer的包装:(2)对KafkaSink的惰性单例实现,避免在Worker中重复创建:(3)分析结果增加消息写
跳蛙pass
·
2020-09-14 01:54
spark
spark
kafka
Spark基础
使用、配置总结
spark上传附件、加载py文件1.第一种方式:在spark-submit中加载spark-submit\--queuexxx\--archivesch_cut.zip#ch_cut\--py-fileslabel.py\test.py2.第二种方式:在py脚本中加载sc.addFile("/user/data/py_module/normal",recursive=True)#添加文件夹spar
nlpming
·
2020-09-13 10:23
《Spark MLlib机器学习实践》内容简介、目录
本书分为12章,从
Spark基础
安装和配置开始,依次介绍MLlib
brucexia
·
2020-09-12 10:07
Spark知识点总结导航
Spark知识点总结导航-
Spark基础
-----第一章spark概述-----第二章spark集群安装-SparkCore-----第一章SparkShell-----第二章执行spark程序----
落落free
·
2020-09-11 22:04
大数据阶段
--------Spark
--------Kafka
--------Flume
spark shuffle过程
关于sparkshuffle过程的理解:https://blog.csdn.net/quitozang/article/details/80904040
spark基础
之shuffle机制和原理分析:https
YancyChang
·
2020-09-11 18:16
Spark
Spark基础
篇(六) - IDEA开发Spark代码
一、Spark项目开发流程回顾二、Spark应用程序开发2.1、Hive下求用户访问量TopN&&Spark-shell实现&&IDEA下实现2.2、Spark-Core求平均年龄&&男女人数&&最低、最高身高2.3、求男女人数、最低、最高身高一、Spark项目开发流程添加hadoop-client版本、添加cdh仓库、打包注意事项、上传服务器使用rz命令、spark-submit提交打的jar包
Spark on yarn
·
2020-09-11 06:26
SparkCore基础篇
spark基础
概念及实验
RDD可伸缩不可改变分布式集合,缓存进内存,每次转换生成新的RDD,因此有依赖关系,丢失后可恢复;指定partition个数,分到cpu中,每个partition被一个任务处理,对于key-value的RDD存在分片函数,存在一个列表存储分片的位置对RDD的创建,转换,返回;创建后不可改变,对外部的HDFS或List操作,转换时生成新的RDD,直到action时才计算,返回driver程序或外部存
ixtgtg
·
2020-09-10 14:39
Spark基础
概念(1)
Google的MapReduce,展示了一个简单通用和自动容错的批处理计算模型。但是对于其他类型的计算,比如交互式计算和流式计算,他不适合。统一大数据处理框架Spark,提出了RDD概念(一种新的抽象的弹性数据集),某种程度是MapReduce的一种拓展。MapReduce缺乏一种特性:即在并行计算的各个阶段进行有效的数据共享,这就是RDD的本质。容错方式:MapReduce是将计算构建成为一个有
MingYueZh
·
2020-09-10 11:37
大数据类
Spark基础
概念(2)
valsc=newSparkContext("spark://localhost:7077","ApplicationName","SPARK_HOME","Your_APP_Jar")//创建操作:SparkContext负责创建Spark上下文环境valfile=sc.textFile("hdfs://localhost:9000/.../Log")//从HDFS中读取文件valfilterR
MingYueZh
·
2020-09-10 11:37
大数据类
spark基础
概念
1、DAGDAG:字面概念是有效无环图,指的是一个无回路的有向图。如果有一个非有向无环图,且A点出发向B经C可回到A,形成一个环。将从C到A的边方向改为从A到C,则变成有向无环图。而在Spark中,由于计算过程很多时候会有先后顺序,受制于某些任务必须比另一些任务较早执行的限制,我们必须对任务进行排队,形成一个队列的任务集合,这个队列的任务集合就是DAG图,每一个定点就是一个任务,每一条边代表一种限
落叶1210
·
2020-09-10 10:30
scala及spark
5.
Spark基础
学习五(SparkStreaming)
SparkStreaming概述SparkStreaming用于流式数据的处理。SparkStreaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等image-20200831164855
做个合格的大厂程序员
·
2020-09-09 20:34
3.
Spark基础
学习三(Spark_SQL)
什么是SparkSQLSparkSQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将HiveSQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有SparkSQL的应运而生,它是将S
做个合格的大厂程序员
·
2020-09-02 16:03
2.
Spark基础
学习二(RDD和一些算子)
RDD什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD的属性image-20200819175211553一组分区(Partition),即数据集的基本组成单位;一个计算每个分区的函数;RDD之间的依赖关系;一个Partitioner,即RD
做个合格的大厂程序员
·
2020-09-01 11:42
1.
Spark基础
学习一(Spark概念)
什么是SparkSpark是一种基于内存的快速的,通用的,可扩展的大数据分析引擎Spark内存模块Snipaste_2020-08-18_20-33-17Spark特点快:与Hadoop和MapReduce响度,Spark基于内存运算要快100倍以上,基于硬盘的运算要快10倍以上,Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流,计算的中间结果是存在内存中的易用:Spark支
做个合格的大厂程序员
·
2020-09-01 09:26
Spark基础
Spark的组件SparkCore包括Spark的基本功能,包含任务调度,内存管理,容错机制。内部定义了RDDs(弹性分布式数据集)。提供了很多APIs来创建和操作这些RDDs。为其它场景提供了底层的服务SparkSQL:是Spark处理结构化数据的库,就像HiveSQL,Mysql一样。应用场景,企业中用来做报表统计SparkStreaming:是实时数据流处理组件,类似StormSparkSt
班得瑞的猫
·
2020-08-25 17:11
spark
大数据之谜
Spark基础
篇,Spark基本工作原理讲解
温馨提示本公众号专注分享大数据技术Spark、Hadoop等,如果你是初学者、或者是自学者,这里都是可以提供免费资料,也可以加小编微信号:wusc35,小编可以给你学习上、工作上一些建议以及可以给你提供免费的学习资料!学习技术更重要的是在于学习交流!等你来...注:本公众号纯属个人公益号!免费分享所有学习资料!希望朋友多多支持!多多关注!Spark基本工作原理,这里我们从宏观讲解Spark的基本工
大数据之谜
·
2020-08-23 19:53
py
spark基础
教程
py
spark基础
教程下面一段代码是简单教程,对与如何向spark集群提交代码任务,无论文档和博客都有很多说法,其实很简单,只要在脚本中setMaster(“spark://192.168.10.182
luoganttcc
·
2020-08-23 10:15
spark
SPARK基础
4(DataFrame操作)
在上文《
SPARK基础
2(读入文件、转临时表、RDD与DataFrame)》中,我们简单介绍了spark中的DataFrame,我们知道了sparkdataframe派生于RDD类,但是提供了非常强大的数据操作功能
xujingpilot
·
2020-08-23 08:50
spark
SPARK基础
2(读入文件、转临时表、RDD与DataFrame)
上文介绍了spark的各种组件和入门,本文主要介绍spark读入文件以及数据格式(RDD/DataFrame)1、读入文件与转临时表1、json文件读取valdf=spark.read.json("E:/people.json")df.show()//将DataFrame的内容显示到页面2、CSV文件读取(注意编码要UTF-8)df=spark.read.csv("E:/emp1.csv")也可以
xujingpilot
·
2020-08-23 04:51
spark
大数据基础知识问答----spark篇,大数据生态圈
Spark相关知识点1.
Spark基础
知识1.Spark是什么?
weixin_33898876
·
2020-08-23 00:08
Spark基础
知识系列一(从hdfs获取文件)
Spark获取文件spark可以从本地,hdfs文件系统,s3,及hadoop支持的文件系统获取文件。从本地:file:///usr/local/xx.txt.importorg.apache.spark.{SparkConf,SparkContext}/***CreatedbyDamonon3/29/17.*/objectHelloScala{defmain(args:Array[String]
walker_storage
·
2020-08-22 17:20
Spark
Spark基础
入门(三)--------作业执行方式
(一)SparkContext代表对集群的一个连接驱动程序通过sparkContext连接spark集群每个JVM只允许启动一个SparkContext,一个sparkContext连接代表一个application,每个application中可能有多个job(jobid)yarn上面的一个application如下:代码中初始化sparkContext的方式如下:SparkConfconf=n
写代码的可可
·
2020-08-22 15:22
spark基础
最全的
spark基础
知识解答
原文:http://www.36dsj.com/archives/61155一.
Spark基础
知识1.Spark是什么?
weixin_34006965
·
2020-08-20 12:06
Spark基础
排序+二次排序(java+scala)
1.基础排序算法2.二次排序算法3.更高级别排序4.排序算法内幕1.基础排序算法sc.textFile("/data/putfile.txt").flatMap(_.split("")).map(word=>(word,1)).reduceByKey(_+_,1).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pa
靖-Drei
·
2020-08-20 03:39
spark
spark
排序
Spark 入门系列-简介以及生态
本文主要包含:Spark简介Spark的优势Spark内部生态
Spark基础
入门书籍推荐那么,从官网开始。Spark简介打开Spark官网,这句特别醒目:Apach
程序员小陶
·
2020-08-19 07:25
大数据
编程语言
java
python
人工智能
BigData-25:
Spark基础
Spark生态圈:SparkCore:最重要,其中最重要的就是RDD(弹性分布式数据集)SparkSQLSparkStreamingSparkMLLib:协同过滤、ALS、逻辑回归等等—>实现推荐系统SparkGraphx:图计算SparkCore一、什么是Spark?特点?官网:ApacheSpark™isaunifiedanalyticsengineforlarge-scaledataproc
feiyanaffection
·
2020-08-19 06:55
Hadoop
流式计算助力实时数据处理spark-streaming入门实战
导读:本次分享主题是《流式计算助力实时数据处理spark-streaming入门实战》,主要内容分为3部分:1.
Spark基础
2.Spark-streaming技术要点3.任务演示一.
Spark基础
Spark
不思明日
·
2020-08-19 06:00
spark
大数据
Spark基础
和hadoop生态圈
大数据教程:
Spark基础
及源码分析|____大数据教程:9.Spark集群启动流程和任务提交流程、案例练习|____4、案例分析实现-按照ip统计区域访问量-1.mp4|____3、wordcount
xfxf996
·
2020-08-18 12:41
Spark基础
解析
文章目录安装【Standalone】2.4配置Spark【Standalone】2.5配置JobHistoryServer【Standalone】2.6配置SparkHA【Standalone】【Yarn】配置Spark【Yarn】执行Spark程序执行第一个spark程序(standalone)执行第一个spark程序(yarn)Spark应用提交启动SparkShell启动Sparkshell
靛蓝忆
·
2020-08-18 12:43
大数据
【Spark】
Spark基础
练习题(三)
(图片来源于网络,侵删)我又带来一堆Spark题了,这次是SparkSQL的!!!废话不多说,上题!!!题目如下1、分别给出四张表的数据分别是:student_info.txt字段是:学号,姓名,性别,所属班级编号,入学日期department_info.txt字段是:院系编号,院系名称class_info.txt字段是:班级编号,班级名称,入学日期,所属院系中文名student_scores.t
默默走开
·
2020-08-18 11:48
Spark
[
Spark基础
]-- spark streaming从指定offset处消费Kafka数据(第一种方式)
一、情景:当sparkstreaming程序意外退出时,数据仍然再往Kafka中推送,然而由于Kafka默认是从latest的offset读取,这会导致数据丢失。为了避免数据丢失,那么我们需要记录每次消费的offset,以便下次检查并且从指定的offset开始读取二、环境:kafka-0.9.0、spark-1.6.0、jdk-1.7、scala-2.10.5、idea16三、实现代码:1、引入s
highfei2011
·
2020-08-18 11:49
Spark
大数据之
Spark基础
篇,核心RDD特征分析讲解
RDD特征概要总结:a、RDD是Spark提供的核心抽象,全称为ResillientDistributedDataset,即弹性分布式数据集。b、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。c、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行创建;有时也可以通过应用程序中的集
669生活
·
2020-08-18 10:03
大数据
编程语言
人工智能
Spark基础
,Local模式、Standalone模式、Yarn模式安装使用配置
第1章Spark概述1.1什么是Spark1、定义Spark是-种基于内存的快速、通用、可扩展的大数据分析引擎。2、历史2009年诞生于加州大学伯克利分校AMPLab,项目采用Scala编写。2010年开源,2013年6月成为Apache孵化项目2014年2月成为Apache顶级项目。1.2Spark内置模块SparkCore:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系
往事随风_h
·
2020-08-18 10:09
Spark
大数据系列之
Spark基础
解析(一)
文章目录第1章Spark概述1.1什么是Spark1.2Spark特点1.3Spark的用户和用途第2章Spark集群安装2.1集群角色2.2机器准备2.3下载Spark安装包2.4配置Spark2.5配置JobHistoryServer2.6配置SparkHA第3章执行Spark程序3.1执行第一个spark程序3.2Spark应用提交3.3启动SparkShell3.3.1启动Sparkshe
开封程序员阿强
·
2020-08-18 10:33
大数据系列学习笔记
spark
scala基础语法-----
Spark基础
注:最近在上网课,然后这学期开了一门spark,以下文字来自课堂发的资料,不知道发在这上面算不算侵权,主要是为了自己复习方便,侵权删。然后我根据上课内容进行了一些练习,代码在最下方。scala基本语法我们可以根据scala菜鸟教程来学习地址为:https://www.runoob.com/scala/scala-tutorial.htm1.变量声明/***定义变量使用var或者val关键字*语法:
Pikachu_simple
·
2020-08-17 14:34
Spark
spark基础
之checkpoint机制
一Spark中Checkpoint是什么假设一个应用程序特别复杂场景,从初始RDD开始到最后整个应用程序完成,有非常多的步骤,比如超过20个transformation操作,而且整个运行时间也比较长,比如1-5个小时。此时某一个步骤数据丢失了,尽管之前在之前可能已经持久化到了内存或者磁盘,但是依然丢失了,这是很有可能的。也就是说没有容错机制,那么有可能需要重新计算一次。而如果这个步骤很耗时和资源,
happy19870612
·
2020-08-09 16:19
大数据/spark
spark资源调度源码浅谈
纸上得来终觉浅,觉知还是要撸代码此文章适合以下人群参考:1.接触过spark,有
spark基础
的同学2.知其然不知其所以然的同学3.对于源码好奇的同学4.大神勿看大家都知道,大数据中,其实最紧张的就是资源
壮志-凌云
·
2020-08-09 01:21
spark
python对hdfs/spark读写操作(hdfs/pyspark)
以下内容,是基于服务器上,已经搭建好的hadoop/
spark基础
上,所以参考性有限,请见谅。
Great1414
·
2020-08-09 01:11
大数据
spark基础
练习2
文章目录1.谁是最大买“货”?(谁购买的最多,以购买总价为准)2.哪个产品是最大卖货?(哪个产品销售的最多,以产品交易总价为准)3.找出购买的周分布(根据一周分组,查看每天的交易额,分析每天交易量)4.找出购买力最强地域(根据洲来划分)文件获取链接:https://pan.baidu.com/s/1VjAzYjzN0X8QKdu4pKQBbg提取码:rknf有如下四个csv文件,列属性如下:#上传
sun_0128
·
2020-08-06 23:22
spark
大数据
spark
练习
spark
基础练习
Apache
Spark基础
及架构
文章目录一.为什么使用Spark二.Spark简介1.发展历程2.Spark优势3.Spark技术栈4.Spark环境部署5.Spark初体验6.Spark架构设计7.Spark架构核心组件8.SparkAPI三.核心API:RDD1.RDD概念2.RDD与DAG3.RDD的五大特性4.RDD编程流程5.RDD创建6.RDD分区与RDD的操作7.RDD转换算子8.RDD动作算子一.为什么使用Spa
sun_0128
·
2020-08-06 11:44
spark
spark基础
rdd
spark
弹性分布式数据集
spark基础
练习
#在名为sparkwork.txt中有如下内容:班级ID姓名年龄性别科目成绩12张三25男chinese5012张三25男math6012张三25男english7012李四20男chinese5012李四20男math5012李四20男english5012王芳19女chinese7012王芳19女math7012王芳19女english7013张大三25男chinese6013张大三25男ma
sun_0128
·
2020-08-06 10:58
spark
spark
spark练习
spark基础
[
Spark基础
]--聚合操作-reduceByKey、combineBykey、groupBy和AggregateByKey
1、Spark中的reduceByKey和CombineByKey有什么区别?groupByKey和CombineByKey/reduceByKey有很大的区别。请参阅以下文章以深入了解。reduceByKey和CombineByKey之间的唯一区别是API,在内部它们的功能完全相同。reduceByKeyCombineByKeyreduceByKey在内部调用combineByKeyCombin
highfei2011
·
2020-08-03 00:03
Spark
[
Spark基础
]--雾计算
wiki解释雾计算(英语:FogComputing)或雾联网(fognetworking,或fogging),是使用最终用户终端设备或连接最终用户设备的边缘设备,以分布式协作架构进行数据存储(相较于将数据集中存储在云数据中心),或进行分布式网络数据包传输通信(相较于通过互联网骨干路由),或相关分布式控制或管理。雾计算是由思科(Cisco)在2014年所提出的概念[1],为云计算的延伸,这个架构可以
highfei2011
·
2020-08-03 00:03
Spark
架构设计
spark sql 执行流程
在前面的文章《
spark基础
(上篇)》和《
spark基础
(下篇)》里面已经介绍了spark的一些基础知识,知道了sparksql是spark中一个主要的框架之一。
大数据系统工程师
·
2020-08-02 21:40
Spark
SQL
spark基础
操作(大家不用打开,我就是自己保存一下。。。)
启动start-dfs.shstart-yarn.sh更改主机名surootcdhostnamelocalhost看后台服务jps29456NameNode29863SecondaryNameNode30220ResourceManager30718Jps29548DataNode30307NodeManagerspark-shell本地spark-shell--driver-memory512M
cc198877
·
2020-08-01 11:22
spark
yarn
spark基础
之RDD和DataFrame的转换方式
一通过定义CaseClass,使用反射推断Schema定义CaseClass,在RDD的转换过程中使用CaseClass可以隐式转换成SchemaRDD,然后再注册成表,然后就可以利用sqlContext或者SparkSession操作了。我们给出一个电影测试数据film.txt,定一个CaseClass(Film),然后将数据文件读入后隐式转换成SchemeRDD:film,并将film在Spa
happy19870612
·
2020-07-29 02:32
大数据/spark
spark基础
之Spark SQL和Hive的集成以及ThriftServer配置
如果希望Maven编译Spark时支持Hive,需要给定-Phive-Phive-thriftserver。比如比如:mvn-Pyarn-Phadoop-2.6-Dhadoop.version=2.6.0-Phive-Phive-thriftserver-DskipTestscleanpackage一SparkSQL和Hive集成1.1将hive的配置文件hive-site.xml添加到spark
happy19870612
·
2020-07-29 02:32
大数据/spark
Spark基础
RDD练习(一)
spark_rdd练习1.并行化创建RDD通过并行化生成rddscala>varrdd1=sc.parallelize(List(123,32,44,55,66,77,88,999))rdd1:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[0]atparallelizeat:24查看该RDD的分区数量scala>rdd1.partition
许鸿于
·
2020-07-29 00:11
Spark
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他