E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark学习
Spark学习
笔记1:Spark概览
Spark是一个用来实现快速而通用的集群计算的平台。Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的,运行在多个工作机器或者是一个计算集群上的应用进行调度,分发以及监控的计算引擎。Sark核心引擎有着速度快和通用的特点,因此Spark支持为各种不同应用场景专门设计的高级组件,这些组件关系密切并且可以互相调用。Spark各组件密切结合的设计原理的优点:软件栈中所有的
weixin_30426957
·
2020-07-08 13:44
spark学习
(9)-spark的安装与简单使用
spark和mapreduce差不多,都是一种计算引擎,spark相对于MapReduce来说,他的区别是,MapReduce会把计算结果放在磁盘,spark把计算结果既放在磁盘中有放在内存中,mapreduce把可能会把一个大任务分成多个stage,瓶颈发生在IO,spark有一个叫DAG(有向无环图)的东西,可以把多个算子都放在一个stage进行合并。sparkshuffle的时候一定会把数据
weixin_30323961
·
2020-07-08 13:19
spark学习
路径(python版)
1、spark只是一个计算引擎,可以通过多种语言与其交互,我选择的是python2、熟练python编程基础3、查看官网文档http://spark.apache.org/docs/latest/quick-start.htmlhttp://spark.apache.org/docs/latest/api/python/index.html4、python是通过各种第三方类库与spark交互:如p
火树银花之处
·
2020-07-08 12:21
Spark
spark
python
Hadoop学习系列之Hadoop、
Spark学习
路线(很值得推荐)
Hadoop学习系列之Hadoop、
Spark学习
路线(很值得推荐)文章出自:http://www.cnblogs.com/zlslch/p/5448857.html1Java基础:视频方面:推荐毕老师
暴走的后端
·
2020-07-08 10:20
Spark学习
总结
一、spark自定义类在Driver端和Executor的传输问题在一个map算子中newclass。每来一条数据将新建一个对象,每一个对象都要进行序列化,将大量消耗内存和网络带宽在Driver端newclass发送到Executor。对象将会被发送到每个task上,如果每个Executor有多个task,将占用过多内存和网络带宽(补充:可以在map端实例化对象,只实例化一次。就会减少内存的占用)
从一点一滴做起
·
2020-07-08 00:09
Spark
Spark学习
总结
1.Spark是什么?Spark是一个基于内存的快速的用于大规模数据处理的统一分析引擎。2.Spark有什么特性?容错、并行3.Spark的核心组件有哪些?Sparkcore、SparkSQL、SparkStreaming、SparkMLlib、SparkGraphx4.Spark的核心数据模型?RDD(ResilientDistrubutedDataset,弹性分布式数据集)是一个抽象的元素集合
从一点一滴做起
·
2020-07-08 00:08
Spark
Spark上提交运行简单WordCount程序---
Spark学习
笔记(1)
其实这个时候应该继续学习hadoop的,但是猛然发现目前的需求是spark,不过spark可以基于hadoop运行。目前使用的spark版本是:spark-1.6.2-bin-hadoop2.6运行Spark简单程序的思路是现在IDE上导入sparkAPI包并写好scala程序,然后像写HadoopMapReduce程序一样,导出做成jar包,接下来用spark-submit提交jar包,就可以运
miaote
·
2020-07-07 17:41
Spark
Spark学习
笔记:Spark算子及应用
目录Spark算子及应用1.RDD基础什么是RDD?创建RDD使用RDD的算子(函数、方法)对数据进行计算2.常见的算子以及示例常用的Transformation算子常用的Action算子RDD算子示例5.RDD的缓存机制通过实例进行测试6.RDD的Checkpoint(检查点)机制:容错机制本地目录HDFS目录7.RDD的依赖关系和Stage的划分依据Spark算子及应用1.RDD基础RDD(R
SetsunaMeow
·
2020-07-07 15:19
Spark
Spark学习
笔记(三)-开始第一个spark程序
Spark学习
笔记-开始第一个spark程序在安装完Spark,其实最疑惑还是Spark怎么用的问题,由于也是刚学习linux,也不是很习惯linux下的命令行操作。
log_zhan
·
2020-07-07 14:39
个人
Ubuntu
spark
Spark学习
:Spark源码和调优简介 Spark Core (一)
本文基于Spark2.4.4版本的源码,试图分析其Core模块的部分实现原理,其中如有错误,请指正。为了简化论述,将部分细节放到了源码中作为注释,因此正文中是主要内容。SparkCoreRDDRDD(ResilientDistributedDataset),即弹性数据集是Spark中的基础结构。RDD是distributive的、immutable的,可以被persist到磁盘或者内存中。对RDD
不一样的算法工程师
·
2020-07-07 12:42
#
深入浅出大数据
Spark学习
17之使用IDEA对Spark 1.5.2进行本地编译和调试(成功)
1.需要安装:jdk1.7scala2.10.4maven3.3..9idea15.042.下载spark1.5.2源码https://github.com/apache/spark进release3.编译安装:mvncleanpackage-DskipTests查看详细错误:mvncleanpackage-DskipTests-X遇到的问题(1)maven版本问题Failedtoexecuteg
KeepLearningBigData
·
2020-07-07 04:29
spark
spark学习
1之examples运行
更多代码请见:https://github.com/xubo245/SparkLearningspark的examples运行:spark1.4.11.spark-submit:hadoop@Master:~/cloud/spark-1.4.1$spark-submit--masterlocalexamples/src/main/python/pi.py10Piisroughly3.142524
KeepLearningBigData
·
2020-07-07 04:57
spark
spark性能优化 -- > spark工作原理
从本篇文章开始,将开启
spark学习
和总结之旅,专门针对如何提高spark性能进行总结,力图总结出一些干货。
村头陶员外
·
2020-07-06 23:56
spark性能优化
spark学习
笔记1-基础部分
本文是对Spark基础知识的一个学习总结,包含如下几部分的内容:概述运行模式SparkShellRDD/DataFrame/DataSet独立可执行程序小结参考资料:1、Spark的核心代码是用scala语言开发的,且提供了针对scala,java,python几种语言的官方API,在本文的示例中,我们采用的是基于scala语言的API。所以需要对scala语言有个基础的了解。可以参考scala系
我是老薛
·
2020-07-06 17:22
Apache
Spark学习
做编辑的,无时不刻得学习,各种技术,各种趋势,导致编辑这个身份蜻蜓点水式地能把自己涉及的一些方面讲个大概好像和大约,但是要真做项目或者下笔编程,就很难有人能做到。我时常在想编辑的核心竞争力究竟在哪里,离开出版社,能不能继续在这个社会上活下去呢?我不知道编辑的最终出路在哪里,我见过很多同行的转行和职业规划,却不知道如何规划自己的:有的做得好(主要策划了许多畅销书)的编辑离开一家出版社单独成立公司或者
半亩方塘_
·
2020-07-06 08:45
Hadoop3.0稳定版的安装部署
号外:本公众号改名为
Spark学习
技巧了。ApacheHadoop3.0.0在前一个主要发行版本(hadoop-2.x)中包含了许多重要的增强功能。
大数据星球-浪尖
·
2020-07-05 11:13
spark学习
-75-源代码:Endpoint模型介绍(6)-Endpoint的消息的接收(2)
关于Endpoint如何处理消息的,我一直找不到初始调用点请问这个图中消息接受这个点在哪里?我想从这里看,但是找不到最初的起点1。消息的产生点没找到,消息是怎么产生的还不清楚,知道的底下评论一下,谢谢2。消息的分发EndpointInbox处理流程Spark在Endpoint的设计上核心设计即为Inbox与Outbox,其中Inbox核心要点为内部的处理流程拆分为多个消息指令(InboxMessa
九师兄
·
2020-07-04 10:28
大数据-spark
rpc
endpoint
spark
spark学习
-70-源代码:Endpoint模型介绍(2)-启动流程
1.Endpoint启动过程启动的流程如下:Endpoint启动过程基本上与组件概览中组件能很好的对应Endpoint启动后,默认会向Inbox中添加OnStart消息,不同的端点(Master/Worker/Client)消费OnStart指令时,进行相关端点的启动额外处理Endpoint启动时,会默认启动TransportServer,且启动结束后会进行一次同步测试rpc可用性(askSync
九师兄
·
2020-07-04 10:16
大数据-spark
Endpoint
spark
rpc
inbox
outbox
20年清华扫地僧,整理的Storm、
Spark学习
笔记,面试官:拿来看看
写在前面大数据并不是一个突如其来的时兴科技词语,而是在厚积薄发中不断演变,时机到来时一下变得广为人知。传统数据库和数据仓库的统治地位本来看上去牢不可破,随着Hadoop等大数据技术的日趋成熟,这种情况到了终结的时候。作为当前最受关注的实时大数据开源平台项目,Storm和Spark都能为广大潜在用户提供良好的实时大数据处理功能。除在功能方面的部分交集外,Storm、Spark还各自拥有独特的特性与市
Java领域指导者
·
2020-07-04 01:05
架构
大数据
Java
大数据
spark
storm
架构
程序员
Spark学习
之路- 基础概念
Spark产生背景在大数据时代,数据有着两个显著的特点:庞大且多样。对于大数据的处理,始终离不开对海量数据的存储和计算问题,阿里云也正是在发展业务的同时解决了海量数据的存储和计算等相关技术难点,方才成为全球知名云厂商。Spark的出现主要解决两个问题:1.MapReduce执行效率低,业务代码编写复杂,学习成本较高,弥补MR自身的不足;2.支持常见的数据处理模型,减少开发人员的工作量。Spark基
云烟||成雨
·
2020-07-03 14:00
Spark 作业资源调度
北风网
spark学习
笔记静态资源分配原理spark提供了许多功能用来在集群中同时调度多个作业。
htfenght
·
2020-07-02 09:44
spark
spark学习
12之利用keyBy对数据中其中两项进行排序
更多代码请见:https://github.com/xubo245/SparkLearning1解释由于有时候数据的列数很多,不只是按一项作为key来排序,有时候需要对其中两项进行排序,spark的RDD提供了keyBy的方法。使用场景例子为:init:(ab,2,3)(ac,4,100)(bb,1,200)(ac,1,1)(bb,2,5)sort:(ab,2,3)(ac,1,1)(ac,4,10
KeepLearningBigData
·
2020-07-01 18:45
spark
spark学习
2之OutOfMemoryError错误的解决办法
更多代码请见:https://github.com/xubo245/SparkLearningspark之OutOfMemoryError错误的解决办法:xubo@xubo:~/cloud/spark-1.4.1$spark-submit--masterlocalexamples/src/main/python/pi.py1000Traceback(mostrecentcalllast):File
KeepLearningBigData
·
2020-07-01 18:44
spark
Spark学习
资料
haozhengfei博客https://www.cnblogs.com/haozhengfei/p/22bba3b1ef90cbfaf073eb44349c0757.htmlSpark_总结五1.Storm和SparkStreaming区别https://www.cnblogs.com/haozhengfei/p/e353daff460b01a5be13688fe1f8c952.html段智华的
小小少年Boy
·
2020-07-01 10:43
Spark学习
四:网站日志分析案例
Spark学习
四:网站日志分析案例标签(空格分隔):Spark
Spark学习
四网站日志分析案例一创建maven工程二创建模板三日志分析案例一,创建maven工程1,执行maven命令创建工程mvnarchetype
forrestxingyunfei
·
2020-06-30 09:55
spark
【
Spark学习
】使用Spark SQL操作外部hive数据库
一.基本介绍默认情况下,spark自带hive,可以直接在spark-shell使用spark.sql("…")来操作内置的hive数据库二.使用外部hive①删除spark中内置的hive。即删除metastore_db和spark-warehouse文件夹②将外部hive中的hive-site.xml文件复制到spark/conf中③将mysql-connector-java-5.1.39.j
迪奥不及你的美
·
2020-06-30 01:52
【
spark学习
】SparkStreaming将采集结果存储MySQL数据库
一.需求说明SparkStreaming采集网页日志文件,计算网页的热度,根据网页热度排序取前10行,最后将网页ID和热度存入MySQL数据库二.日志文件准备说明:以原始数据test.log为基础,用日志生成程序不断的生成日志文件,以供SparkStraming采集和处理网站热度计算规则:0.1*用户等级+0.9*访问次数+0.4*停留时间+是否点赞原始数据文件test.log。字段分隔符为","
迪奥不及你的美
·
2020-06-30 01:52
【
Spark学习
】RDD基础练习
需求1.计算每个学生这两门课程的总成绩,并且排序输出前5名2.找出单科成绩为100的学生ID,最终的结果需要集合到一个RDD中3.求每个学生这两门成绩的平均值4.合并这个三个表,汇总学生成绩并以文本格式存储,数据汇总为学生ID,姓名,大数据成绩,数学成绩,总分,平均分。比如1002,王一磊,94,94,188,94.01001李正明1002王一磊1003陈志华1004张永丽1005赵信1006古明
迪奥不及你的美
·
2020-06-30 01:51
Spark学习
之弹性分布式数据集RDD
目录RDD:弹性分布式数据集一、RDD的介绍1.1背景1.2RDD的简述1.3RDD的属性1.4RDD在Spark架构中的运行过程二、RDD的使用2.1RDD的创建2.1.1通过读取文件生成的2.1.2通过并行化的方式创建RDD2.1.3通过现有的RDD2.2RDD的操作方式2.2.1Transformations(转化)2.2.2actions(行动)三、lambda说明RDD:弹性分布式数据集
吴跟强
·
2020-06-29 21:05
Spark
大数据
spark学习
之dataframe
最近重新捡起spark来学习,现在版本更新为2.1.0.原来的context被修改为session。但是读取csv,xlsx的功能感觉没多大改进,还有的坑还是在那里。比如读取中文的xlsx文件还是会出现行列错乱的情况。所以有些例子里,读取csv首先是作为文本读入,然后再map分割重组为dataframe。但是因为spark支持pandas的转换,因此可以借助pandas来读取数据,最后转为spar
小木胆
·
2020-06-29 18:21
Spark入门(Python)--1.1 RDD基础
该系列
spark学习
笔记基于PythonSpark.RDD(弹性分布式数据集)是一个不可变的分布式对象集合,可以包含Python、Java、Scala中任意类型的对象,和用户自己定义的对象。
大尾巴狼呀
·
2020-06-29 17:10
spark学习
及环境配置
http://dblab.xmu.edu.cn/blog/spark/厦大数据库实验室博客总结、分享、收获实验室主页首页大数据数据库数据挖掘其他子雨大数据之Spark入门教程林子雨老师2016年10月30日(updated:2017年5月28日)37020【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!版权所有,侵权必究!Spark最初诞生于美国加州大学伯克利分校(UCBe
weixin_33795093
·
2020-06-28 05:26
Spark的介绍:前世今生
spark的前世今生标签(空格分隔):Spark的部分一:大数据的spark概述二:大数据的
spark学习
一:大数据的概述1.1Spark是什么?
weixin_33724570
·
2020-06-28 04:03
spark学习
笔记3(使用spark Sql进行离线数据分析项目数据的可视化、yarn运行、优化)
八、数据可视化1.Echarts(百度)的使用2.前面统计的结果存放在Mysql中,需要使用Echarts展示出来3.使用Echarts(详见百度官网)(1)从官网下载echarts.min.js(2)在html的头部引入echarts.min.js(3)在官网复制需要的图形的脚本文件并进行相应的修改4.使用idea创建web项目来进行之前的统计结果的展示(1)直接复制需求饼图的option(2)
我能想到的
·
2020-06-27 13:58
大数据
spark学习
笔记2(使用spark Sql进行离线数据分析项目)
网站日志分析实战.项目一、用户行为日志概述1.用户访问、浏览、搜索、点击等行为都会被记录在网站的服务器上。2.用户的访问信息主要包括如下内容:(1)系统属性。(操作系统、浏览器)(2)点击的url,从什么url跳转过来(3)用户的sessionId、ip3.意义(1)网站的眼睛用于优化网站布局,用户网站的推广决策二、离线数据处理流程1.数据采集、(flume、logstash)将数据从网站的sev
我能想到的
·
2020-06-27 13:57
大数据
spark学习
过程中遇到的问题及解决方法
之前在学习Hadoop的时候,用./sbin/start-dfs.sh把Hadoop开始的时候,用jps一看,发现没有datanode,也就是说datanode根本没启动起来。看了一下启动日志,错误项出现在这里:2016-06-2308:54:10,484WARNorg.apache.hadoop.hdfs.server.common.Storage:java.io.IOException:Inc
FullenVay
·
2020-06-27 05:32
py
spark学习
之分布式hadoop+spark集群环境搭建
环境搭建hadoop+spark前期准备配置免密登录生成密钥:ssh-keygen-trsa添加密钥cat~/id_ras.pub>>~/authorized_keysscp传输同步到其他节点scp文件user@hostname:路径exp:scpscp~/.ssh/id_rsa.pubroot@root:~配置hostsvim/etc/hosts安装jdk1.8离线安装命令为rpm-ivhjav
Torres Ye
·
2020-06-26 20:30
pyspark大数据分析
Spark学习
入门(让人看了想吐的话题)
这是个老生常谈的话题,大家是不是看到这个文章标题就快吐了,本来想着手写一些有技术深度的东西,但是看到太多童鞋卡在入门的门槛上,所以还是打算总结一下入门经验。这种标题真的真的在哪里都可以看得到,度娘一搜就是几火车皮,打开一看都是千篇一律的“workcount”、“quickstart”,但是这些对于初学者来说还差的太多,这些东东真的只是spark的冰山一角,摸着这些石头过河的话,弯路太多、暗礁涌动,
大数据星球-浪尖
·
2020-06-26 05:27
Spark学习
(二)Spark集群的搭建
Spark集群一、Spark集群的四种运行模式二、基于Standalone的Spark集群搭建三、Standalone基于zookeeper的高可用Spark集群搭建1、SparkHA主备切换的过程2、搭建SparkHA3、测试SparkHA:一、Spark集群的四种运行模式1、Local单机运行,一般用于开发测试。2、YarnSpark客户端直接连接Yarn,不需要额外构建Spark集群。3、S
B&&D
·
2020-06-26 00:46
Spark学习
(七)问题整理
关于RDD算子的问题:1、如果Application中只有一个action类算子,那么有没有必要使用控制类算子?没有,因为一个action类算子对应一个job,没必要往内存或磁盘中写。2、如果持久化的级别是MEMORY_ONLY(CACHE),如果内存不足会不会出现OOM?不会出现,能存多少就存多少,不会报错。存不下的就不存了,等需要的时候会根据依赖关系重新计算。3、如果持久化的级别是MEMORY
B&&D
·
2020-06-26 00:46
Spark学习
笔记
MR的缺点:mr基于数据集的计算,所以面向数据1.基于运行规则从存储介质中获取(采集)数据,然后计算。最后将结果存储到介质中,主要应用于以一次性计算,不适用于数据挖掘和机器学习这样的迭代计算和图形挖掘计算。2.MR基于文件存储介质的操作,所以性能非常慢。Spark历史是一种基于内存的快速、通用、可扩展的大数据分析引擎。2013年6月发布Spark基于Hadoop1.x架构思想,采用自己的方式改善H
hvip
·
2020-06-25 07:35
学习笔记
Spark学习
总结
1、Spark简介Spark是基于内存计算的通用大规模数据处理框架。Spark已经融入了Hadoop生态系统,可支持的作业类型和应用场景比MapReduce更为广泛,并且具备了MapReduce所有的高容错性和高伸缩性特点。Spark支持离线批处理、流式计算和实时分析。2、Spark为何快MapReduce慢的原因:多个MapReduce串联执行时,依赖于HDFS输出的中间结果MapReduce在
张薄薄
·
2020-06-25 07:17
Spark学习
之路(一)【概述、环境搭建、基本操作】
Spark一、概述http://spark.apache.org/ApacheSpark™isaunified(统一)analyticsengineforlarge-scaledataprocessing.特点高效:Runworkloads100xfaster.易用:WriteapplicationsquicklyinJava,Scala,Python,R,andSQL通用:CombineSQL,
高志遠
·
2020-06-25 05:09
Spark
spark学习
:org.apache.spark.SparkException: A master URL must be set in your config
Exceptioninthread"main"org.apache.spark.SparkException:AmasterURLmustbesetinyourconfiguration从提示中可以看出找不到程序运行的master,此时需要配置环境变量。传递给Spark的masterurl可以有如下几种:local本地单线程local[K]本地多线程(指定K个内核)local[*]本地多线程(指定
九师兄
·
2020-06-25 01:23
大数据-spark
spark学习
-SparkSQL--07-SparkContext类和SparkConf类
任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Sparkshell会自动初始化一个SparkContext,在编程中的具体实现为:valconf=newSparkConf().se
九师兄
·
2020-06-25 01:21
大数据-spark
Spark学习
笔记2
Overview每一个spark程序都是有一个驱动程序组成,并且通过main函数运行。spark有两个重要的抽象:RDD,分布式弹性数据集,他是一个跨越多个节点的分布式集合。另一个抽象是共享变量。spark支持两种类型的共享变量:一个是广播(broadcastvariables)他可以缓存一个值在集群的各个节点。另一个是累加器(accumulators)他只能执行累加的操作,比如可以做计数器和求和
wangmin
·
2020-06-24 14:02
Spark学习
笔记(三)-Spark Streaming
SparkStreaming支持实时数据流的可扩展(scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(streamprocessing)。架构图特性如下:可线性伸缩至超过数百个节点;实现亚秒级延迟处理;可与Spark批处理和交互式处理无缝集成;提供简单的API实现复杂算法;更多的流方式支持,包括Kafka、Flume、Kinesis、Twi
萨姆大叔
·
2020-06-24 11:00
Hadoop及
Spark学习
路线及资源收纳
title:Hadoop及
Spark学习
路线及资源收纳date:2018-11-1816:19:54tags:Hadoopcategories:大数据toc:true点击查看我的博客:Josonlee’
lzw2016
·
2020-06-24 11:30
Hadoop及Spark学习
大数据学习进阶
Spark学习
-Coalesce()方法和rePartition()方法
最近使用spark中遇到了重分区的问题,本文对下面三篇文章内容按照自己逻辑进行整理,mark下!!https://www.cnblogs.com/fillPv/p/5392186.htmlhttps://blog.csdn.net/do_yourself_go_on/article/details/74315834https://blog.csdn.net/u011981433/article/d
lzq20115395
·
2020-06-24 11:51
spark
spark
coalesce方法
rePartition方法
spark学习
笔记(二)
一、编程环境以下为Mac系统上单机版Spark练习编程环境的配置方法。注意:仅配置练习环境无需安装Hadoop,无需安装Scala。1,安装Java8注意避免安装其它版本的jdk,否则会有不兼容问题。https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2,下载spark并解压http
萨姆大叔
·
2020-06-24 11:00
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他