E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark学习
关于Spark入门的第一个wordcount代码详解
简介:学习计算引擎(MapReduce,Hive,Spark,Flink)等,wordcount案例都会是我们接触的要第一个Demo下面就
Spark学习
的wordcount案例进行一个详解如下图:代码:
刘啊福
·
2021-01-20 15:16
Spark
pythonspark安装_
Spark学习
笔记--Spark在Windows下的环境搭建
本文主要是讲解Spark在Windows环境是如何搭建的一、JDK的安装1、1下载JDK首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略。JDK(全称是JavaTMPlatformStandardEditionDevelopmentKit)的安装,去Oracle官网下载,下载地址是JavaSEDownloads。上图中两个用红色标记的地方都是可以点击的,点击进去之后可以看到
何宜晖
·
2021-01-13 09:48
pythonspark安装
sparkcore分区_
Spark学习
:Spark源码和调优简介 Spark Core (二)
第一部分内容见:
Spark学习
:Spark源码和调优简介SparkCore(一)Task阶段下面是重头戏submitMissingTasks,这个方法负责生成TaskSet,并且将它提交给TaskScheduler
蒲牢森
·
2020-12-27 16:59
sparkcore分区
Spark学习
(二)——RDD和WordCount程序
SparkSQL主要用作离线海量数据分析SparkStreaming主要用作对数据实时处理Spark的工作原理与MapReduce是如出一辙的,区别在于MapReduce是在HDFS上做计算,而Spark是在内存中做计算,这就形成了Spark这一计算引擎的优势——效率速度快。一、RDD简介RDD,(ResilientDistributedDatasets),即弹性分布式数据集,是一个容错、并行的数
大数据阶梯之路
·
2020-12-17 09:59
大数据学习之路~Spark
目录
Spark学习
之路(一)Spark初识
Spark学习
之路(二)Spark2.3HA集群的分布式安装
Spark学习
之路(三)Spark之RDD
Spark学习
之路(四)Spark的广播变量和累加器
Spark
素颜vv风之殇
·
2020-12-01 19:11
大数据之Spark
spark
大数据
Spark学习
之Spark Streaming(一)
SparkStreaming实时数据流处理一、SparkStreaming基础1、SparkStreaming简介官方文档SparkStreaming是核心SparkAPI的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等众多来源获取,并且可以使用由高级函数(如map,reduce,join和window)开发的复杂算法进行
羋学僧
·
2020-10-20 15:04
spark学习
之sparksql中dataframe的常用函数
SparkSql-DataFrame一、DataFrame的相关方法1、show作用:展示数据show(numRows:Int,truncate:Boolean)show(numRows:Int)numRows:表示展示的行数(默认展示20行)Truncate:只有两个取值true,false,表示一个字段是否最多显示20个字符,默认为true2、collect作用:获取一个dataframe的里
Carnation_s
·
2020-10-11 23:36
笔记
spark
【
Spark学习
笔记】Spark下的四种中文分词工具
1.Spark下四种中文分词工具使用hanLPansjjiebafudannlp2.获取四种分词工具在maven项目工程下的pom.xml文件中添加点击import即可完成对前三种的获取org.ansjansj_seg5.1.3com.hankcshanlpportable-1.3.4com.huabanjieba-analysis1.0.2fudannlpgithub地址:https://git
不可能打工
·
2020-09-17 11:21
Spark学习
之路 (二十一)SparkSQL的开窗函数和DataSet
Spark学习
之路(二十一)SparkSQL的开窗函数和DataSet转载于:https://www.cnblogs.com/liuys635/p/11002817.html
weixin_33947521
·
2020-09-17 06:45
大数据
Spark学习
之路 (二十一)SparkSQL的开窗函数和DataSet
666转载于:https://www.cnblogs.com/qingyunzong/p/8994425.html
weixin_30315723
·
2020-09-17 06:06
大数据
spark学习
记录(十二、Spark UDF&UDAF&开窗函数)
一、UDF&UDAFpublicclassJavaExample{publicstaticvoidmain(String[]args){SparkConfconf=newSparkConf();conf.setMaster("local");conf.setAppName("udf");JavaSparkContextsc=newJavaSparkContext(conf);SQLContexts
在知识的海洋中遨游
·
2020-09-17 06:25
spark
spark学习
-38-Spark的MemoryManager
参考很有价值的博客:http://blog.csdn.net/dabokele/article/details/51475469http://m.blog.csdn.net/uuffo/article/details/78601253http://blog.csdn.net/anonymous_cx/article/details/522150031.spark的MemoryManager是一个抽
九师兄
·
2020-09-17 02:19
大数据-spark
spark学习
-32-SparkEnv的构造步骤
1.看代码/***HelpermethodtocreateaSparkEnvforadriveroranexecutor.*辅助方法来创建一个驱动程序或执行器sparkenv。**SparkEnv的构造步骤如下:*1.创建安全管理器SecurityManager*2.创建给予AKKa的分布式消息系统ActorSystem;*3.创建Map任务输出跟踪器mapOutputTracker;*4.实例化
九师兄
·
2020-09-17 02:18
大数据-spark
spark学习
-40-Spark的UnifiedMemoryManager
1。StaticMemoryManager继承与MemoryManager,它是静态的内存分配,是1.6版本以前的实现,就像是建筑商建造好了房子,用户来到直接住进去就好了(弊端:有的人多住了小房子,有的人少住了大房子)。而UnifiedMemoryManager是自由分配内存的实现,相当于组装房,你要多大我给你多大。packageorg.apache.spark.memoryimportorg.a
九师兄
·
2020-09-17 02:05
大数据-spark
Spark学习
笔记三之RDD是个什么东西
注意一些关于SparkCore的简单的概念理解,请参考一下我的这篇博客:
Spark学习
笔记二之SparkCore核心概念一网打尽简介定义RDD(ResilientDistributedDatasets)
Shockang
·
2020-09-16 11:06
Spark
spark
大数据
Spark学习
笔记一之为什么Spark这么牛逼
先来看一组信息:2014年的SortBenchmark测试中,Spark在使用十分之一计算资源的情况下,相同数据排序,Spark比MapReduce快3倍!2015年6月,Spark最大的集群来自腾讯——8000个结点,单个Job最大来自阿里巴巴和Databricks——1PBUseofMapReduceengineforBigDataprojectswilledecline,replacedby
Shockang
·
2020-09-16 11:06
Spark
大数据
spark
Spark学习
笔记二之Spark Core核心概念一网打尽
其次,
Spark学习
起来也不会很容易,各种知识点错综复杂,初入门的人可能会被这些知识点给绕晕了,所以这篇文章主要就是——敲
Shockang
·
2020-09-16 10:27
Spark
spark
大数据
spark学习
-SparkSQL-SparkSession与SparkContext
SparkSession-Spark的一个全新的切入点SparkSession是Spark2.0引如的新概念。SparkSession为用户提供了统一的切入点,来让用户学习spark的各项功能。 在spark的早期版本中,SparkContext是spark的主要切入点,由于RDD是主要的API,我们通过sparkcontext来创建和操作RDD。对于每个其他的API,我们需要使用不同的cont
九师兄
·
2020-09-15 17:37
大数据-spark
Spark学习
——数据倾斜
其他更多java基础文章:java基础学习(目录)学习资料:数据倾斜是多么痛?spark作业/面试/调优必备秘籍1.什么是数据倾斜数据倾斜是一种很常见的问题(依据二八定律),简单来说,比方WordCount中某个Key对应的数据量非常大的话,就会产生数据倾斜,导致两个后果:OOM(单或少数的节点);拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点)。2.解决数据倾斜需要搞定Shuf
weixin_34357887
·
2020-09-15 15:33
Py
Spark学习
案例——北京空气质量分析
下方有数据可免费下载目录原始数据环境各个组件所遇到的问题各种webUI端口Python代码azkaban调度kibana可视化原始数据下载数据:请点击我.提取码:736f或者登录:http://stateair.net/web/historical/1/1.html原始数据(北京2015年的空气质量):本次分析的目的只是简单的对比北京2015,2016,2017这3年的PM值,最后用柱状图表示出来
程研板
·
2020-09-15 12:30
#
Spark学习案例
spark
数据可视化
python
大数据
Spark学习
案例——SparkSQL结合Kudu实现广告业务分析
下方有数据可免费下载目录原始数据项目架构ETL处理业务一业务二业务三代码重构打包定时运行源码地址https://github.com/chengyanban/spark-project/tree/master/广告数据分析原始数据下载数据:请点击我.提取码:3bm9有两个文件,一个广告业务的data-test.json,一个ip.txt文件项目架构ETL处理data-test.json文件中每行有
程研板
·
2020-09-15 12:30
#
Spark学习案例
spark
java
大数据
scala
Py
Spark学习
1、RDD创建:(1)从文件系统中加载数据创建RDDlines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")(2)从HDFS中读取并加载数据>>>lines=sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")>>>lines=sc.textFile("/user/
baoguaalalei1234
·
2020-09-15 04:39
机器学习
Spark修炼之道——
Spark学习
路线、课程大纲
课程内容Spark修炼之道(基础篇)——Linux基础(15讲)、Akka分布式编程(8讲)Spark修炼之道(进阶篇)——Spark入门到精通(30讲)Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)Spark修炼之道(高级篇)——Spark源码解析(50讲)部分内容会在实际编写时动态调整,或补充、或删除。Spark修炼之道(基础篇)——Linux大数据开发基础(15讲)、Li
weixin_34295316
·
2020-09-15 03:03
大数据之
spark学习
记录二: Spark的安装与上手
大数据之
spark学习
记录二:Spark的安装与上手文章目录大数据之
spark学习
记录二:Spark的安装与上手Spark安装本地模式Standalone模式基本配置步骤1:复制spark,并命名为spark-standalone
ChanZany
·
2020-09-15 03:04
大数据
大数据
hadoop
spark
linux
java
大数据技术之_19_
Spark学习
_02_Spark Core 应用解析+ RDD 概念 + RDD 编程 + 键值对 RDD + 数据读取与保存主要方式 + RDD 编程进阶 + 实际案例演示
大数据技术之_19_
Spark学习
_02第1章RDD概念1.1RDD为什么会产生1.2RDD概述1.2.1什么是RDD1.2.2RDD的属性1.3RDD弹性1.4RDD特点1.4.1分区1.4.2只读1.4.3
黑泽君
·
2020-09-15 01:09
Spark学习笔记
大数据学习——java调用
spark学习
测试
spark是一种计算框架,如果只是想学习,完全可以脱离hadoop而独立运行,当然这样就没法使用hdfs进行数据存储。windows环境下,使用java语言添加spark依赖包就可以直接使用spark了。一、maven添加spark依赖:这个jar包还是挺大的,下载需要点时间。二、随便写个map操作importorg.apache.commons.lang3.StringUtils;importo
祁峰sunny
·
2020-09-14 09:57
Spark学习
笔记--Spark在Windows下的环境搭建
本文主要是讲解Spark在Windows环境是如何搭建的一、JDK的安装1、1下载JDK首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略。JDK(全称是JavaTMPlatformStandardEditionDevelopmentKit)的安装,去Oracle官网下载,下载地址是JavaSEDownloads。上图中两个用红色标记的地方都是可以点击的,点击进去之后可以看到
a261505
·
2020-09-14 06:10
spark学习
(二)RDD和DAG
一、sparkRDD概念RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是spark中最基本也是最重要的概念之一。它是spark中一种基本的数据抽象,有容错机制并可以被并行操作的元素集合,具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD的知识较为庞杂,这里只能按我了解的做一些简单介绍。二、一些基本的熟悉和概念1、partition一份待
沼泽鱼97
·
2020-09-14 02:30
Spark学习
—— (5) RDD基础编程(基于Python)
RDD是Spark中最基本的数据抽象。虽然Spark2.x中建议使用效率更高的DataSet代替RDD,但还是有必要学习一下RDD的相关知识。本文第一部分简单介绍RDD的一些基本概念,第二部分则介绍RDD的常用操作并给出例子。另外,本文介绍的操作不涉及到键值对RDD的操作,然而键值对RDD是许多操作所需要的常见数据类型,这部分内容会在下一篇笔记中补充。文章目录1.RDD简介1.1RDD是什么?1.
茵茵的聪聪
·
2020-09-14 02:10
大数据学习记录
Spark学习
(二)——spark原理及优化
笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata1、RDD原理RDD读入外部数据源进行创建RDD经过一系列的转换(Transformatio
livan1234
·
2020-09-14 02:17
spark
Spark学习
随记(2)---RDD和DAG
概述:针对RDD的操作,分两种,一种是Transformation(变换),一种是Actions(执行)。Transformation(变换)操作属于懒操作(算子),不会真正触发RDD的处理计算。Actions(执行)操作才会真正触发。TransformationsActions案例:通过rdd实现统计文件中的单词数量sc.textFile("/root/work/words.txt").flat
李宏健ss
·
2020-09-14 01:53
Spark学习
Spark学习
笔记@第一个例子wordcount+Eclipse
编写程序代码使用IDE为Eclipse;1、新建Scalaproject,完成后右击“wordcount”工程,选择properties在弹出的框中,按照下图所示,依次选择“JavaBuildPath”–>“Libraties”–>“AddExternalJARs…”,导入spark依赖的jar包,如下:$SPARK_HOME/lib$HADOOP_HOME/share/hadoop/common
pigcoffee
·
2020-09-13 05:28
spark
Spark学习
七 ——总体流程分析
Spark总体流程简述1.构建DAG(调用RDD上的方法)在driver段2.DAGScheduler将DAG切分Stage(切分的依据是Shuffle),将Stage中生成的Task以TaskSet的形式给TaskScheduler,在driver段3.TaskScheduler调度Task(根据资源情况将Task调度到相应的Executor中),在driver段4.Executor接收Task
heartless_killer
·
2020-09-12 10:26
Spark学习
笔记
本文整理自《Spark快速大数据分析》,其中SparkSQL还没学习,日后补上第二章Spark入门RDD(弹性分布式数据集)是Spark对分布式数据和计算的基本抽象。每个Spark应用都有一个驱动器程序来发起集群上的并行操作。驱动器程序包含应用的main函数,并且定义了集群上的分布式数据集,还对数据集应用了相关操作。驱动器程序一般要管理多个执行器。如果是本地模式下,则所有的工作都会在单个节点上进行
银色子弹lx
·
2020-09-12 09:44
Spark
spark学习
3之examples中的SparkPi
更多代码请见:https://github.com/xubo245/SparkLearningSparkexamples之SparkPi环境:服务器:ubuntuspark1.5.2编写环境:windoweclipse可以直接在集群上跑,为了熟悉流程,先下载到window,然后打成jar包上传运行:1.下载SparkPi.scala:地址:/home/hadoop/cloud/spark-1.5.
KeepLearningBigData
·
2020-09-12 08:15
spark
云计算
hadoop与spark
hadoop与spark参考博客链接参考博客链接1.hadoop与
spark学习
笔记2.spark介绍3.hadoop与spark区别和联系
Zhouxk96
·
2020-09-12 08:10
Spark学习
笔记:DStream的transformation操作概览
DStream的transformation操作概览一.SparkStreaming开发步骤创建输入DStream,如将Flume、Kafka、HDFS和Socket等作为数据源对输入DStream进行转换操作对转换后的DStream进行输出操作,比如存储到DBMS中二.DStream分类InputDStream,是最原始最初的DStream,它是依据不同的数据源创建的,也是RDD最初诞生的地方T
SetsunaMeow
·
2020-09-11 21:03
Spark
Spark
Streaming
Hadoop概念学习系列之Hadoop、
Spark学习
路线(很值得推荐)(十八)
不多说,直接上干货!说在前面的话此笔,对于仅对于Hadoop和Spark初中学者。高手请忽略!1Java基础:视频方面:推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。书籍方面:推荐李兴华的《java开发实战经典》2Linux基础:视频方面:(1)马哥的高薪Linux
weixin_33691817
·
2020-09-11 17:11
spark学习
笔记之一:RDD的五大特性
1.AlistofpartitionsRDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的list;将数据加载为RDD时,一般会遵循数据的本地性(一般一个hdfs里的block会加载为一个partition)。2.AfunctionforcomputingeachsplitRDD的每个partition上面都会有function,也就是函数应用,其作用是实现RDD之间par
书灯
·
2020-09-11 16:25
spark
spark学习
笔记之二:宽依赖和窄依赖
1.如果父RDD里的一个partition只去向一个子RDD里的partition为窄依赖,否则为宽依赖(只要是shuffle操作)。2.spark根据算子判断宽窄依赖:窄依赖:map,filter,union宽依赖:groupByKey,join3.宽窄依赖用于切割action算子生成的工作(job):根据宽依赖(shuffle)一个job会被切分成多个stage(阶段)去执行,一个stage包
书灯
·
2020-09-11 16:25
spark
Hadoop和
Spark学习
日记3
1.ApacheKylin概览解析:ApacheKylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的Hive表。2.QPS解析:每秒查询率QPS是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。3.LoadBalancer(负载均衡器)解析:LVS(LinuxVirtualServer);Ngin
1000sprites
·
2020-09-11 13:00
大数据和云计算
Hadoop学习系列之Hadoop、
Spark学习
路线(很值得推荐)
Hadoop学习系列之Hadoop、
Spark学习
路线(很值得推荐)文章出自:http://www.cnblogs.com/zlslch/p/5448857.html1Java基础:视频方面:推荐毕老师
十年没笑
·
2020-09-11 12:54
大数据学习
Eclipse搭建Scala+Spark开发环境
spark学习
博客
1、搭建教程:https://www.cnblogs.com/wmm15738807386/p/6723391.htmlhttp://www.linuxidc.com/Linux/2015-08/120946.htmhttps://blog.csdn.net/ldds_520/article/details/518307212、eclipse中运行第一个scala编写的spark程序:http:/
xiaoliuyiting
·
2020-09-11 11:10
spark
spark学习
-运行spark on yarn 例子和查看日志.
要通过web页面查看运行日志,需要启动两个东西hadoop启动jobhistoryserver和spark的history-server.相关配置文件:etc/hadoop/mapred-site.xmlmapreduce.jobhistory.addressspark-master:10020mapreduce.jobhistory.webapp.addressspark-master:1988
hobbit先生
·
2020-09-11 11:05
大数据
Spark学习
2 Mac OS X上Eclipse中搭建Hadoop的开发环境
一、在MacOSX上搭建Hadoop开发环境Mac上的Hadoop环境搭建可以参考MacOSX上搭建Hadoop开发环境指南。我在安装过程中遇到了两个错误:1.使用hadoopnamenode-format启动NameNode时,hdfs报错:根据报错信息猜测可能是Java路径设置错误,查看hadoop-env.sh文件中JAVA_HOME的设置,发现路径中少了一个字母,修改成正确路径后,Name
明明家的小榛果
·
2020-09-11 09:16
大数据分析
py
spark学习
(一)-- 入门程序word count
1.学习spark的第一个程序wordcount先说下本人的开发环境和工具:win10spark1.6python2.7pycharm什么是wordcount?单词计数为什么第一个程序是它,helloword呢?基本上是学习hadoop的mapreduce或spark入门的第一个程序,地位类似于学习写代码时的helloworld。言归正传代码frompysparkimportSparkConf,S
lc_1123
·
2020-09-11 09:38
Spark学习
Spark学习
笔记1——第一个Spark程序:单词数统计
Spark学习
笔记1——第一个Spark程序:单词数统计笔记摘抄自[美]HoldenKarau等著的《Spark快速大数据分析》添加依赖通过Maven添加Spark-core_2.10的依赖程序找了一篇注释比较清楚的博客代码
aou9515
·
2020-09-11 08:15
Spark学习
笔记8-在eclipse里用Java编写spark程序
程序实现笔记7一样的内容,做一个README.md文件的单词计数,并打印出来,这次只做单机下运行,集群模式可以参考
Spark学习
笔记7的内容完成。
XianMing的博客
·
2020-09-11 07:26
Spark
Spark学习
八:spark streaming与flume和kafka集成
Spark学习
八:sparkstreaming与flume和kafka集成标签(空格分隔):Spark
Spark学习
八sparkstreaming与flume和kafka集成一Kafka二flume和kafka
forrestxingyunfei
·
2020-09-11 06:51
spark
spark
Spark学习
三:Spark Schedule以及idea的安装和导入源码
Spark学习
三:SparkSchedule以及idea的安装和导入源码标签(空格分隔):Spark
Spark学习
三SparkSchedule以及idea的安装和导入源码一RDD操作过程中的数据位置二SparkSchedule
forrestxingyunfei
·
2020-09-11 06:21
spark
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他