spark学习第4页

关于Spark入门的第一个wordcount代码详解

简介:学习计算引擎(MapReduce,Hive,Spark,Flink)等,wordcount案例都会是我们接触的要第一个Demo下面就Spark学习的wordcount案例进行一个详解如下图:代码:

刘啊福·2021-01-20 15:16

pythonspark安装_Spark学习笔记--Spark在Windows下的环境搭建

本文主要是讲解Spark在Windows环境是如何搭建的一、JDK的安装1、1下载JDK首先需要安装JDK，并且将环境变量配置好，如果已经安装了的老司机可以忽略。JDK(全称是JavaTMPlatformStandardEditionDevelopmentKit)的安装，去Oracle官网下载，下载地址是JavaSEDownloads。上图中两个用红色标记的地方都是可以点击的，点击进去之后可以看到

何宜晖·2021-01-13 09:48

sparkcore分区_Spark学习：Spark源码和调优简介 Spark Core (二）

第一部分内容见：Spark学习：Spark源码和调优简介SparkCore(一）Task阶段下面是重头戏submitMissingTasks，这个方法负责生成TaskSet，并且将它提交给TaskScheduler

蒲牢森·2020-12-27 16:59

Spark学习（二）——RDD和WordCount程序

SparkSQL主要用作离线海量数据分析SparkStreaming主要用作对数据实时处理Spark的工作原理与MapReduce是如出一辙的，区别在于MapReduce是在HDFS上做计算，而Spark是在内存中做计算，这就形成了Spark这一计算引擎的优势——效率速度快。一、RDD简介RDD，（ResilientDistributedDatasets），即弹性分布式数据集，是一个容错、并行的数

大数据阶梯之路·2020-12-17 09:59

大数据学习之路~Spark

目录Spark学习之路（一）Spark初识Spark学习之路（二）Spark2.3HA集群的分布式安装Spark学习之路（三）Spark之RDDSpark学习之路（四）Spark的广播变量和累加器Spark

素颜vv风之殇·2020-12-01 19:11

Spark学习之Spark Streaming（一）

SparkStreaming实时数据流处理一、SparkStreaming基础1、SparkStreaming简介官方文档SparkStreaming是核心SparkAPI的扩展，可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka，Flume，Kinesis或TCP套接字等众多来源获取，并且可以使用由高级函数（如map，reduce，join和window）开发的复杂算法进行

羋学僧·2020-10-20 15:04

spark学习之sparksql中dataframe的常用函数

SparkSql-DataFrame一、DataFrame的相关方法1、show作用：展示数据show(numRows:Int,truncate:Boolean)show(numRows:Int)numRows：表示展示的行数（默认展示20行）Truncate:只有两个取值true,false,表示一个字段是否最多显示20个字符，默认为true2、collect作用：获取一个dataframe的里

Carnation_s·2020-10-11 23:36

【Spark学习笔记】Spark下的四种中文分词工具

1.Spark下四种中文分词工具使用hanLPansjjiebafudannlp2.获取四种分词工具在maven项目工程下的pom.xml文件中添加点击import即可完成对前三种的获取org.ansjansj_seg5.1.3com.hankcshanlpportable-1.3.4com.huabanjieba-analysis1.0.2fudannlpgithub地址：https://git

不可能打工·2020-09-17 11:21

Spark学习之路（二十一）SparkSQL的开窗函数和DataSet

Spark学习之路（二十一）SparkSQL的开窗函数和DataSet转载于:https://www.cnblogs.com/liuys635/p/11002817.html

weixin_33947521·2020-09-17 06:45

Spark学习之路（二十一）SparkSQL的开窗函数和DataSet

666转载于:https://www.cnblogs.com/qingyunzong/p/8994425.html

weixin_30315723·2020-09-17 06:06

spark学习记录（十二、Spark UDF&UDAF&开窗函数）

一、UDF&UDAFpublicclassJavaExample{publicstaticvoidmain(String[]args){SparkConfconf=newSparkConf();conf.setMaster("local");conf.setAppName("udf");JavaSparkContextsc=newJavaSparkContext(conf);SQLContexts

在知识的海洋中遨游·2020-09-17 06:25

spark学习-38-Spark的MemoryManager

参考很有价值的博客：http://blog.csdn.net/dabokele/article/details/51475469http://m.blog.csdn.net/uuffo/article/details/78601253http://blog.csdn.net/anonymous_cx/article/details/522150031.spark的MemoryManager是一个抽

九师兄·2020-09-17 02:19

spark学习-32-SparkEnv的构造步骤

1.看代码/***HelpermethodtocreateaSparkEnvforadriveroranexecutor.*辅助方法来创建一个驱动程序或执行器sparkenv。**SparkEnv的构造步骤如下：*1.创建安全管理器SecurityManager*2.创建给予AKKa的分布式消息系统ActorSystem;*3.创建Map任务输出跟踪器mapOutputTracker;*4.实例化

九师兄·2020-09-17 02:18

spark学习-40-Spark的UnifiedMemoryManager

1。StaticMemoryManager继承与MemoryManager，它是静态的内存分配，是1.6版本以前的实现，就像是建筑商建造好了房子，用户来到直接住进去就好了（弊端：有的人多住了小房子，有的人少住了大房子）。而UnifiedMemoryManager是自由分配内存的实现，相当于组装房，你要多大我给你多大。packageorg.apache.spark.memoryimportorg.a

九师兄·2020-09-17 02:05

Spark学习笔记三之RDD是个什么东西

注意一些关于SparkCore的简单的概念理解，请参考一下我的这篇博客：Spark学习笔记二之SparkCore核心概念一网打尽简介定义RDD(ResilientDistributedDatasets)

Shockang·2020-09-16 11:06

Spark学习笔记一之为什么Spark这么牛逼

先来看一组信息：2014年的SortBenchmark测试中，Spark在使用十分之一计算资源的情况下，相同数据排序，Spark比MapReduce快3倍！2015年6月，Spark最大的集群来自腾讯——8000个结点，单个Job最大来自阿里巴巴和Databricks——1PBUseofMapReduceengineforBigDataprojectswilledecline,replacedby

Shockang·2020-09-16 11:06

Spark学习笔记二之Spark Core核心概念一网打尽

其次，Spark学习起来也不会很容易，各种知识点错综复杂，初入门的人可能会被这些知识点给绕晕了，所以这篇文章主要就是——敲

Shockang·2020-09-16 10:27

spark学习-SparkSQL-SparkSession与SparkContext

SparkSession-Spark的一个全新的切入点SparkSession是Spark2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习spark的各项功能。在spark的早期版本中，SparkContext是spark的主要切入点，由于RDD是主要的API，我们通过sparkcontext来创建和操作RDD。对于每个其他的API，我们需要使用不同的cont

九师兄·2020-09-15 17:37

Spark学习——数据倾斜

weixin_34357887·2020-09-15 15:33

PySpark学习案例——北京空气质量分析

下方有数据可免费下载目录原始数据环境各个组件所遇到的问题各种webUI端口Python代码azkaban调度kibana可视化原始数据下载数据:请点击我.提取码：736f或者登录：http://stateair.net/web/historical/1/1.html原始数据（北京2015年的空气质量）：本次分析的目的只是简单的对比北京2015，2016，2017这3年的PM值，最后用柱状图表示出来

程研板·2020-09-15 12:30

Spark学习案例——SparkSQL结合Kudu实现广告业务分析

下方有数据可免费下载目录原始数据项目架构ETL处理业务一业务二业务三代码重构打包定时运行源码地址https://github.com/chengyanban/spark-project/tree/master/广告数据分析原始数据下载数据:请点击我.提取码：3bm9有两个文件，一个广告业务的data-test.json，一个ip.txt文件项目架构ETL处理data-test.json文件中每行有

程研板·2020-09-15 12:30

PySpark学习

1、RDD创建：（1）从文件系统中加载数据创建RDDlines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")（2）从HDFS中读取并加载数据>>>lines=sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")>>>lines=sc.textFile("/user/

baoguaalalei1234·2020-09-15 04:39

Spark修炼之道——Spark学习路线、课程大纲

课程内容Spark修炼之道（基础篇）——Linux基础（15讲）、Akka分布式编程（8讲）Spark修炼之道（进阶篇）——Spark入门到精通（30讲）Spark修炼之道（实战篇）——Spark应用开发实战篇（20讲）Spark修炼之道（高级篇）——Spark源码解析（50讲）部分内容会在实际编写时动态调整，或补充、或删除。Spark修炼之道（基础篇）——Linux大数据开发基础（15讲）、Li

weixin_34295316·2020-09-15 03:03

大数据之spark学习记录二: Spark的安装与上手

大数据之spark学习记录二:Spark的安装与上手文章目录大数据之spark学习记录二:Spark的安装与上手Spark安装本地模式Standalone模式基本配置步骤1:复制spark,并命名为spark-standalone

ChanZany·2020-09-15 03:04

大数据技术之_19_Spark学习_02_Spark Core 应用解析+ RDD 概念 + RDD 编程 + 键值对 RDD + 数据读取与保存主要方式 + RDD 编程进阶 + 实际案例演示

大数据技术之_19_Spark学习_02第1章RDD概念1.1RDD为什么会产生1.2RDD概述1.2.1什么是RDD1.2.2RDD的属性1.3RDD弹性1.4RDD特点1.4.1分区1.4.2只读1.4.3

黑泽君·2020-09-15 01:09

大数据学习——java调用spark学习测试

spark是一种计算框架，如果只是想学习，完全可以脱离hadoop而独立运行，当然这样就没法使用hdfs进行数据存储。windows环境下，使用java语言添加spark依赖包就可以直接使用spark了。一、maven添加spark依赖：这个jar包还是挺大的，下载需要点时间。二、随便写个map操作importorg.apache.commons.lang3.StringUtils;importo

祁峰sunny·2020-09-14 09:57

Spark学习笔记--Spark在Windows下的环境搭建

本文主要是讲解Spark在Windows环境是如何搭建的一、JDK的安装1、1下载JDK首先需要安装JDK，并且将环境变量配置好，如果已经安装了的老司机可以忽略。JDK（全称是JavaTMPlatformStandardEditionDevelopmentKit）的安装，去Oracle官网下载，下载地址是JavaSEDownloads。上图中两个用红色标记的地方都是可以点击的，点击进去之后可以看到

a261505·2020-09-14 06:10

spark学习（二）RDD和DAG

一、sparkRDD概念RDD（ResilientDistributedDataset）叫做弹性分布式数据集,是spark中最基本也是最重要的概念之一。它是spark中一种基本的数据抽象，有容错机制并可以被并行操作的元素集合，具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD的知识较为庞杂，这里只能按我了解的做一些简单介绍。二、一些基本的熟悉和概念1、partition一份待

沼泽鱼97·2020-09-14 02:30

Spark学习—— (5) RDD基础编程（基于Python）

RDD是Spark中最基本的数据抽象。虽然Spark2.x中建议使用效率更高的DataSet代替RDD，但还是有必要学习一下RDD的相关知识。本文第一部分简单介绍RDD的一些基本概念，第二部分则介绍RDD的常用操作并给出例子。另外，本文介绍的操作不涉及到键值对RDD的操作，然而键值对RDD是许多操作所需要的常见数据类型，这部分内容会在下一篇笔记中补充。文章目录1.RDD简介1.1RDD是什么？1.

茵茵的聪聪·2020-09-14 02:10

Spark学习（二）——spark原理及优化

笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值，找寻数据的秘密，笔者认为，数据的价值不仅仅只体现在企业中，个人也可以体会到数据的魅力，用技术力量探索行为密码，让大数据助跑每一个人，欢迎直筒们关注我的公众号，大家一起讨论数据中的那些有趣的事情。我的公众号为：livandata1、RDD原理RDD读入外部数据源进行创建RDD经过一系列的转换（Transformatio

livan1234·2020-09-14 02:17

Spark学习随记(2)---RDD和DAG

概述：针对RDD的操作，分两种，一种是Transformation（变换），一种是Actions（执行）。Transformation（变换）操作属于懒操作（算子），不会真正触发RDD的处理计算。Actions（执行）操作才会真正触发。TransformationsActions案例：通过rdd实现统计文件中的单词数量sc.textFile("/root/work/words.txt").flat

李宏健ss·2020-09-14 01:53

Spark学习笔记@第一个例子wordcount+Eclipse

编写程序代码使用IDE为Eclipse；1、新建Scalaproject，完成后右击“wordcount”工程，选择properties在弹出的框中，按照下图所示，依次选择“JavaBuildPath”–>“Libraties”–>“AddExternalJARs…”，导入spark依赖的jar包，如下：$SPARK_HOME/lib$HADOOP_HOME/share/hadoop/common

pigcoffee·2020-09-13 05:28

Spark学习七 ——总体流程分析

Spark总体流程简述1.构建DAG（调用RDD上的方法）在driver段2.DAGScheduler将DAG切分Stage（切分的依据是Shuffle），将Stage中生成的Task以TaskSet的形式给TaskScheduler，在driver段3.TaskScheduler调度Task（根据资源情况将Task调度到相应的Executor中），在driver段4.Executor接收Task

heartless_killer·2020-09-12 10:26

Spark学习笔记

本文整理自《Spark快速大数据分析》，其中SparkSQL还没学习，日后补上第二章Spark入门RDD（弹性分布式数据集）是Spark对分布式数据和计算的基本抽象。每个Spark应用都有一个驱动器程序来发起集群上的并行操作。驱动器程序包含应用的main函数，并且定义了集群上的分布式数据集，还对数据集应用了相关操作。驱动器程序一般要管理多个执行器。如果是本地模式下，则所有的工作都会在单个节点上进行

银色子弹lx·2020-09-12 09:44

spark学习3之examples中的SparkPi

KeepLearningBigData·2020-09-12 08:15

hadoop与spark

hadoop与spark参考博客链接参考博客链接1.hadoop与spark学习笔记2.spark介绍3.hadoop与spark区别和联系

Zhouxk96·2020-09-12 08:10

Spark学习笔记：DStream的transformation操作概览

DStream的transformation操作概览一.SparkStreaming开发步骤创建输入DStream，如将Flume、Kafka、HDFS和Socket等作为数据源对输入DStream进行转换操作对转换后的DStream进行输出操作，比如存储到DBMS中二.DStream分类InputDStream，是最原始最初的DStream，它是依据不同的数据源创建的，也是RDD最初诞生的地方T

SetsunaMeow·2020-09-11 21:03

Hadoop概念学习系列之Hadoop、Spark学习路线（很值得推荐）（十八）

不多说，直接上干货！说在前面的话此笔，对于仅对于Hadoop和Spark初中学者。高手请忽略！1Java基础：视频方面：推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入，java学习到javase，在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。书籍方面：推荐李兴华的《java开发实战经典》2Linux基础：视频方面：（1）马哥的高薪Linux

weixin_33691817·2020-09-11 17:11

spark学习笔记之一：RDD的五大特性

1.AlistofpartitionsRDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的list；将数据加载为RDD时，一般会遵循数据的本地性（一般一个hdfs里的block会加载为一个partition）。2.AfunctionforcomputingeachsplitRDD的每个partition上面都会有function，也就是函数应用，其作用是实现RDD之间par

书灯·2020-09-11 16:25

spark学习笔记之二：宽依赖和窄依赖

1.如果父RDD里的一个partition只去向一个子RDD里的partition为窄依赖，否则为宽依赖（只要是shuffle操作）。2.spark根据算子判断宽窄依赖：窄依赖：map,filter,union宽依赖:groupByKey,join3.宽窄依赖用于切割action算子生成的工作（job）：根据宽依赖（shuffle）一个job会被切分成多个stage（阶段）去执行，一个stage包

书灯·2020-09-11 16:25

Hadoop和Spark学习日记3

1.ApacheKylin概览解析：ApacheKylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，它能在亚秒内查询巨大的Hive表。2.QPS解析：每秒查询率QPS是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。3.LoadBalancer（负载均衡器）解析：LVS（LinuxVirtualServer）；Ngin

1000sprites·2020-09-11 13:00

Hadoop学习系列之Hadoop、Spark学习路线（很值得推荐）

Hadoop学习系列之Hadoop、Spark学习路线（很值得推荐）文章出自：http://www.cnblogs.com/zlslch/p/5448857.html1Java基础：视频方面：推荐毕老师

十年没笑·2020-09-11 12:54

Eclipse搭建Scala+Spark开发环境spark学习博客

1、搭建教程：https://www.cnblogs.com/wmm15738807386/p/6723391.htmlhttp://www.linuxidc.com/Linux/2015-08/120946.htmhttps://blog.csdn.net/ldds_520/article/details/518307212、eclipse中运行第一个scala编写的spark程序：http:/

xiaoliuyiting·2020-09-11 11:10

spark学习-运行spark on yarn 例子和查看日志.

要通过web页面查看运行日志,需要启动两个东西hadoop启动jobhistoryserver和spark的history-server.相关配置文件:etc/hadoop/mapred-site.xmlmapreduce.jobhistory.addressspark-master:10020mapreduce.jobhistory.webapp.addressspark-master:1988

hobbit先生·2020-09-11 11:05

Spark学习2 Mac OS X上Eclipse中搭建Hadoop的开发环境

一、在MacOSX上搭建Hadoop开发环境Mac上的Hadoop环境搭建可以参考MacOSX上搭建Hadoop开发环境指南。我在安装过程中遇到了两个错误：1.使用hadoopnamenode-format启动NameNode时，hdfs报错：根据报错信息猜测可能是Java路径设置错误，查看hadoop-env.sh文件中JAVA_HOME的设置，发现路径中少了一个字母，修改成正确路径后，Name

明明家的小榛果·2020-09-11 09:16

pyspark学习（一）-- 入门程序word count

1.学习spark的第一个程序wordcount先说下本人的开发环境和工具：win10spark1.6python2.7pycharm什么是wordcount？单词计数为什么第一个程序是它，helloword呢？基本上是学习hadoop的mapreduce或spark入门的第一个程序，地位类似于学习写代码时的helloworld。言归正传代码frompysparkimportSparkConf,S

lc_1123·2020-09-11 09:38

Spark学习笔记1——第一个Spark程序：单词数统计

Spark学习笔记1——第一个Spark程序：单词数统计笔记摘抄自[美]HoldenKarau等著的《Spark快速大数据分析》添加依赖通过Maven添加Spark-core_2.10的依赖程序找了一篇注释比较清楚的博客代码

aou9515·2020-09-11 08:15

Spark学习笔记8-在eclipse里用Java编写spark程序

程序实现笔记7一样的内容，做一个README.md文件的单词计数，并打印出来，这次只做单机下运行，集群模式可以参考Spark学习笔记7的内容完成。

XianMing的博客·2020-09-11 07:26

Spark学习八：spark streaming与flume和kafka集成

Spark学习八：sparkstreaming与flume和kafka集成标签（空格分隔）：SparkSpark学习八sparkstreaming与flume和kafka集成一Kafka二flume和kafka

forrestxingyunfei·2020-09-11 06:51

Spark学习三：Spark Schedule以及idea的安装和导入源码

Spark学习三：SparkSchedule以及idea的安装和导入源码标签（空格分隔）：SparkSpark学习三SparkSchedule以及idea的安装和导入源码一RDD操作过程中的数据位置二SparkSchedule

forrestxingyunfei·2020-09-11 06:21

推荐频道

spark学习

关于Spark入门的第一个wordcount代码详解

pythonspark安装_Spark学习笔记--Spark在Windows下的环境搭建

sparkcore分区_Spark学习：Spark源码和调优简介 Spark Core (二）

Spark学习（二）——RDD和WordCount程序

大数据学习之路~Spark

Spark学习之Spark Streaming（一）

spark学习之sparksql中dataframe的常用函数

【Spark学习笔记】Spark下的四种中文分词工具

Spark学习之路 （二十一）SparkSQL的开窗函数和DataSet

Spark学习之路 （二十一）SparkSQL的开窗函数和DataSet

spark学习记录（十二、Spark UDF&UDAF&开窗函数）

spark学习-38-Spark的MemoryManager

spark学习-32-SparkEnv的构造步骤

spark学习-40-Spark的UnifiedMemoryManager

Spark学习笔记三之RDD是个什么东西

Spark学习笔记一之为什么Spark这么牛逼

Spark学习笔记二之Spark Core核心概念一网打尽

spark学习-SparkSQL-SparkSession与SparkContext

Spark学习——数据倾斜

PySpark学习案例——北京空气质量分析

Spark学习案例——SparkSQL结合Kudu实现广告业务分析

PySpark学习

Spark修炼之道——Spark学习路线、课程大纲

大数据之spark学习记录二: Spark的安装与上手

大数据技术之_19_Spark学习_02_Spark Core 应用解析+ RDD 概念 + RDD 编程 + 键值对 RDD + 数据读取与保存主要方式 + RDD 编程进阶 + 实际案例演示

大数据学习——java调用spark学习测试

Spark学习笔记--Spark在Windows下的环境搭建

spark学习（二）RDD和DAG

Spark学习—— (5) RDD基础编程（基于Python）

Spark学习（二）——spark原理及优化

Spark学习随记(2)---RDD和DAG

Spark学习笔记@第一个例子wordcount+Eclipse

Spark学习七 ——总体流程分析

Spark学习笔记

spark学习3之examples中的SparkPi

hadoop与spark

Spark学习笔记：DStream的transformation操作概览

Hadoop概念学习系列之Hadoop、Spark学习路线（很值得推荐）（十八）

spark学习笔记之一：RDD的五大特性

spark学习笔记之二：宽依赖和窄依赖

Hadoop和Spark学习日记3

Hadoop学习系列之Hadoop、Spark学习路线（很值得推荐）

Eclipse搭建Scala+Spark开发环境spark学习博客

spark学习-运行spark on yarn 例子和查看日志.

Spark学习2 Mac OS X上Eclipse中搭建Hadoop的开发环境

pyspark学习（一）-- 入门程序word count

Spark学习笔记1——第一个Spark程序：单词数统计

Spark学习笔记8-在eclipse里用Java编写spark程序

Spark学习八：spark streaming与flume和kafka集成

Spark学习三：Spark Schedule以及idea的安装和导入源码

Spark学习之路（二十一）SparkSQL的开窗函数和DataSet

Spark学习之路（二十一）SparkSQL的开窗函数和DataSet