Spark学习第6页

[大数据]spark入门 in python（一）HelloWorld

代码开发又或者使用hive来便利分析，但是面对实时计算，就需要跟高一层级的框架了，storm，spark就是对应的技术了，于是自己开始学习spark，作为半路出家的选手自然选用了python作为开发语言下面就是自己的spark

binsfan·2020-08-15 09:49

Spark学习-SparkSQL--04-SparkSQL CLI 单节点运行与yarn集群运行

1。单节点运行bin/spark-sql--masterspark://bigdata01.hzjs.co:7077--executor-memory40g--total-executor-cores50--confspark.sql.warehouse.dir=hdfs://bigdata01.hzjs.co:8020/user/sparksql--confspark.driver.maxRes

九师兄·2020-08-14 18:35

spark学习13之RDD的partitions数目获取

KeepLearningBigData·2020-08-14 09:34

Spark学习-基本名词理解

分布式弹性数据集RDD（ResilientDistributeDataSet）可以理解为Spark中用于数据处理的基本数据类型。详见：https://blog.csdn.net/weixin_42078760/article/details/107272921数据分区PartitionRDD在集群中被切分为多个分区，每个分区单独进行计算。数据块Block每个数据分片在底层存储中，都会以block形

Angryshark_128·2020-08-13 22:44

Spark学习-一文了解RDD

什么是RDDRDD（ResilientDistributedDataset）弹性分布式数据集，RDD从字面理解，分为三个层面：弹性、分布式、数据集。RDD是一种数据集，是Spark对于要处理的数据的抽象，就像Java等高级编程语言中的List、HashMap等集合；分布式是因为我们通常是以集群形式进行分布式计算，RDD中的数据并非存在一个节点，而是分布于集群各个节点，便于调用各个节点的算力;RDD

Angryshark_128·2020-08-13 22:44

spark学习笔记总结-spark入门资料精化

Spark学习笔记Spark简介spark可以很容易和yarn结合，直接调用HDFS、Hbase上面的数据，和hadoop结合。配置很容易。spark发展迅猛，框架比hadoop更加灵活实用。

weixin_30763397·2020-08-13 20:06

【spark 学习笔记】Spark学习笔记精华（1）

好记性不如烂笔头，顺便就开始用手机练习打字了，也分享给感兴趣的朋友学习下。1.take可以查看RDD中前面几个元素，而且代价很小。rdd.take(5)2.可以用takeSample对数据进行采样，它的第一个参数表示是否允许重复采样。rdd.takeSample(true,3)3.top返回数据集中按给定ordering方式排序的最大的k条记录，许多场景都要用到它，比如对每条记录打分之后，检查得分

开心果汁·2020-08-13 20:20

spark 学习笔记

spark学习笔记《spakr快速大数据分析》书中例子是以spark1.2为基础写的。第二章启动ipythonPYSPARK_DRIVER_PYTHON=ipython.

振裕·2020-08-13 19:51

Spark 学习笔记

Spark学习笔记SparkSpark介绍Spark安装Spark架构、角色Spark任务执行流程SparkWorldCountSparkRDD什么是RDDRDD的属性创建RDD从内存从文件RDD分区RDD

CoLiuRs·2020-08-13 13:18

Spark学习笔记

Spark平台与业务接入---星星之火，可以燎原Spark官网：http://spark.apache.org/Catalog0.AreYouReadyToBeASparker?!1.Spark平台介绍2.业务接入准备2.1现在有哪些Spark集群？2.2该选用哪个Spark版本？2.3怎么接入Spark计算集群？2.4任务提交账户和数据准备3.业务代码编写与调试3.1Java/Scala任务3.

晓Study·2020-08-13 11:32

Spark学习总结

文章目录1、SparkSql读取文件2、SparkSqlDF自定义UDF3、spark.sql.functions.lit4、spark.sql.functions.regexp_extract5、sparkSql语法糖6、sparkSql的filter坑1、SparkSql读取文件\qquadspark读取文件，可以读取格式csv、json、parquet等，有2中读取方式。//1种，指定for

搏击俱乐部_·2020-08-13 10:05

MLlib回归算法（线性回归、决策树）实战演练--Spark学习（机器学习）

最近太忙，自己的机器学习进度耽误了两个星期，现在才把回归这一章看完。闲话不多说，本篇文章依旧是《Spark机器学习》中的内容。书上的代码全部是用python写的，但是由于我最近一直使用的是Scala，所以本篇博客使用的是scala，当然这样就没法像书中那样画图了。第六章将的是回归算法，主要用到的是线性回归与决策树算法，老规矩这里不讲原理（主要是自己讲不清楚），想知道原理的建议参考AndrewNG机

四木夕宁·2020-08-11 18:18

spark学习：java版JavaRDD与JavaPairRDD的互相转换

1。引发：做一个java读取hbase的注册成表的程序。但是读出来的是javaPairRDD，而网上都是javaRDD转成dataFrame,我只能自己摸索怎么转成javaRDD2。方法JavaRDD=>JavaPairRDD:通过mapToPair函数JavaPairRDD=>JavaRDD:通过map函数转换3。不管其他先运行一下packagecom.lcc.spark.rdd.test;im

hellozhxy·2020-08-11 05:09

20200625大数据spark学习笔记

启动src/redis-serverredis.confsrc/redis-cli-hhadoop000-p6379keys*查询里面的keyHBase特点大:面向列：列族（可以存放很多列），列族/列独立索引稀疏：对于空的列，不会占用存储空间数据类型单一：btye/string无模式：每一行的数据所对应的列不一定相同，每行的列是可以动态添加的数据多版本：比如company可以存放不同的版本的值默认

see you in September·2020-08-11 00:39

Spark学习笔记（二）——分布式计算原理

Spark分布式计算原理Spark分布式计算原理一、SparkWordCount运行原理二、Stage1、stage概念2、为什么划分：3、划分的好处4、RDD之间的依赖关系5、spark中如何划分stage三、DAG工作原理四、SparkShuffle过程五、RDD持久化六、RDD共享变量1、广播变量2、累加器七、RDD分区设计1、设计概念2、数据倾斜八、数据源装载1、装载CSV数据源2、装载J

throws-Exception·2020-08-10 19:52

Spark学习笔记-HBase操作

Scala版本操作HBaseimportorg.apache.spark.SparkContextimportorg.apache.spark._importorg.apache.hadoop.hbase.HBaseConfigurationimportorg.apache.hadoop.hbase.HTableDescriptorimportorg.apache.hadoop.hbase.cli

人生偌只如初见·2020-08-10 08:23

Spark学习笔记-KNN算法实现

KNN算法原理可以参考：数据挖掘笔记-分类-KNN-1基于Spark简单实现算法代码如下：objectSparkKNNextendsSerializable{defmain(args:Array[String]){if(args.length!=4){println("error,pleaseinputthreepath.");println("1trainsetpath.");println("

人生偌只如初见·2020-08-10 08:23

校招准备-大数据工具

weixin_30888413·2020-08-10 07:18

Spark学习（2）： RDD

1.RDD内部运行方式(1)RDD并行操作1）RDD每个转换并行执行2）数据集转换惰性，即任何转换仅在调用数据集上的操作时才执行。eg:数据分析案例a.统计出某一列中不同值出现的次数b.选出以字母A开头的。c.将结果打印在屏幕上常见可能串行执行以上步骤。Spark仅仅统计以A开头的项。并将结果但因在屏幕上。2.创建RDD(1)两种方法1).parallelize(…)(list或array)2)读

Catherine_In_Data·2020-08-10 05:13

Spark学习（二）SparkStreaming的官方文档

1、SparkCore、SparkSQL和SparkStreaming的类似之处2、SparkStreaming的运行流程2.1图解说明2.2文字解说1、我们在集群中的其中一台机器上提交我们的ApplicationJar，然后就会产生一个Application，开启一个Driver，然后初始化SparkStreaming的程序入口StreamingContext；2、Master会为这个Appli

匿名啊啊啊·2020-08-10 00:10

pyspark学习系列（二）读取CSV文件为RDD或者DataFrame进行数据处理

一、本地csv文件读取：最简单的方法：importpandasaspdlines=pd.read_csv(file)lines_df=sqlContest.createDataFrame(lines)或者采用spark直接读为RDD然后在转换lines=sc.textFile('file'))如果你的csv文件有标题的话，需要剔除首行header=lines.first()#第一行lines=li

仙人掌_lz·2020-08-09 23:33

--- Spark学习（拾壹）- Spark Streaming整合Flume

文章目录Push方式整合之概述Push方式整合之FlumeAgent配置开发Push方式整合之SparkStreaming应用开发Push方式整合之本地IDEA环境联调Push方式整合之服务器环境联调Pull方式整合之概述（推荐）Pull方式整合之SparkStreaming应用开发Pull方式整合之本地IDEA环境联调Pull方式整合之服务器环境联调官方文档http://spark.apache

-无妄-·2020-08-09 20:58

学习周报20200726 | 纠错

机智的叉烧·2020-08-09 19:00

Spark:统一分布式大数据分析引擎

LearningSpark今年早些时候Spark3.0发布，前几天看到Spark学习手册也发布了第二版涵盖Spark3.0功能，想起刚开始学习Spark时就是读的这本书，最近有空就直播读下Spark学习手册第

FusionZhu·2020-08-09 17:26

Spark之Transformations算子（一）

对于Spark学习来说，掌握常用的诸多算子，是学习的关键，在这里对于一部分算子进行介绍。

土豆钊·2020-08-09 13:41

Spark学习-Streaming

SparkStreamingSparkStreaming对比StormSparkStreaming处理逻辑对比SparkCore/SparkSQLCodeSparkStreaming流式处理框架，7*24h不间断运行对比StormStorm处理流式数据是：来一条，出一条。是纯实时处理。SparkStreaming处理逻辑会等待一段时间，可以认为设置等待多久。比如等待10s，那么等到10s后，会把这

wendaocp·2020-08-09 02:22

我的spark学习之路(一）

2016.8.10其实北京一年，我也一直在考虑我回所到底研究什么方向，但都只是停留在想想的层次，最终也没什么结果，回来老师问了我的想法说，学分布式计算吧，读博也可以，找工作也好找，文章也好发，我一想，这感情好啊，既符合我搞开发的兴趣，文章也不难发，毕业了还有两个选择，简直是三全其美啊。虽然老师给了我两个月的时间考虑，但是我基本就决定了，我一定要研究这个方向，于是就有了接下来的话题。一、背景1.北京

weixin_30492601·2020-08-08 23:07

Spark学习总结——SparkCore、任务执行原理、算子

Spark初始什么是SparkApacheSparkApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行计算框架，Spark拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读

System_FFF·2020-08-05 19:04

Spark学习总结——Yarn和Standalone提交任务方式、资源调度和任务调度流程

Spark下Standalone和Yarn提交流程详解Yarn模式两种提交任务方式yarn-client提交任务方式提交命令./spark-submit--masteryarn--classorg.apache.spark.examples.SparkPi../lib/spark-examples-1.6.0-hadoop2.6.0.jar100或者./spark-submit--masterya

System_FFF·2020-08-05 17:44

Spark学习总结——SparkSQL、DataFrame详解代码示例

Shark概念：Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎，由于底层的计算采用了Spark，性能比MapReduce的Hive普遍快2倍以上，当数据全部load在内存的话，将快10倍以上，因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外，Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的HiveSql可以直接进行迁移至Shar

System_FFF·2020-08-05 17:44

Spark学习总结——广播变量和累加器、内存管理、Shuffle调优

广播变量和累加器广播变量广播变量理解图广播变量使用valconf=newSparkConf()conf.setMaster("local").setAppName("brocast")valsc=newSparkContext(conf)vallist=List("helloxasxt")valbroadCast=sc.broadcast(list)vallineRDD=sc.textFile("

System_FFF·2020-08-05 17:44

Spark学习总结——补充算子、资源调度源码分析、任务调度源码分析、提交参数详解

补充算子transformationsmapPartitionWithIndex类似于mapPartitions,除此之外还会携带分区的索引值。repartition增加或减少分区。会产生shuffle。（多个分区分到一个分区不会产生shuffle）coalescecoalesce常用来减少分区，第二个参数是减少分区的过程中是否产生shuffle。true为产生shuffle，false不产生sh

System_FFF·2020-08-05 17:44

Spark Hadoop集群部署与Spark操作HDFS运行详解---Spark学习笔记10

目前spark的Runon的hadoop版本大多是hadoop2以上，但是实际上各个公司的生产环境不尽相同，用到2.0以上的公司还是少数。大多数公司还是停留在1代hadoop上，所以我就拿spark0.91+hadoop0.20.2-cdh3u5来部署一个小集群，以供测试学习使用。一、环境概况Spark集群3台：web01:slaveweb02:masterdb01:slaveHadoop集群：h

OopsOutOfMemory·2020-08-03 05:24

spark学习记录（八、广播变量和累加器）

一、广播变量publicclassJavaExample{publicstaticvoidmain(String[]args){SparkConfconf=newSparkConf();conf.setMaster("local").setAppName("JavaExample");JavaSparkContextsc=newJavaSparkContext(conf);finalListlis

在知识的海洋中遨游·2020-08-03 03:22

Scala_5

美美的大猪蹄子·2020-08-03 02:15

spark学习十一 spark中的sql

为什么需要SQLSQL是一种标准，一种用来进行数据分析的标准，已经存在多年。在大数据的背景下，随着数据规模的日渐增大，原有的分析技巧是否就过时了呢？答案显然是否定的，原来的分析技巧在既有的分析维度上依然保持有效，当然对于新的数据我们想挖掘出更多有意思有价值的内容，这个目标可以交给数据挖掘或者机器学习去完成。那么原有的数据分析人员如何快速的转换到BigData的平台上来呢，去重新学一种脚本吗，直接用

Java蜗牛·2020-08-02 20:38

Spark学习（9）——scala面向对象编程（对象）

objectObject,相当于class的单个实例，通常在里面放一些静态的field或者method，第一次调用object方法时，就会执行object的constructor，也就是object内部不在method的代码，但是object不能定义接收参数的constructor，注意，object的constructor只会在其第一次被调用时执行一次，以后再次调用就不会再次执行construc

Mbappe·2020-08-01 03:18

RDD Dependency详解---Spark学习笔记9

RDD的最重要的特性之一就是血缘关系，血缘关系描述了一个RDD是如何从父RDD计算得来的。这个性质可以理解为人类的进化，人是怎么从猿人一步步进化到现代的人类的，每个进化阶段可以理解为一个RDD。如果某个RDD丢失了，则可以根据血缘关系，从父RDD计算得来。总结：RDD可以描述为一组partition的向量表示，且具有依赖关系。Dependency（依赖）：图中蓝色实心矩形就是一个个的partiti

OopsOutOfMemory·2020-08-01 02:27

Spark学习之路（四）——Spark on Standalone

1、任务提交流程：①spark-submit提交任务给Master；②Master收到任务请求后，通过LaunchDriver向Worker请求启动Driver；③Worker收到请求后，启动Driver；④Driver启动后，向Master注册应用（Application）信息；⑤Master收到注册Application信息后，根据资源情况向Worker发送LaunchExecutor启动Ex

每一天U为明天·2020-07-31 14:06

Spark学习使用笔记 - Scala篇（2）- 数组

数组：定长数组：vals=Array("Hello",1)//用()而不是[]println("s(0)->"+s(0))//输出s(0)->Hello变长数组：valb=ArrayBuffer[Int]()//+=末尾增加元素或者元祖b+=1b+=(2,3)println(b)//输出ArrayBuffer(1,2,3)//++=末未添加人以及和b++=Array(4,5,6)println(b

张哈希·2020-07-29 03:27

spark学习-Spark性能调优手段

Spark性能调优手段：判断内存消耗：设置RDD并行度，将RDDcache到内存，通过BlockManagerMasterActor添加RDD到memory中的日志查看每个partition占了多少内存，最后乘以partition数量，即是RDD内存占用量。1.Shuffle调优（核心）a.consolidation机制，使shuffleMapTask端写磁盘的文件数量减少，resultTask拉

心行如一·2020-07-29 01:31

Spark学习笔记--超全,所有知识点全覆盖总结

Spark架构，运行原理，任务调度和资源调度分析，内存管理分析，SparkSQL，SparkSreaming与kafaka，数据倾斜的解决，调优。Spark简介Spark是美国加州大学伯克利分校的AMP实验室（主要创始人lester和Matei）开发的通用的大数据处理框架。ApacheSpark™isafastandgeneralengineforlarge-scaledataprocessing

vitrovitro·2020-07-29 01:47

Spark学习（六）---SparkSQL介绍

这次我们学习SaprkSQL，主要分三个部分SparkSQL的原理DataFrame数据结构和使用方式DataSet数据结构和使用方式1.SparkSQL1.1SparkSQL历史Shark是一个为Spark设计的大规模数据仓库系统，它与Hive兼容。Shark建立在Hive的代码基础上，并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询，但是Shark

xipenfei·2020-07-28 21:31

pyspark学习笔记（一），修改列的dtype

冰色的圆·2020-07-28 21:28

Spark使用总结与分享

相比于python/hive，scala/spark学习门槛较高。尤其记得刚开时，举步维艰，进展十分缓慢。不过谢天谢地，这段苦涩（bi）的日子过去了。

weixin_34245169·2020-07-28 19:27

Spark学习之路（四）Spark的广播变量和累加器

一、概述在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是，Spark还是为两种常见的使用模式提供了两种有限的共享变量：广播变（broadcastvariable）和累

weixin_33788244·2020-07-28 17:48

Spark学习之编程进阶总结(一)

一、简介这次介绍前面没有提及的Spark编程的各种进阶特性，会介绍两种类型的共享变量：累加器（accumulator）与广播变量（broadcastvariable）。累加器用来对信息进行聚合，而广播变量用来高效分发较大的对象。在已有的RDD转化操作的基础上，我们为类似查询数据库这样需要很大配置代价的任务引入了批操作。为了扩展可用的工具范围，还会简单介绍Spark与外部程序交互的方式，比如如何与用

weixin_30487701·2020-07-28 16:31

Spark学习之编程进阶总结(二)

五、基于分区进行操作基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作，都是我们应当尽量避免为每个元素都配置一次的工作。Spark提供基于分区的map和foreach，让你的部分代码只对RDD的每个分区运行一次，这样可以帮助降低这些操作的代价。当基于分区操作RDD时，Spark会为函数提供该分区中的元素的迭代器。返回值方面，也返回一个迭

weixin_30302609·2020-07-28 16:50

Spark学习（3）——scala基础语法

scala概述scala是一门多范式编程语言，集成了面向对象编程和函数式编程等多种特性。scala运行在虚拟机上，并兼容现有的Java程序。Scala源代码被编译成java字节码，所以运行在JVM上，并可以调用现有的Java类库scala解释器的使用1,REPL：Read(取值)->Evaluation(求值)->Print(打印)->Loop(循环)；Scala解释器也被称为REPL，会快速编译

Mbappe·2020-07-28 15:25

Spark学习（12）——scala函数式编程（基本语法）

基本概述Scala中的函数是Java中完全没有的概念，因为Java是完全面向对象的编程语言，没有任何面向过程编程语言的特性，因此Java中的一等公民是类和对象，而且只有方法的概念，即寄存和依赖于类和对象中的方法。Java中的方法是绝对不可能脱离类和对象独立存在的。而scala是一门既面向对象，又面向过程的语言。因此在scala中有非常好的面向对象的特性，可以使用scala来基于面向对象的思想开发大

Mbappe·2020-07-28 15:25

推荐频道

Spark学习

[大数据]spark入门 in python（一）HelloWorld

Spark学习-SparkSQL--04-SparkSQL CLI 单节点运行与yarn集群运行

spark学习13之RDD的partitions数目获取

Spark学习-基本名词理解

Spark学习-一文了解RDD

spark学习笔记总结-spark入门资料精化

【spark 学习笔记】Spark学习笔记精华（1）

spark 学习笔记

Spark 学习笔记

Spark学习笔记

Spark学习总结

MLlib回归算法（线性回归、决策树）实战演练--Spark学习（机器学习）

spark学习：java版JavaRDD与JavaPairRDD的互相转换

20200625大数据spark学习笔记

Spark学习笔记（二）——分布式计算原理

Spark学习笔记-HBase操作

Spark学习笔记-KNN算法实现

校招准备-大数据工具

Spark学习（2）： RDD

Spark学习（二）SparkStreaming的官方文档

pyspark学习系列（二）读取CSV文件 为RDD或者DataFrame进行数据处理

--- Spark学习（拾壹）- Spark Streaming整合Flume

学习周报20200726 | 纠错

Spark:统一分布式大数据分析引擎

Spark之Transformations算子（一）

Spark学习-Streaming

我的spark学习之路(一）

Spark学习总结——SparkCore、任务执行原理、算子

Spark学习总结——Yarn和Standalone提交任务方式、资源调度和任务调度流程

Spark学习总结——SparkSQL、DataFrame详解代码示例

Spark学习总结——广播变量和累加器、内存管理、Shuffle调优

Spark学习总结——补充算子、资源调度源码分析、任务调度源码分析、提交参数详解

Spark Hadoop集群部署与Spark操作HDFS运行详解---Spark学习笔记10

spark学习记录（八、广播变量和累加器）

Scala_5

spark学习十一 spark中的sql

Spark学习（9）——scala面向对象编程（对象）

RDD Dependency详解---Spark学习笔记9

Spark学习之路（四）——Spark on Standalone

Spark学习使用笔记 - Scala篇（2）- 数组

spark学习-Spark性能调优手段

Spark学习笔记--超全,所有知识点全覆盖总结

Spark学习（六）---SparkSQL介绍

pyspark学习笔记（一），修改列的dtype

Spark使用总结与分享

Spark学习之路 （四）Spark的广播变量和累加器

Spark学习之编程进阶总结(一)

Spark学习之编程进阶总结(二)

Spark学习（3）——scala基础语法

Spark学习（12）——scala函数式编程（基本语法）

pyspark学习系列（二）读取CSV文件为RDD或者DataFrame进行数据处理

Spark学习之路（四）Spark的广播变量和累加器