E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark基础
Spark基础
【RDD转换算子】
文章目录一RDD单Value类型转换算子1filter2sample3coalesce4repartition5distinct6sortBy二RDD双Value类型转换算子1intersection2union3subtract4zip三RDDKey-Value类型转换算子1partitionBy2reduceByKey一RDD单Value类型转换算子1filter函数签名deffilter(f
OneTenTwo76
·
2023-03-31 00:23
Spark
spark
scala
大数据
Spark基础
Spark基础
架构二:Spark内置模块三SparkShell1.yarnapplication-listdefflatMap[U](f:String=>TraversableOnce[U])(implicitevidence
weixin_43003792
·
2023-03-31 00:51
HADOOP
spark
hadoop
Hadoop、Mapreduce、Spark概念
ref:Hadoop基础知识
Spark基础
知识1https://blog.csdn.net/lbyyy/article/details/53334019https://blog.csdn.net/leanaoo
弦歌Charlie
·
2023-03-30 20:22
大数据基础
Spark基础
之:rdd的特性,DAG,Stage的理解
rdd的特性,DAG,Stage的理解RDD结构化理解RDD的数据集与PartitionsPartitionerDependencies与LineageNarrowDependency与ShuffleDependency为什么区分窄依赖和宽依赖?StageCheckpointIterator和ComputeStorageLevelPreferredLocationSparkcontextspark
嗷嗷的特Man
·
2023-03-29 06:47
spark
big
data
hadoop
简述
Spark基础
及架构
简述
Spark基础
及架构一、spark简介二、spark技术栈三、spark架构四、saprk常用API4.1SparkContext4.2SparkSession五、spark数据核心--RDD5.1RDD
我玩的很开心
·
2023-02-26 07:16
基础及架构
spark
Py
spark基础
入门2
今天继续和大家分享一下Py
spark基础
入门2#博学谷IT学习技术支持文章目录Pyspark前言一、Spar
陈万君Allen
·
2023-02-07 11:17
Pyspark系列
大数据
spark
分布式
Py
spark基础
入门3
今天继续和大家分享一下Py
spark基础
入门3#博学谷IT学习技术支持文章目录Pyspark前言一、RDD的
陈万君Allen
·
2023-02-07 11:17
Pyspark系列
spark
大数据
python
Spark基础
之:Spark SQL介绍
Spark基础
之:SparkSQL介绍一.SparkSQL的概述1、SparkSQL来源2、从代码看SparkSQL的特点3、从代码运行速度看来看SparkSQL二.SparkSQL数据抽象DataFrame1
嗷嗷的特Man
·
2023-02-06 19:04
spark
sql
hive
Spark基础
:创建RDD
文章目录一、RDD讲述(一)RDD概念二、RDD例题(一)创建文件1、准备本地系统文件2.启动集群3、上传文件到HDFS(二)启动SparkShell三、创建RDD(一)从对象集合创建RDD1、利用parallelize()方法创建RDD2、利用makeRDD()方法创建RDD(二)从外部存储创建RDD1、读取本地系统文件2、读取HDFS上的文件一、RDD讲述(一)RDD概念Spark提供了一种对
兮若耶
·
2023-02-03 12:27
spark
big
data
hdfs
第三部分:Spark调优篇
第一部分:
Spark基础
篇_奔跑者-辉的博客-CSDN博客第一部分:
Spark基础
篇_奔跑者-辉的博客-CSDN博客第三部分:Spark调优篇_奔跑者-辉的博客-CSDN博客目录1常规性能调优常规性能调优一
奔跑者-辉
·
2023-01-30 15:59
spark
spark
jvm
java
4.
Spark基础
学习四(IDEA创建Spark_SQL)
IDEA创建SparkSQL程序IDEA中程序的打包和运行方式都和SparkCore类似,Maven依赖中需要添加新的依赖项:org.apache.sparkspark-sql_2.112.1.1packagecom.atguigu.sparksqlimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.{SparkConf,Sp
做个合格的大厂程序员
·
2023-01-25 23:26
Spark基础
篇-Spark-Core核心模型(一)
Spark系列文章目录第一章初识Spark第二章Spark-Core核心模型(一)第二章Spark-Core核心模型(二)第三章Spark-Core编程进阶(一)第三章Spark-Core编程进阶(二)第四章Spark-SQL基础(一)第四章Spark-SQL基础(二)第五章Spark-SQL进阶(一)第五章Spark-SQL进阶(二)第五章Spark-SQL进阶(三)文章目录Spark系列文章目
angeliacmm
·
2023-01-24 20:56
Spark
大数据
spark
hadoop
Coggle 30 Days of ML(22年3月)
Spark基础
任务1:PySpark数据处理步骤1:使用Python链接Spark环境步骤2:创建dateframe数据importpandasaspdfrompyspark.sqlimportSparkSessionspark=SparkSession\.builder\.appName('pyspark')\.getOrCreate()#原始数据test=spark.createDataFrame([('0
toolate
·
2023-01-22 12:59
spark
big
data
大数据
pyspark-01 基础介绍
目录pyspark使用心得pyspark运行架构
spark基础
概念RDDDAG数据倾斜总结pyspark使用心得分布式处理大规模数据,底层还是spark,包了一层pythonapi一般公司的基建是优先支持
Evangelion-02
·
2023-01-14 09:29
pyspark记录
spark
python
大数据学习笔记之Spark:
Spark基础
解析
第1章Spark概述spark的产生背景spark是如何产生的,这要先送大数据说起,大数据是如何产生的?Google就是处理大数据的,网页和网页之间有很多的关联关系,为了处理排序啊这些算法,所以Google就发明了,Google就发布了三个论文,基于这三个论文的开源,实现了Hadoop、Hdfs、MapReduce、Hbase等,但是感觉好像每次MapReduce只能处理一次数据,而且开始跑map
BAO7988
·
2023-01-07 14:32
大数据
大数据
大数据开发
大数据入门
spark
大数据分析
Spark基础
之 Spark的介绍
一、什么是Spark?Spark是一个分布式计算框架,是由Scala语言编写完成的,是apache基金会下的顶级开源项目,和Mapresuce的作用一样,可以完成对数据的计算。Spark与MapReduce的区别:1、Spark是基于内存计算的,会将中间结果存放在内存,方便后续计算的使用,而MR会将中间结果存储在磁盘中。2、内存数据的读写速度要比磁盘快很多,所以Spark的计算速度比MR快。3、S
木易巷
·
2022-12-15 11:24
Spark
spark
大数据
分布式
1024程序员节
Spark基础
学习笔记08:Scala简介与安装
Spark基础
学习笔记08:Scala简介与安装](这里写自定义目录标题)零、本讲学习目标了解Scala语言的特点学会搭建Scala开发环境了解命令行模式与编译模式一、Scala简介(一)Scala概述
lwm0810
·
2022-12-15 11:44
spark
EMR-Jindo Spark 核心引擎优化
Jindo-Spark是阿里云智能E-MapReduce团队在开源的Apache
Spark基础
上自主研发的分布式云原生OLAP引擎,已经在近千E-MapReduce客户中大规模部署使用。
YaPengLi.
·
2022-12-15 11:14
Apache
Spark
大数据
spark
分布式
Spark基础
-RDD、DataFrame、DataSet转换方式以及异同
文章目录1.RDD转换成DataFrame的两种方式2.DataSet的创建3.类型之间的转换总结4.RDD、DataFrame、DataSet三者的共性与区别共性:区别:RDD:DataFrame:Dataset:1.RDD转换成DataFrame的两种方式rdd可以通过下面这种方式得到DataFrame:valpeopleDF=peopleRdd.map(_.split("")).filter
偶白
·
2022-12-12 07:35
Spark框架
python
开发语言
后端
spark 核心原理及运行架构
Spark生态及运行原理spark生态圈Spark的主要特点Spark与Hadoop对比的优势Spark使用情况常见问题spark运行架构
spark基础
运行架构图:Spark运行流程spark调优策略参考文章前言本篇博客将为大家带来
BigData_Hubert
·
2022-12-09 09:53
大数据
spark
spark
核心原理
spark
运行架构
spark
核心组件
大数据
Spark大数据分析与实战课后答案
Spark大数据分析与实战课后答案(填空判断选择仅供参考)文章目录Spark大数据分析与实战课后答案(填空判断选择仅供参考)Scala语言基础
Spark基础
SparkRDD弹性分布式数据集Spark大数据分析与实战
不太聪明的学渣
·
2022-12-07 11:05
Spark
spark
数据分析
scala
大数据
Spark基础
学习笔记DataFrame与Dataset
文章目录一、数据帧-DataFrame(一)DataFrame概述(二)将RDD转成DataFrame(三)DataFrame与Dataset的关系二、简单使用SparkSQL(一)、准备数据文件(二)加载数据为Dataset1、读文件得数据集2、显示数据集内容3、显示数据集模式(三)给数据集添加元数据信息1、定义学生样例类2、导入隐式转换3、将数据集转换成学生数据集4、对学生数据集进行操作一、数
guangzhizi_llj
·
2022-11-28 11:24
spark
big
data
学习
Spark基础
入门
spark简介spark最初诞生于美国加州大学伯克利分校的AMP实验室,是一个可用于大规模的Spark是加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)开发的通用内存并行计算框架Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,具有以下特点。1.运行速度快:Spark拥有DAG
加林so cool
·
2022-11-27 11:37
spark
scala
big
data
spark基础
知识选择、判断、简答题。
**#spark相关题目**1、持久化RDD的存储级别中,将RDD分区全部存储到磁盘上的存储级别是()。A、MEMORY_ONLYB、MEMORY_AND_DISKC、DISK_ONLYD、MEMORY_ONLY_SER参考答案:C答案解析:暂无解析2、当MemStore存储的数据达到一个阀值()时,数据就会被进行flush操作,将数据写入到StoreFile文件。A、64MB、128MC、256
你好呀,汪同学!
·
2022-11-24 13:40
spark
hadoop
Python
spark
hadoop
Apache
Spark基础
知识
我的spark学习笔记,基于Spark2.4.0目录一、简介二、RDD编程1RDD介绍2RDD操作2.0读操作2.1常用Tramsformation算子2.2常用Action算子2.3传递方法、对象、变量2.4Shuffle操作2.5RDD持久化2.6共享变量2.6.1广播变量2.6.2累加器3性能优化3.1RDD复用3.2尽可以提前filter3.3读取多个小文件3.4map和mapPartit
终回首
·
2022-09-28 06:50
大数据
#
Apache
Spark
spark
big
data
大数据
Spark基础
知识
Spark基础
知识第1章Spark概况1.1
Spark基础
Spark相对于Hadoop的优势Hadoop和Spark的统一部署1.2Spark核心模块第2章Spark快速上手2.1Spark三种部署方式
果子哥丶
·
2022-08-24 15:36
#
Spark
spark
big
data
Spark基础
【完善案例一、框架式开发模式再回顾】
文章目录一完善需求一1存在问题2需求优化二进一步优化三使用累加器完成需求一四框架式开发模式1Application2Controller3Service4Dao5TApplication6TController层7TDao8TService9util一完善需求一1存在问题问题一:在过滤数据时同一个RDD重复使用,造成数据的重复读取因为join可能存在笛卡尔乘积,而join底层实现就是corgrou
hike76
·
2022-08-24 14:44
Spark
spark
大数据
scala
Spark基础
入门(01)—RDD
1,基本概念RDD(ResilientDistributedDataset):弹性分布式数据集它是Spark中最基本的数据抽象,是编写Spark程序的基础。简单的来讲,一个Spark程序可以概括为:=>[转换]=>输入和输出是必须要有的,转换是大部分情况下都有的
纷飞丶
·
2022-08-23 21:00
Scala |
Spark基础
入门 | IDEA配置 | 集群搭建与测试
文章目录一、学习目标二、本机开发--scala配置1.下载Scala2.安装scala3.配置Scala的系统环境变量4.IDEA中的scala配置5.开发第一个项目wordcount三、集群搭建与测试1.Standalone模式两种提交任务方式1.1Standalone-client提交任务方式1.2Standalone-cluster提交任务方式2.Yarn模式两种提交任务方式2.1yarn-
跟乌龟赛跑
·
2022-08-18 20:18
Spark
spark
scala
java
Spark基础
学习笔记25:Spark SQL数据源 - Parquet文件
文章目录零、本讲学习目标一、Parquet概述二、读取和写入Parquet的方法(一)利用parquet()方法读取parquet文件1、读取parquet文件2、显示数据帧内容(二)利用parquet()方法写入parquet文件1、写入parquet文件2、查看生成的parquet文件三、Schema合并(一)Schema合并概述(二)开启Schema合并功能1、利用option()方法设置2
howard2005
·
2022-05-17 16:02
大数据技术学习笔记
spark
parquet
schema合并
大数据Hadoop之——Spark集群部署(Standalone)
一、Spark概述
Spark基础
概念和原理讲解可以参考我上篇博文:大数据Hadoop之——计算引擎Spark二、Spark的运行模式1)Standalone(本章讲解)独立模式,自己独立一套集群(master
大数据老司机
·
2022-04-17 09:56
Spark基础
(1)——搭建Spark开发环境、UI界面查看spark集群
可直接从2.Spark部署开始操作目录1.环境前提1.1已经搭建好hadoop环境1.2我的参考配置环境2.Spark部署2.1下载spark安装包2.2解压spark安装包2.2.1上传安装包2.2.2解压至/export/servers/目录2.3修改配置文件2.3.1修改spark-env.sh2.3.2修改slaves文件2.4分发文件2.5启动spark集群2.6网页上查看spark1.
连胜是我偶像
·
2022-03-25 07:29
spark
hadoop
spark
【大数据】Spark 体系(一)
Spark一、
Spark基础
入门(环境搭建、入门概念)1.Spark框架概述1.1Spark是什么定义:ApacheSpark是用于大规模数据(large-scaladata)处理的统一(unified
柠檬小帽
·
2022-03-25 07:21
大数据
big
data
spark
Spark基础
学习笔记02:搭建Spark环境
文章目录零、本讲学习目标一、搭建Spark单机版环境(一)在私有云上创建ied实例(二)修改ied实例主机名(三)设置IP地址与主机名的映射(四)通过SecureCRT访问ied虚拟机(五)下载、安装和配置JDK(六)下载Spark安装包到hw_win7虚拟机(七)将Spark安装包上传到ied虚拟机(八)将Spark安装包解压到指定目录(九)配置Spark环境变量(十)使用SparkPi来计算P
howard2005
·
2022-02-28 10:22
大数据技术学习笔记
spark
单击版环境
伪分布式环境
完全分布式环境
spark基础
学习(一)
评审人:宋雪菲,孔庆振近些年来,随着互联网技术的高速发展,数据量也在指数级增长,继而产生了大数据。大数据数据规模巨大,数据类型多样,产生和处理速度极快,价值巨大但是密度较低。如何使用这些大数据是近些年研究的重要内容。spark就是处理大数据的一个重要的技术。本系列文章主要由浅入深,从基础到复杂来介绍spark技术的各个方面。本文简要介绍spark的基本组件,并从spark对数据的核心抽象——弹性分
Pt_Chen
·
2022-02-19 04:10
spark基础
知识总结
spark基础
知识总结1.概述1.1.简介ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。
疯狂的喵喵
·
2022-02-12 16:28
5W字总结Spark(一)(建议收藏)
本文目录:一、
Spark基础
二、SparkCore三、SparkSQL四、SparkStreaming五、StructuredStreaming六、Spark两种核心Shuffle七、Spark底层执行原理八
坨坨的大数据
·
2022-02-10 18:12
spark调用python算法_用Python语言写Spark
001Py
Spark基础
Spark是目前大数据处理的事实标准。PySpark能让你使用Python语言来写Spark程序。我们先做一个最简单的字符数统计程序。
weixin_39847728
·
2022-02-07 13:31
spark调用python算法
Spark集群框架的搭建与入门
目录一、Spark概述运行结构二、环境部署1、Scala环境2、
Spark基础
环境3、Spark集群配置4、Spark启动5、访问Spark集群三、开发案例1、核心依赖2、案例代码开发四、源代码地址一、
·
2021-08-11 18:08
Spark基础
与数仓应用调优
计算引擎的发展了解SparkSpark核心理念数据应用Spark-sqlSpark四大组件Spark-sql使用与优化Spark中的基本概念使用Spark-sql参数优化问题点本文主要是认识、了解Spark,并在实际应用中进行优化。文章内容主要参数网络与工作实践,有不足之处欢迎指出探讨计算引擎的发展大数据计算引擎的发展历程可分为四个阶段,目前主流的计算引擎是第三代Spark以及19年开始火起来的F
别停下思考
·
2021-06-21 13:16
Spark基础
知识
SparkSpark是一个可应用于大规模数据处理的快速、通用引擎,提供了内存计算和基于DAG的任务调度执行机制,减少了迭代计算时的I/O开销;Spark的设计遵循“一个软件栈满足不同应用场景”的理念,形成了一套完整的生态系统,既能够提供内存计算框架,也可以支持SQL即席查询(SparkSQL)、流计算(SparkStreaming)、机器学习(MLlib)和图计算(GraphX)等。Spark可以
冰科技
·
2021-05-19 19:53
hadoop
hadoop
spark
flink
Spark源码分析(1) RDD是什么
org.apache.spark.rdd.RDD类源代码中有详细的注释:AResilientDistributedDataset(RDD),thebasicabstractioninSpark.翻译:弹性的分布式数据集是
Spark
泥菩萨酱
·
2021-05-17 12:54
Spark基础
✎学习目标1.了解Spark的特点2.掌握Spark集群的搭建和配置及架构3.理解Spark作业提交的工作原理4.掌握SparkHA集群的搭建和配置Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室,它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快,而且内置了丰富的API,使得我们能够更加容易编写程序。Spark的概述Spark在2013年加入Apache孵化器
一米八多的瑞兹
·
2021-03-11 13:25
Spark
大数据
编程语言
hadoop
python
java
Spark基础
(一):作业执行流程
文章目录Spark执行流程Spark执行流程提交应用程序Application(包括Driver代码和Executor代码)启动Driver,创建SparkContext对象,并加载配置信息、依赖信息和代码DAGgraph:根据用户提交的计算逻辑(Application)中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG(有向无环图)。DAGScheduler
XavierYen
·
2021-01-06 03:49
spark
spark
spark中local模式与cluster模式使用场景_大数据学习笔记之Spark:
Spark基础
解析
第1章Spark概述spark的产生背景spark是如何产生的,这要先送大数据说起,大数据是如何产生的?Google就是处理大数据的,网页和网页之间有很多的关联关系,为了处理排序啊这些算法,所以Google就发明了,Google就发布了三个论文,基于这三个论文的开源,实现了Hadoop、Hdfs、MapReduce、Hbase等,但是感觉好像每次MapReduce只能处理一次数据,而且开始跑map
weixin_39815600
·
2020-11-19 23:08
JAVA spark创建DataFrame的方法
先来总结下Spark的一般流程:1,先创建
Spark基础
变量,spark,sc2,加载数据,rdd.textFile,spark.rea
·
2020-09-28 17:35
[
Spark基础
]-- spark RDD操作算子详解(汇总)
一、aggregateByKey[Pair]像聚合函数一样工作,但聚合应用于具有相同键的值。也不像聚合函数,初始值不应用于第二个reduce。列表变式(1)defaggregateByKey[U](zeroValue:U)(seqOp:(U,V)⇒U,combOp:(U,U)⇒U)(implicitarg0:ClassTag[U]):RDD[(K,U)]ps:使用给定的组合函数和中性“零值”汇总每
highfei2011
·
2020-09-16 03:11
Spark
Spark基础
-scala学习(四、函数式编程)
函数式编程将函数赋值给变量匿名函数高阶函数高级函数的类型推断scala的常用高阶函数闭包sam转换currying函数return将函数赋值给变量scala中的函数是一等公民,可以独立定义,独立存在,而且可以直接将函数作为值赋值给变量scala>defsayHello(name:String){println("Hello,"+name)}sayHello:(name:String)Unitsca
weixin_33938733
·
2020-09-15 03:54
Spark入门梳理2-
Spark基础
知识
文章目录Spark编程基础-搭配Jupyter1.1RDD编程1.1.1RDD创建1.1.2文件系统中加在数据集1.1.3通过并行集合创建RDD1.1.4RDD操作1.1.4.1转换操作1.1.4.2行动操作1.2键值对RDD1.3共享变量(分布式)1.4数据读写1.4.1文件数据读写Spark编程基础-搭配Jupyter上节我们说道了Spark的基础知识和原理,这一节我们具体说一下Spark的编
Jolahua
·
2020-09-14 19:34
机器学习
Spark基础
知识梳理
用户提交的应用程序代码在spark中运行起来就是一个driver,用户提交的程序运行起来就是一个driver,他是一个一段特殊的excutor进程,这个进程除了一般excutor都具有的运行环境外,这个进程里面运行着DAGschedulerTaskshedulerSchedulerbackedn等组件。官方例子中计算π值的程序代码在spark上运行起来就是一个driver,可以看到这段程序里有个m
你携秋水揽星河
·
2020-09-14 17:02
spark
大数据
spark
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他