——Spark 第67页

Spark学习（5）-Spark Core之RDD

1RDD详解1.1为什么需要RDD分布式计算需要:分区控制Shuffle控制数据存储\序列化\发送数据计算API等一系列功能这些功能,不能简单的通过Python内置的本地集合对象(如List\字典等)去完成。我们在分布式框架中,需要有一个统一的数据抽象对象,来实现上述分布式计算所需功能。这个抽象对象,就是RDD。1.2什么是RDD?1.2.1RDD含义RDD（ResilientDistribute

技术闲聊DD·2023-10-15 19:44

Spark深入解析（五）：SparkCore之RDD编程模型

学习目标编程模型RDD的创建编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。

老王的小知识·2023-10-15 19:13

spark core编程

目录一、实验目的二、实验平台三、实验内容和要求四、实验过程记录1、SparkRDD实现单词计数2、SparkRDD实现分组求TopN2.1实现思路3、SparkRDD实现二次排序3.1实现思路3.2编写程序

又是被bug折磨的一天·2023-10-15 19:13

2.SparkCore-RDD编程

二、RDD编程1、编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。

进击的小民工_97·2023-10-15 19:42

Spark之SparkCore:RDD-数据核心/API【执行过程、编程模型：创建、转换、输出、运行过程】

RDD实践1、执行过程2、编程模型2.1RDD创建2.2RDD转换2.3RDD输出3、RDD运行过程1、执行过程1、读入外部的数据源（或者内存中的集合）进行RDD创建；2、RDD经过一系列的“转换”操作，每一次都会产生不同的RDD，供给下一个转换使用；3、最后一个RDD经过“行动”操作进行处理，并输出指定的数据类型和值。优点：惰性调用、管道化、不需要保存中间结果。RDD采用了惰性调用，即在RDD的

珞沫·2023-10-15 19:42

Spark_SparkCore_RDD

创建操作3.2转换操作3.2.1单value类型的转换算子3.2.2双value类型的转换算子3.2.3KV对类型的转换算子3.3行为操作3.4缓存操作4共享变量4.1累加器4.2广播变量5开发0参考列表SparkCore

若叶时代·2023-10-15 19:42

Spark Core之RDD编程（内容超详细）

2.1得到RDD（1）从数据源a:外部数据源：文件、数据库、hive…b：从scala集合得到：带序列的集合都可以得到RDD2.2RDD的转换在RDD上支持2种操作:transformation：从一个已知的RDD中创建出来一个新的RDD例如:map就是一个transformation.action：在数据集上计算结束之后,给驱动程序返回一个值根据RDD中数据类型的不同,整体分为2种RDD:Val

Alfred_XiaJL·2023-10-15 19:41

SparkCore之RDD编程模型与RDD的创建

编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。

小刘同学-很乖·2023-10-15 19:41

sparkcore分区_SparkCore——RDD编程

RDD编程RDD编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。

low sapkj·2023-10-15 19:10

Spark SQL编程之RDD-RDD转换

背景本文使用idea编程spark版本2.11.82.2.02.11备注Spark中，只有遇到action，才会执行RDD的计算(即延迟计算)RDD创建创建方式从集合中创建RDD从外部存储创建RDD从其他

涟漪海洋·2023-10-15 19:08

SparkCore之RDD详解

1.什么是RDD简介:RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。

LBJ_小松鼠·2023-10-15 19:08

Spark SQL编程之RDD-概述

RDD简述RDD（ResilientDistributedDataset）叫做分布式数据集，是Spark中最基本的数据抽象。

涟漪海洋·2023-10-15 19:37

SparkCore编程RDD

RDD概述中文名为弹性分布式数据集，是数据处理基本单位。代表一个弹性的，不可变，可分区，里面的数据可并行计算的集合。RDD和HadoopMR的区别：RDD是先明确数据处理流程，数据在行动算子执行前实际上并未被修改MR本质上是摸石头过河，每一步操作时，数据本体已经被修改了，无法恢复。RDD特性：一组分区：标记数据是哪个分区的一个计算每个分区的函数RDD之间的依赖关系一个分区器：即RDD的分片函数一个

十七✧ᐦ̤·2023-10-15 18:04

Spark 的createDstream和createDirectStream区别

spark读取kafka数据流提供了两种方式createDstream和createDirectStream。

吴国友·2023-10-15 15:21

Codeforces 453A Little Pony and Expected Maximum

LittlePonyandExpectedMaximumtimelimitpertest1secondmemorylimitpertest256megabytesinputstandardinputoutputstandardoutputTwilightSparklewasplayingLudowithherfriendsRainbowDash

bubbleoooooo·2023-10-15 15:58

Pyspark读取大文件的一个坑

最好把文件分割到10g以下，每次读取一个，否则会自动truncate，而且还不告诉你。400g的文件我一次性读入实测只有100多g读进去了，造成结果严重错误。当然应该跟memory有关系，但我已经设置得很大了，还是出现问题，最后选择分割成40个小文件。

杨康chin·2023-10-15 14:02

MapReduce Shuffle 和 Spark Shuffle

Shuffle简介Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前，具体可以分为map端和reduce端前后两个部分。在shuffle之

longLiveData·2023-10-15 13:55

Hadoop——第三部份 Hadoop3.x之MapReduce

高扩展动态增加服务器高空错海量计算缺点不擅长实时计算(Mysql)不擅长流式计算(Sparkstreamingflink)不擅长DAG有向无环图计算(迭代)(Spark)二、Hadoop序列化序列化和反序列化将内存中

Cyang6·2023-10-15 12:40

环境搭建

一、安装虚拟机后主要的设置1、先临时性设置虚拟机ip地址：ifconfigeth0192.168.31.248，在/etc/hosts文件中配置本地ip(192.168.31.248)到host（spark1

sunshine052697·2023-10-15 11:57

Apache Spark 中的 RDD是什么

目录RDD容错性RDD进行迭代计算RDD是ResilientDistributedDataset的缩写，是ApacheSpark中的一个关键概念。

Solitary_孤影照惊鸿·2023-10-15 09:57

SparkContext 与 SparkContext 之间的区别是什么

SparkContext是Spark的入口点，它是所有Spark应用程序的主要接口，用于创建RDD、累加器、广播变量等，并管理与Spark集群的连接。

Solitary_孤影照惊鸿·2023-10-15 09:56

大数据产品深度与广度并举，腾讯云为数据价值释放带来最优解

从2021年ApacheSpark和ConfluentKafka宣布支持Kubernetes，到腾讯云等云服务商积极推出多款云原生大数据产品，产业界近年来都在积极探索：如何利用高速发展的云原生技术去解决传统大数据平台的诸多问题

大数据在线·2023-10-15 08:41

carbondata优化小姐

一，carbondata高效原因carbondata文件是hdfs的列式存储格式查询速度是sparkSQL的10倍，通过多种索引技术和多次pushdown优化，对TB级别数据快速响应高效的压缩，使用轻量级和和重量级压缩组合的方式

不吃饭的猪·2023-10-15 08:54

Spark Sql优化器引擎-CataLyst

Catalyst的工作流程:UnresolvedLogicalPlan:SQL语句首先通过sqlparser模块被分词,形成select,where,join等语句块,并将这些语句块行成语法树.此棵树称为UnresolvedLogicalPlanLogicalPlan:借助表的元数据将UnresolvedLogicalPlan解析为LogicalPlan.例如,上一步的逻辑执行框架有了基本骨架后,

lj72808up·2023-10-15 07:27

40、Spark内核源码深度剖析之DAGScheduler原理剖析与源码分析

流程图stage划分算法原理剖析.png源码入口//调用SparkContext，之前初始化时创建的dagScheduler的runJob()方法dagScheduler.runJob(rdd,cleanedFunc

ZFH__ZJ·2023-10-15 06:39

Spark SQL case when用法：

30.SparkSQLcasewhen用法：https://sparkbyexamples.com/spark-case-when-otherwise-example/howtowritecasewithwhenconditioninsparksqlusingscala-StackOverflowscala-SPARKSQL

元元的李树·2023-10-15 05:29

carbondata测试报告

carbondata测试报告此文档是测试carbondata（1.4）与parquet(1.10)在sparksql搜索引擎上执行的对比情况硬件配置CPU：Intel(R)Xeon(R)CPUE5-2603v4

君子慎独焉·2023-10-15 03:27

Spark 启动java.lang.NoClassDefFoundError: com/fasterxml/jackson/databind/Module 报错

之前一直没有搞过Spark,这阵有时间,今天在搭建的过程中在启动Spark的时候发现了报错,之前以为是不是有什么配置自己没有搞清楚,最后搜索半天还是没有找到,自己试着找了一下包,Ok成功启动,在这里记下

徴心·2023-10-15 00:50

从术语到Spark，10篇必读大数据学习资源

本文给想进入大数据领域的朋友提供了一系列的资源，由浅入深，比如“需要了解的51条大数据术语”、“学习python的四个理由”、“十一个必须要参加的大数据会议”等有趣的话题。相信各种背景的朋友都会在这篇文章中有所收获。之前，我们已就数据可视化进行了深入探讨。这次，我们将从更基本的概念讲起，以便在涉足更复杂的数据科学和商业智能之前能够真正理解大数据。文中会引领大家阅读介绍大数据的相关文章，研究网络上流

大数据的时代·2023-10-14 23:13

新一代大数据技术：构建PB级云端数仓实践

通过以Hadoop,Spark为代表的大数据技术来构建新型数据仓库，已经成为越来越多的企业应对数据挑战的方式。

腾讯云开发者·2023-10-14 23:07

给ChuanhuChatGPT 配上讯飞星火spark大模型V2.0（一）

ChuanhuChatGPT拥有多端、比较好看的Gradio界面，开发比较完整；刚好讯飞星火非常大气，免费可以领取大概20w（！！！）的token，这波必须不亏，整上。重要参考：川虎ChatChuanhuChat讯飞星火认知大模型文章目录1讯飞星火大模型1.1webapi申请1.2webapi调用1.3一些报错2川虎ChatChuanhuChat2.1配置要求1讯飞星火大模型1.1webapi申请

悟乙己·2023-10-14 23:35

spark on k8s: master pod kube-proxy-mkbp7 Evicte -- The node was low on resource: ephemeral-storag

sparkonk8s集群发现kube-proxy-mkbp7异常，总是Evicted状态，其他node节点上pod正常。

merrily01·2023-10-14 19:35

hutool 在scala 和java 的时间区别

最近在使用spark翻译mybatis的java代码的过程中，将java代码直接翻译到scala中，但是在对数的过程中，发现设计日期比较的都存在误差，在排除时间戳长度、异常处理等问题后，终于定位到hutool

炼数成器·2023-10-14 18:55

spark java.lang.ClassCastException: java.lang.Double cannot be cast to java.lang.String

spark：java.lang.ClassCastException:java.lang.Doublecannotbecasttojava.lang.Stringjava.lang.ClassCastException

炼数成器·2023-10-14 18:24

大数据环境搭建-Hadoop伪分布式安装-spark安装-kafka安装

isoVMware-workstation-full-15.1.0-13591040.exeFileZilla_3.43.0_win64_sponsored-setup.exejdk1.8.0_171hadoop-2.7.3scala-2.12.1spark

神秘人�·2023-10-14 17:47

一文让你彻底了解大数据实时计算引擎 Flink

随着这些年大数据的飞速发展，也出现了不少计算的框架（Hadoop、Storm、Spark、Flink）。在网上有人将大数据计算引擎的发展分为四个阶段。

zhisheng_blog·2023-10-14 17:14

Yarn入门详解

我们可以从上图看出Hadoop2.x可以支持其他的分布式计算框架，在引入Yarn的Hadoop2.x之后同一套硬件集群中可以运行多个任务，例如：MR、Spark任务等Yarn包含三个组件：ResourceManager

林_恩国·2023-10-14 16:28

hive on spark僵死问题分析

背景：最近大数据平台为租户经分系统提供运算及存储能力，经分的资源需求如下Memory:6TCPU:1600c存储：600T文件系统：HDFS运算组件:hiveonspark权限管理：sentry问题描述

baker_dai·2023-10-14 14:59

Spark - 直接操作数据源 MySQL

答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。

kikiki2·2023-10-14 13:34

Spark中的Driver、Executor、Stage、TaskSet、DAGScheduler等介绍

工作流程：Driver创建SparkSession并将应用程序转化为执行计划，将作业划分为多个Stage，并创建相应的TaskSet。

Young_IT·2023-10-14 13:26

Spark入门

目录Spark入门:概述+历史+概述SparkCore：RDDSparkSQL:SparkStreamingSpark内核调优Spark概述回顾：Hadoop=HDFS存储+MR分析计算+YARN调度Hadoop

十七✧ᐦ̤·2023-10-14 12:21

[Idea 操作]-- Idea16使用maven命令clean、编译、打包jar或者war

------》“java-classpathjar所在路径main类名称”注意：使用idea16工具的maven命令生成的jar包可能不包含第三方依赖1、编写pom.xml文件4.0.0com.ennspark-jqz-predict1.0

m0_67391521·2023-10-14 12:19

kafka简述

另外企业中离线业务场景实时业务场景都需要使用到kafka，Kafka具备数据的计算能力和存储能力，但是两个能力相对（MR/SPARK，HDFS）较弱，Kafka角色的角色与hbase

静看º一季花开花落·2023-10-14 10:10

pyspark dataframe常用操作

pySparkDataFrames常用操作指南前1,2步是环境数据集操作，如果只想看常用操作请跳到31.运行环境配置欲善其功,必先利其器，通常来说光一个spark安装就可以出一个教程，在你看完安装教程填完坑后估计就不想继续看下去了

AsdilFibrizo·2023-10-14 10:29

2018-12-25

spark-streaming消费kafka数据：首次消费截图：手动kill，再次启动：KafkaManager类：packageorg.apache.spark.streaming.kafkaimportkafka.common.TopicAndPartitionimportkafka.message.MessageAndMetadataimportkafka.serializer.Decode

宇智波_佐助·2023-10-14 09:07

第五篇|Spark-Streaming编程指南(2)

第四篇|Spark-Streaming编程指南(1)对SparkStreaming执行机制、Transformations与OutputOperations、SparkStreaming数据源(Sources

大数据技术与数仓·2023-10-14 04:36

Scala - 反射动态创建方法

有时候我们想定义一个字符串的方法，然后通过scala的动态创建class，然后反射调用方法，在很多情景下是在学有用的，比较动态自定义spark的mapParations，当然了，每个人的需求都不一样，但是底层原理是一样的

大猪大猪·2023-10-14 04:09

推荐频道

——Spark