Spark学习之路第45页

大数据分析与应用实验任务十二

大数据分析与应用实验任务十二实验目的：通过实验掌握spark机器学习库本地向量、本地矩阵的创建方法；熟悉spark机器学习库特征提取、转换、选择方法；实验任务：一、逐行理解并参考编写运行教材8.3.1、

陈希瑞·2023-12-15 17:41

spark源码阅读——shuffle写

groupByKey这个操作一般会产生两个RDD：（map操作）MapPartitionsRDD（隐式转换之后聚合）ShuffledRDDdefgroupBy[K](f:T=>K,p:Partitioner)(implicitkt:ClassTag[K],ord:Ordering[K]=null):RDD[(K,Iterable[T])]=withScope{valcleanF=sc.clean(

WJL3333·2023-12-15 15:14

2022-08-14

我走过的学习之路（4）【学以致用，去当辽化安装大会战的空调技术员】1976年5月，我这个土生土长的空调工出身的技术员，没见过大世面，要去承担辽宁省的辽化大工程的空调安装项目（8套空调系统、32套排风组织

房老师391215·2023-12-15 14:46

hive/spark用法记录

1.cast()更改数据类型cast(column_nameastype)2.get_dt_date()自定义日期操作函数（返回不带横线的日期）selectget_dt_date();–获取当前日期，返回20170209selectget_dt_date(get_date(-2));–获取当前日期偏移，转为不带横杆的格式selectget_dt_date(‘2017-02-02’,-2);–201

eight_Jessen·2023-12-15 14:17

spark四种运行模式

1.spark的核心组件1.1DriverSpark驱动器节点，用于执行Spark任务中的main方法，负责实际代码的执行工作。

坨坨的大数据·2023-12-15 14:44

计算机毕业设计Python+Spark知识图谱微博舆情预警系统微博舆情分析微博推荐系统微博可视化微博数据分析微博大数据微博爬虫微博预测系统大数据毕业设计大数据毕业设计机器学习

开发框架前端：vue.jselement-ui后端：springbootmybatis中间件：sparkhadoophiveflink数据库：mysql关系型数据库neo4j图数据库算法：协同过滤推荐算法

计算机毕业设计大神·2023-12-15 12:19

【基础知识】大数据概述

发展历程中国开源生态图谱2023参考内容中国开源生态图谱2023.pdf技术组件说明数据集成sqoop、dataX、flume数据存储hdfs、kafka数据处理mapreduce、hive、impala、spark

偏振万花筒·2023-12-15 12:39

高效压缩位图RoaringBitmap的原理与应用

目录位图法简述RoaringBitmap的思路Container原理ArrayContainerBitmapContainerRunContainer时空分析Container的创建与转换RBM的应用LuceneSparkGreenplumRedisTheEnd

zxfBdd·2023-12-15 08:23

RoaringBitMap在ClickHouse和Spark之间的实践-解决数据仓库预计算多维分析问题

前面在Spark多维分析去重计数场景优化案例中说了一下Spark计算在多维分析场景中的弊端，多维度分析会导致数据量指数级膨胀，搭配上去重计算字段越多，膨胀倍数也是线性增长，通过BitMap这个案例也更加让我们明白了

小满锅lock·2023-12-15 08:23

SparkSQL & ClickHouse RoaringBitmap64格式支持

ClickHouse新版使用roaring64map(https://github.com/RoaringBitmap/CRoaring/blob/af9fafb72edcfb88f7adc781eaea4e7e95f68d01/cpp/roaring64map.hh)来支持64位Int计算，采用了和之前不同的序列化和反序列化方式(https://github.com/ClickHouse/Cli

fz1989·2023-12-15 08:47

《PySpark大数据分析实战》-07.Spark本地模式安装

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-15 07:31

【Spark精讲】Spark存储原理

目录类比HDFS的存储架构Spark的存储架构存储级别RDD的持久化机制RDD缓存的过程Block淘汰和落盘类比HDFS的存储架构 HDFS集群有两类节点以管理节点-工作节点模式运行，即一个NameNode

话数Science·2023-12-15 07:29

【Spark精讲】RDD特性之数据本地化

通过RDD的首选运行位置可以让RDD的某个分区的计算任务直接在指定的主机上运行，从而实现了移动计算而不是移动数据的目的，减少了网络传输的开销，如Spark中HadoopRDD能够

话数Science·2023-12-15 07:58

【Spark精讲】Spark任务运行流程

目录Spark任务执行流程编辑Client模式Cluster模式Yarn任务运行流程YARN-CLIENT模式YARN-CLUSTER模式编辑故障排查YARN-CLIENT模式导致的网卡流量激增问题YARN-CLUSTER

话数Science·2023-12-15 07:58

【Spark精讲】Spark作业执行原理

目录基本流程主要组件Driver端Executor端Job提交执行流程Task提交Task执行基本流程用户编写的Spark应用程序最开始都要初始化SparkContext。

话数Science·2023-12-15 07:58

【硬刚大数据】我们在学习Spark的时候，到底在学习什么？

很多小伙伴在群里或者私信留言问我关于Spark的学习路径问题。Spark发展至今，应该说已经

王知无(import_bigdata)·2023-12-15 07:27

Spark安装

本文搭建环境为：Mac+ParallelDesktop+CentOS7+JDK7+Hadoop2.6+Scala2.10.4+IDEA14.0.5——————————————————————————————————————————————————一、CentOS安装■安装完成后记得保存快照。■环境准备CentOS7下载：http://mirrors.163.com/centos/7/isos/x8

weixin_30755393·2023-12-15 07:27

新手入门：Spark 部署实战入门

Spark简介整体认识ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。

weixin_34256074·2023-12-15 07:27

Spark Paimon 中为什么我指定的分区没有下推

目前使用的版本信息如下:Spark3.5.0Paimon0.6.0paimon的建表语句如下：CREATETABLE`table_demo`(`user_id`stringCOMMENT'fromdeserializer

鸿乃江边鸟·2023-12-15 07:51

关于新手入门：Spark 部署实战入门

Spark简介整体认识ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。

IT资讯科技·2023-12-15 07:18

Spark on Yarn 安装配置实验（3.1.1）

子任务二：SparkonYarn安装配置本任务需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：1、从宿主机/opt目录下将文件spark-3.1.1-bin-hadoop3.2

芝士小熊饼干·2023-12-15 07:44

【Spark精讲】Spark Shuffle详解

目录Shuffle概述Shuffle执行流程总体流程中间文件ShuffledRDD生成Stage划分Task划分Map端写入(ShuffleWrite)Reduce端读取(ShuffleRead)SparkShuffle

话数Science·2023-12-15 07:14

Spark 单机搭建实战指南

摘要：本文将详细介绍如何在单台机器上搭建Spark分布式计算框架，涵盖环境准备、安装配置、运行测试等多个方面，帮助读者轻松上手Spark开发。

wcuuchina·2023-12-15 07:13

《PySpark大数据分析实战》-03.了解Hive

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-15 06:42

每日一读 11.27

spark2：SparkSession思考与总结1http:/

Vicor·2023-12-15 06:12

顶级算法大神都在看的算法小抄，⼿把⼿教你学算法、刷 LeetCode

前言《算法小抄》作者是⼀名饱受算法之苦的硬核朋克，于是总结自己的学习之路以及工作经验形成了这份算法小抄，目前它可以手把手带你解决110道LeetCode算法问题，而且在不断更新，内容全部基于LeetCode

啊码·2023-12-15 06:44

GoLong的学习之路，进阶，微服务之序列化协议，Protocol Buffers V3

这章是接上一章，使用RPC包，序列化中没有详细去讲，因为这一块需要看的和学习的地方很多。并且这一块是RPC中可以说是最重要的一块，也是性能的重要影响因子。今天这篇主要会讲其使用方式。文章目录ProtocolBuffersV3背景以及概念如何使用？分配字段编号指定字段规则数据类型`标量类型``复合类型`枚举其他消息类型嵌套类型更新消息类型未知字段Anyoneofoneof特性向后兼容性问题MapsJ

红蒲公英·2023-12-15 06:11

Scala教程

1.1.4Scala语言特点1.2Scala环境搭建1.3IDEA中Scala插件安装1.4HelloWorld案例1.4.1创建IDEA项目工程第一章Scala入门1.1概述1.1.1为什么学习ScalaSpark

Tanzhiyong97·2023-12-15 05:34

Hive增强的聚合、多维数据集、分组和汇总

大家注意防寒保暖进入正题，本文主要对照Hive介绍Hive、Spark、Presto查询

对许·2023-12-15 04:17

Spark读写Hive

Spark读写Hive文章目录Spark读写Hive（一）配置本地域名映射（二）创建Hive表（三）IDEA中编写Spark代码读取Hive数据（四）IDEA中编写Spark代码写入数据到Hive（一）

叶子上的考拉·2023-12-15 02:25

spark 内核源码剖析五：Master主备切换机制原理

Spark高可用HA，是可以配置两个Master的，一个AcitveMaster，一个StandByMaster，当ActiveMaster节点挂掉的时候，可以将StandByMaster切换为ActiveMaster

雪飘千里·2023-12-14 23:08

Spark spark-submit提交Job流程解读

Spark-spark-submit提交Job流程解读spark-submitspark-classload-spark-env.shorg.apache.spark.launcher.MainSparkSubmitCommandBuilderclass

姜上清风·2023-12-14 22:38

Spark config配置项一览

Sparkconfig配置项一览env配置序列化配置Rpc.Nettyyarnlib中的jar和用户自己的高版本jar处理加载先后顺序（spark程序jar与sparklibjar冲突，加载顺序）广播内存划分

姜上清风·2023-12-14 22:07

Spark-BlockManager、BlockManagerSlaveEndpoint、DiskStore、MemoryStore、BlockInfoManager、BlockInfo 源码解析

Spark-BlockManager、DiskStore、MemoryStore、BlockInfoManager、BlockInfo源码解析classBlockInfo&ObjectBlockInfoclassBlockInfoManagerclassMemoryStore

姜上清风·2023-12-14 22:07

Spark-SparkSession.Builder 源码解析

Spark-SparkSession.Builder源码解析classBuilderSparkSessionExtensionsclassBuilder这个类主要用来builderSparkSession

姜上清风·2023-12-14 22:36

修改jvm对象的属性值(私有)

修改jvm对象的属性值(私有)这个想法的来源一个sparkjob在启动之后，就会确定executor的数量。

姜上清风·2023-12-14 22:59

【LINUX计算机大白平凡学习linux之路】

@计算机大白平凡学习之路千里之行，始于足上。只有基础扎实+思路清析,写脚本才没有问题。多看一些牛人大咖写的脚本。看人家的思路与结构，会收益良多,一起努力学习吧！

皮肤科大白·2023-12-14 22:27

一起走的学习之路(164)

下午，利用听讲座的时间，和旁边的同事聊了会天，大致的内容是我们对某个专业问题的认识和看法。整个聊天的过程非常愉快，我们各自谈了一些看法，然后就某一问题探讨了一下，最后我还分享了一下最近利用喜马拉雅FM学习法律专业知识的心得，得到了同事的共鸣，并约定一起利用开车的空闲时间学习法律专业知识。聊天结束之后就像是找到同伴一样，你的一些观点和做法得到他人的认同，同时，她也会提供一些她的观点和做法。并且互相可

小米雨路·2023-12-14 20:47

spark 参数配置及内存模型

1spark提交主要参数1.1num-executors此数量代表spark的executors数量，所有的task在executor中运行。

peidezhi·2023-12-14 20:38

Pyspark中的滞后移位函数

在PySpark中，没有您预期的shift函数，并且您在使用lag时的方向是正确的。但是这里有一个小技巧，当你必须在lag_1的基础上进行lag_2等等。

小赵要加油·2023-12-14 19:24

汽车火花塞行业分析：全球市场需求量约为26.3亿个

火花塞(sparkplug)，俗称火咀，它的作用是把高压导线(火嘴线)送来的脉冲高压电放电，击穿火花塞两电极间空气，产生电火花以此引燃气缸内的混合气体。

QY调研所·2023-12-14 19:20

Spark Structured Streaming使用教程

文章目录1、输入数据源2、输出模式3、sink输出结果4、时间窗口4.1、时间窗口4.2、时间水印（Watermarking）5、使用例子StructuredStreaming是一个基于SparkSQL

penngo·2023-12-14 19:17

Spark SQL（八）：UDF和UDAF

雪飘千里·2023-12-14 19:09

Spark环境搭建和使用方法

目录一、安装Spark（一）基础环境（二）安装Python3版本（三）下载安装Spark（四）配置相关文件二、在pyspark中运行代码（一）pyspark命令（二）启动pyspark三、开发Spark

Francek Chen·2023-12-14 19:08

【python】多任务编程

多任务编程有哪些编程提速的方法单线程串行：不加改造的程序多线程并发：利用CPU和IO可以同时执行的原理，让CPU不会干巴巴等待IO完成多CPU并行/多进程：利用多核CPU的能力，真正的并行执行任务多机器并行：hadoop/hive/spark

小赵要加油·2023-12-14 19:33

openEuler JDK21 部署 Zookeeper 集群

zookeeper-jdk21操作系统：openEulerJDK：21主机名IP地址spark01192.168.171.101spark02192.168.171.102spark03192.168.171.103

李昊哲小课·2023-12-14 19:14

【Python百宝箱】数据巨轮启航：Python大数据处理库全攻略，引领数据科学新浪潮

friklogff·2023-12-14 18:22

AI创作系统ChatGPT网站源码，AI绘画，支持GPT联网提问/即将支持TSS语音对话功能

一、AI创作系统SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。

白云如幻·2023-12-14 15:11

GoLong的学习之路，进阶，微服务之使用，RPC包（包括源码分析）

今天这篇是接上上篇RPC原理之后这篇是讲如何使用go本身自带的标准库RPC。这篇篇幅会比较短。重点在于上一章对的补充。文章目录RPC包的概念使用RPC包服务器代码分析如何实现的？总结Server还提供了两个注册服务的方法客户端代码分析如何实现的？如何异步编程同步？总结codec／序列化框架使用JSON协议的RPCRPC包的概念回顾RPC原理看完回顾后其实就可以继续需了解并使用go中所提供的包。Go

红蒲公英·2023-12-14 15:50

【Spark精讲】Spark内存管理

目录前言Java内存管理Java运行时数据区Java堆垃圾回收机制Executor内存管理内存类型堆内内存堆外内存内存管理模式静态内存管理统一内存管理编辑执行内存管理多任务间内存分配Shuffle的内存占用MemoryOverHead详解任务内存调节错误类型及调整方案1.ExecutorOOM类错误（错误代码137、143等）方式一：增加单个task的内存使用量方式二：降低单个Task的内存消耗量

话数Science·2023-12-14 13:52

推荐频道

Spark学习之路

大数据分析与应用实验任务十二

spark源码阅读——shuffle写

2022-08-14

hive/spark用法记录

spark四种运行模式

计算机毕业设计Python+Spark知识图谱微博舆情预警系统 微博舆情分析 微博推荐系统 微博可视化 微博数据分析 微博大数据 微博爬虫 微博预测系统 大数据毕业设计 大数据毕业设计 机器学习

【基础知识】大数据概述

高效压缩位图RoaringBitmap的原理与应用

RoaringBitMap在ClickHouse和Spark之间的实践-解决数据仓库预计算多维分析问题

SparkSQL & ClickHouse RoaringBitmap64格式支持

《PySpark大数据分析实战》-07.Spark本地模式安装

【Spark精讲】Spark存储原理

【Spark精讲】RDD特性之数据本地化

【Spark精讲】Spark任务运行流程

【Spark精讲】Spark作业执行原理

【硬刚大数据】我们在学习Spark的时候，到底在学习什么？

Spark安装

新手入门：Spark 部署实战入门

Spark Paimon 中为什么我指定的分区没有下推

关于新手入门：Spark 部署实战入门

Spark on Yarn 安装配置实验（3.1.1）

【Spark精讲】Spark Shuffle详解

Spark 单机搭建实战指南

《PySpark大数据分析实战》-03.了解Hive

每日一读 11.27

顶级算法大神都在看的算法小抄，⼿把⼿教你学算法、刷 LeetCode

GoLong的学习之路，进阶，微服务之序列化协议，Protocol Buffers V3

Scala教程

Hive增强的聚合、多维数据集、分组和汇总

Spark读写Hive

spark 内核源码剖析五：Master主备切换机制原理

Spark spark-submit提交Job流程 解读

Spark config配置项 一览

Spark-BlockManager、BlockManagerSlaveEndpoint、DiskStore、MemoryStore、BlockInfoManager、BlockInfo 源码解析

Spark-SparkSession.Builder 源码解析

修改jvm对象的属性值(私有)

【LINUX计算机大白平凡学习linux之路】

一起走的学习之路(164)

spark 参数配置及内存模型

Pyspark中的滞后移位函数

汽车火花塞行业分析：全球市场需求量约为26.3亿个

Spark Structured Streaming使用教程

Spark SQL（八）：UDF和UDAF

Spark环境搭建和使用方法

【python】多任务编程

openEuler JDK21 部署 Zookeeper 集群

【Python百宝箱】数据巨轮启航：Python大数据处理库全攻略，引领数据科学新浪潮

AI创作系统ChatGPT网站源码，AI绘画，支持GPT联网提问/即将支持TSS语音对话功能

GoLong的学习之路，进阶，微服务之使用，RPC包（包括源码分析）

【Spark精讲】Spark内存管理

计算机毕业设计Python+Spark知识图谱微博舆情预警系统微博舆情分析微博推荐系统微博可视化微博数据分析微博大数据微博爬虫微博预测系统大数据毕业设计大数据毕业设计机器学习

Spark spark-submit提交Job流程解读

Spark config配置项一览