spark源码解读第5页

面试系列之《Spark》（持续更新...）

stage：一个job任务中从后往前划分，分区间每产生了shuffle也就是宽依赖则划分为一个stage，stage这体现了spark的pipeline思想，即数据在内存中尽可能的往后多计算，最后落盘，

atwdy·2024-02-20 06:07

以内存为核心的开源分布式存储系统

Tachyon为不同的大数据计算框架（如ApacheSpark，HadoopMapReduce,ApacheFlink等）提供可靠的内存级的数据共享服务。

这次靠你了·2024-02-20 05:26

手机远程控制树莓派-BLINKER应用（物联网基础）

由于我买了坚果云这个软件服务，所以我对云储存并无太大的兴趣，只是有时候要远程回家翻翻服务器上的东西，或者挂着下载个东西，跑个pyspark之类的。

crossni·2024-02-20 00:15

无依赖单机尝鲜 Nebula Exchange 的 SST 导入

无依赖单机尝鲜NebulaExchange的SST导入本文尝试分享下以最小方式（单机、容器化Spark、Hadoop、NebulaGraph），快速趟一下NebulaExchange中SST写入方式的步骤

NebulaGraph·2024-02-19 23:51

Linux下Spark offline安装graphframes包

文章目录背景安装步骤背景GraphX是Spark中用于图计算的模块.Spark安装包中内置Scala语言的GraphX库,但是对于Python语言的安装包,需要额外进行安装.对于内网服务器,不能访问外网

ithiker·2024-02-19 22:45

opencv源码---imread、cvLoadImage、waitKey、imshow函数源码解读

参考：https://blog.csdn.net/hujingshuang/article/details/47184717https://blog.csdn.net/kuweicai/article/details/73395018

hairuiJY·2024-02-19 21:51

AWS Serverless PySpark 指定 Python 版本（qbit）

·2024-02-19 16:05

SpringBoot源码解读与原理分析(五)SpringBoot的装配机制

文章目录2.5SpringBoot的装配机制[email protected]@ComponentScan的基本使用方法2.5.1.2TypeExcludeFilter(类型排除过滤器)2.5.1.3AutoConfigurationExcludeFilter(自动配置类排除过滤器)[email protected]@EnableAutoConf

灰色孤星A·2024-02-19 16:25

Quick introduction to Apache Spark

什么是SparkApacheSpark是一种快速通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持通用执行图的优化引擎。

Liam_ml·2024-02-19 13:29

Spark中多分区写文件前可以不排序么

背景Spark3.5.0目前Spark中的实现中，对于多分区的写入默认会先排序，这是没必要的。

鸿乃江边鸟·2024-02-19 13:10

Flink 细粒度滑动窗口性能优化

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料118篇原创内容公众号1、概述1.1细粒度滑动的影响当使用细粒度的滑动窗口（窗口长度远远大于滑动步长）时，

hyunbar·2024-02-19 13:39

【大数据面试题】006介绍一下Parquet存储格式的优势

同时一般查询使用时不会使用所有列，而是只用到几列，所以查询速度会更快压缩比例高因为是列式存储，所以可以对同一类型的一段做压缩，压缩比例高支持的平台和框架多在Hadoop,Spark,Presto,Python

Jiweilai1·2024-02-19 13:34

七天爆肝flink笔记

一.flink整体介绍及wordcount案例代码1.1整体介绍从上到下包含有界无界流支持状态特点与spark对比应用场景架构分层1.2示例代码了解了后就整个demo吧数据源准备这里直接用的文本文件gradle

我才是真的封不觉·2024-02-19 13:01

Transformer实战-系列教程19：DETR 源码解读6（编码器：TransformerEncoder类/TransformerEncoderLayer类）

Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection

机器学习杨卓越·2024-02-19 13:45

Transformer实战-系列教程20：DETR 源码解读7（解码器：TransformerDecoder类/TransformerDecoderLayer类）

Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection

机器学习杨卓越·2024-02-19 13:45

Transformer实战-系列教程18：DETR 源码解读5（Transformer类）

Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection

机器学习杨卓越·2024-02-19 13:44

Transformer实战-系列教程21：DETR 源码解读8 损失计算:（SetCriterion类）

Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection

机器学习杨卓越·2024-02-19 13:03

Apache Doris 聚合函数源码阅读与解析｜源码解读系列

笔者最近由于工作需要开始调研ApacheDoris，通过阅读聚合函数代码切入ApacheDoris内核，同时也秉承着开源的精神，开发了array_agg函数并贡献给社区。笔者通过这篇文章记录下对源码的一些理解，同时也方便后面的新人更快速地上手源码开发。聚合函数，顾名思义，即对一组数据执行聚合计算并返回结果的函数，在统计分析过程中属于最常见的函数之一，最典型的聚合函数包括count、min、max、

·2024-02-19 11:21

(15)Hive调优——数据倾斜的解决指南

目录前言一、什么是数据倾斜二、发生数据倾斜的表现2.1MapReduce任务2.2Spark任务三、如何定位发生数据倾斜的代码四、发生数据倾斜的原因3.1key分布不均匀3.1.1某些key存在大量相同值

爱吃辣条byte·2024-02-19 11:50

Hive on Spark配置

前提条件1、安装好Hive，参考：Hive安装部署-CSDN博客2、下载好Spark安装包，链接：https://pan.baidu.com/s/1plIBKPUAv79WJxBSbdPODw?

在下区区俗物·2024-02-15 10:51

配置hive on spark

配置hiveonspark1、上传Spark纯净版jar包到HDFS：hdfsdfs-mkdir/spark-jarshdfsdfs-put/opt/spark/jars/*/spark-jars2、修改

空白格2519·2024-02-15 10:51

hive on spark配置经验

常规配置配置完，开启hadoop，开启spark（如果在hdfs上上传了纯净版的spark则不需要开启），开启hive注：当前节点一定要是namenode的active节点，因为hadoop长时间不用namenode

小五冲冲冲·2024-02-15 10:21

Hbase - 自定义Rowkey规则

中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制TableInputFormat来实现我们的需求了，我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark

kikiki2·2024-02-15 06:39

（免费领源码）python+mysql+spark 手机销售数据的可视化分析系统44127-计算机毕业设计项目选题推荐

摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对手机销售数据管理等问题，对手机销售数据管理进行研究分析，然后开发设计出手机销售数据可视化系统以解决问题。手机销售数据可视化系统主要功能模块包括系统首页、轮播图、公告信息、资源管理（新闻资讯、新闻分类）交流管理（交流论坛、论坛分

2301_3224142804·2024-02-15 00:40

「Redis源码解读」—持久化（一）RDB

知识点RDB文件用于保存和还原Redis服务器所有数据库中的所有键值对数据SAVE命令由服务器服务器进程直接执行保存操作，所以该命令会阻塞服务器BGSAVE命令由子进程执行保存操作，所以该命令不会阻塞服务器服务器状态中会保存所有用save选项设置的保存条件，当任意一个保存条件被满足时，服务器会自动执行BGSAVE命令RDB文件是一个经过压缩的二进制文件，由多个部分组成对不同类型的键值对，RDB文件

wh4763·2024-02-15 00:29

Vue源码解读之Dep,Observer和Watcher

原文转：https://segmentfault.com/a/1190000016208088在解读Dep,Observer和Watcher之前，首先我去了解了一下Vue的数据双向绑定，即MVVM，学习于:https://blog.csdn.net/u013321...以及关于Observer和watcher的学习来自于：https://www.jb51.net/article/...整体过程Vu

小豆soybean·2024-02-14 21:28

基于Kafka的实时计算引擎如何选择？

以Flink和Spark为首的实时计算引擎，成为实时计算场景的重点考虑对象。那么，今天就来聊一聊基于Kafka的实时计算引擎如何选择？FlinkorSpark？2.为何需要实时计算？

java菜·2024-02-14 19:37

调用讯飞火星AI大模型WebAPI

getWebsocketUrl(){returnnewPromise((resolve,reject)=>{varapiKey=API_KEYvarapiSecret=API_SECRETvarurl='ws://spark-api

雲墨知秋·2024-02-14 18:54

Spark通过jdbc性能调优--采用分区的方式从oracle读数据

spark通过jdbc读取Oracle，当数据量很大的时候会出现两个问题：读取数据异常缓慢，甚至卡死大表中进行操作也会出现OOM的问题调优常规的读取数据库的方式如下ods_bdz=spark.read.format

korry24·2024-02-14 18:08

PySpark介绍及其安装教程

一、PySpark是什么PythonPySpark是Spark官方提供的一个Python类库，其中内置了完全的SparkAPI，使得Python用户在导入这个类库后，可以使用自己熟悉的Python语言来编写

文景大大·2024-02-14 14:58

Spark（四十二）数据倾斜解决方案之使用随机数以及扩容表进行join

一、背景当采用随机数和扩容表进行join解决数据倾斜的时候，就代表着，你的之前的数据倾斜的解决方案，都没法使用。这个方案是没办法彻底解决数据倾斜的，更多的，是一种对数据倾斜的缓解。原理，其实在上一讲，已经带出来了。扩容表（RDD）步骤：1、选择一个RDD，要用flatMap，进行扩容，将每条数据，映射为多条数据，每个映射出来的数据，都带了一个n以内的随机数，通常来说，会选择10。2、将另外一个RD

文子轩·2024-02-14 14:36

Spark编程实验六：Spark机器学习库MLlib编程

目录一、目的与要求二、实验内容三、实验步骤1、数据导入2、进行主成分分析（PCA）3、训练分类模型并预测居民收入4、超参数调优四、结果分析与实验体会一、目的与要求1、通过实验掌握基本的MLLib编程方法；2、掌握用MLLib解决一些常见的数据分析问题，包括数据导入、成分分析和分类和预测等。二、实验内容1.数据导入从文件中导入数据，并转化为DataFrame。2、进行主成分分析（PCA）对6个连续型

Francek Chen·2024-02-14 14:48

ShuffleManager 原理

在Spark的源码中，负责shuffle过程的执行、计算、处理的组件主要是ShuffleManager。在Spark1.2以前，默认的shuffle计算引擎是HashShuffleManager。

stone_zhu·2024-02-14 10:03

Hadoop+Spark+MongoDB+MySQL+C#大数据开发项目最佳实践

一、前言随着IT技术的飞速发展，各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务。目前，医疗IT系统收集了大量极具价值的数据，但这些历史医疗数据并没有发挥出其应有的价值。为此，本文拟利用医院现有的历史数据，挖掘出有价值的基于统计学的医学规则、知识，并基于这些信息构建专业的临床知识库，提供诊断、处方、用药推荐功能，基于强大的关联推荐能力，极大地提高医疗服务质量，减轻医疗人员的工作强度。二、

yiyidsj·2024-02-14 07:08

基于 C# 的 ETL 大数据并行编程

ApacheSpark是一个用于Extract(提取),

dotNET跨平台·2024-02-14 07:07

Spark - 动态注册UDF

昨天有位大哥问小弟一个Spark问题，他们想在不停Spark程序的情况下动态更新UDF的逻辑，他一问我这个问题的时候，本猪心里一惊，Spark**还能这么玩?

kikiki2·2024-02-14 06:33

java面试题/认证答辩 ---主流框架(springboot)

springboot源码解读:springboot2.4.4#https://blog.csdn.net/qq_32828253/article/details/109496848#https://zhuanlan.zhihu.com

Fuly1024·2024-02-14 05:01

Spark Authorizer支持最新版本Spark 2.3.0

Kent_Yao·2024-02-13 20:52

大数据处理为何选择Spark，而不是Hadoop

一.基础知识1.SparkSpark是一个用来实现快速而通用的集群计算的平台。在速度方面，Spark扩展了广泛使用的MapReduce计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。

嘿嘿海海·2024-02-13 14:00

Transformer实战-系列教程17：DETR 源码解读4（Joiner类/PositionEmbeddingSine类/位置编码/backbone）

Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection

机器学习杨卓越·2024-02-13 12:03

Transformer实战-系列教程16：DETR 源码解读3（DETR类）

Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection

机器学习杨卓越·2024-02-13 12:32

Transformer实战-系列教程15：DETR 源码解读2（ConvertCocoPolysToMask类）

Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码DETR算法解读DETR源码解读1（项目配置/CocoDetection

机器学习杨卓越·2024-02-13 12:02

Spark编程实验五：Spark Structured Streaming编程

目录一、目的与要求二、实验内容三、实验步骤1、Syslog介绍2、通过Socket传送Syslog到Spark3、Syslog日志拆分为DateFrame4、对Syslog进行查询四、结果分析与实验体会一

Francek Chen·2024-02-13 05:49

Spark(三十五)troubleshooting之错误的持久化方式以及checkpoint的使用

一、背景错误的持久化使用方式：usersRDD，想要对这个RDD做一个cache，希望能够在后面多次使用这个RDD的时候，不用反复重新计算RDD；可以直接使用通过各个节点上的executor的BlockManager管理的内存/磁盘上的数据，避免重新反复计算RDD。usersRDD.cache()usersRDD.count()usersRDD.take()上面这种方式，不要说会不会生效了，实际上

文子轩·2024-02-13 02:26

vue3源码解读--effect

目录vue2源码vue3源码示例源码其实，在不看源码之前，就已经能想到其大概实现逻辑了：每一个effect在执行过程中如果遇到设置了响应式的值那么就会执行依赖收集，那么此时如果打一个标记，并根据此标记将存在依赖的effect放到某个队列中。当依赖改变后从队列中挑选判断并执行即可接下来就来验证下是不是这样将代码定位到effect函数可以看到这里获取了ReactiveEffect实例，紧接着又调用了.

习惯水文的前端苏·2024-02-13 02:11

Java从入门到精通

掌握Java语言本身、Java核心开发技术以及Java标准库的使用；2、如果继续学习JavaEE，那么Spring框架、数据库开发、分布式架构就是需要学习的；3、如果要学习大数据开发，那么Hadoop、Spark

nightluo·2024-02-13 01:52

数据清洗

importorg.apache.spark.sql.SparkSessionobjectDataCleaning{defmain(args:Array[String]):Unit={valspark=

扣篮的左手·2024-02-12 23:46

Android AsyncTask源码解读

屡思路1.初始AsyncTaskAsyncTask这个类的声明如下：publicabstractclassAsyncTask{.....}是一个抽象类Params表示输入参数的类型Progress表示后台任务的执行进度Result表示返回结果的类型2.使用在AsyncTask这个类的顶部有一些代码注释，里面讲述了如何使用一个AsyncTask,如下：*Hereisanexampleofsubcla

糖葫芦_倩倩·2024-02-12 20:24

【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource

部分报错如下：Traceback(mostrecentcalllast): File"/home/cisco/spark-mongo-test.py",line7,in df=spark.read.format

能白话的程序员♫·2024-02-12 19:33

Spark - 动态注册UDF

>昨天有位大哥问小弟一个Spark问题，他们想在不停Spark程序的情况下动态更新UDF的逻辑，他一问我这个问题的时候，本猪心里一惊，Spark**还能这么玩?

kikiki5·2024-02-12 19:01

推荐频道

spark源码解读

面试系列之《Spark》（持续更新...）

以内存为核心的开源分布式存储系统

手机远程控制树莓派-BLINKER应用（物联网基础）

无依赖单机尝鲜 Nebula Exchange 的 SST 导入

Linux下Spark offline安装graphframes包

opencv源码---imread、cvLoadImage、waitKey、imshow函数源码解读

AWS Serverless PySpark 指定 Python 版本（qbit）

SpringBoot源码解读与原理分析(五)SpringBoot的装配机制

Quick introduction to Apache Spark

Spark中多分区写文件前可以不排序么

Flink 细粒度滑动窗口性能优化

【大数据面试题】006介绍一下Parquet存储格式的优势

七天爆肝flink笔记

Transformer实战-系列教程19：DETR 源码解读6（编码器：TransformerEncoder类/TransformerEncoderLayer类）

Transformer实战-系列教程20：DETR 源码解读7（解码器：TransformerDecoder类/TransformerDecoderLayer类）

Transformer实战-系列教程18：DETR 源码解读5（Transformer类）

Transformer实战-系列教程21：DETR 源码解读8 损失计算:（SetCriterion类）

Apache Doris 聚合函数源码阅读与解析｜源码解读系列

(15)Hive调优——数据倾斜的解决指南

Hive on Spark配置

配置hive on spark

hive on spark配置经验

Hbase - 自定义Rowkey规则

（免费领源码）python+mysql+spark 手机销售数据的可视化分析系统44127-计算机毕业设计项目选题推荐

「Redis源码解读」—持久化（一）RDB

Vue源码解读之Dep,Observer和Watcher

基于Kafka的实时计算引擎如何选择？

调用讯飞火星AI大模型WebAPI

Spark通过jdbc性能调优--采用分区的方式从oracle读数据

PySpark介绍及其安装教程

Spark（四十二）数据倾斜解决方案之使用随机数以及扩容表进行join

Spark编程实验六：Spark机器学习库MLlib编程

ShuffleManager 原理

Hadoop+Spark+MongoDB+MySQL+C#大数据开发项目最佳实践

基于 C# 的 ETL 大数据并行编程

Spark - 动态注册UDF

java面试题/认证答辩 ---主流框架(springboot)

Spark Authorizer支持最新版本Spark 2.3.0

大数据处理为何选择Spark，而不是Hadoop

Transformer实战-系列教程17：DETR 源码解读4（Joiner类/PositionEmbeddingSine类/位置编码/backbone）

Transformer实战-系列教程16：DETR 源码解读3（DETR类）

Transformer实战-系列教程15：DETR 源码解读2（ConvertCocoPolysToMask类）

Spark编程实验五：Spark Structured Streaming编程

Spark(三十五)troubleshooting之错误的持久化方式以及checkpoint的使用

vue3源码解读--effect

Java从入门到精通

数据清洗

Android AsyncTask源码解读

【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource

Spark - 动态注册UDF