Spark系统性学习专栏第7页

大数据 - Spark系列《七》- 分区器详解

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-20 10:55

Hive切换引擎(MR、Tez、Spark)

Hive切换引擎(MR、Tez、Spark)1.MapReduce计算引擎(默认)sethive.execution.engine=mr;2.Tez引擎sethive.execution.engine=

落空空。·2024-02-20 10:54

负载/压力测试应该关注什么？

出于安全的原因，测试人员应该知道当系统过载时，需要采取哪些措施，而不是简单地提升系统性能。如下列举3点

小喜_ww·2024-02-20 08:17

openGauss学习笔记-220 openGauss性能调优-确定性能调优范围-查询最耗性能的SQL

查询最耗性能的SQL220.1操作步骤openGauss学习笔记-220openGauss性能调优-确定性能调优范围-查询最耗性能的SQL系统中有些SQL语句运行了很长时间还没有结束，这些语句会消耗很多的系统性能

superman超哥·2024-02-20 08:04

Hbase - 自定义Rowkey规则

中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制`TableInputFormat`来实现我们的需求了，我们还可以采用Flink的`DataSet`的方式读取,另外下面还有`Spark

kikiki5·2024-02-20 07:17

php实现讯飞星火大模型3.5

星火大模型-科大讯飞2.修改对应php文件中的key等可以参考文档说明，以及下载demo星火认知大模型WebAPI文档|讯飞开放平台文档中心其中appid等都需要修改还有uid，3.5模型wss://spark-ap

随风万里无云·2024-02-20 07:38

2024.2.19 阿里云Flink

一、Flink基本介绍Spark底层是微批处理,Flink底层则是实时流计算流式计算特点:数据是源源不断产生,两大问题,乱序和延迟Stateful:有状态Flink的三个部分Source:Transactions

白白的wj·2024-02-20 07:05

Flink Catalog 解读与同步 Hudi 表元数据的最佳实践

在当前的大数据格局中，Spark/Hive/Flink是最为主流的ETL或Strea

　Laurence·2024-02-20 06:28

面试系列之《Spark》（持续更新...）

stage：一个job任务中从后往前划分，分区间每产生了shuffle也就是宽依赖则划分为一个stage，stage这体现了spark的pipeline思想，即数据在内存中尽可能的往后多计算，最后落盘，

atwdy·2024-02-20 06:07

Linux 性能分析工具汇总

如果没有完善的计算机系统知识，网络知识和操作系统知识，文档中的工具，是不可能完全掌握的，另外对系统性能分析和优化是一个长期的系列。

下雪了～·2024-02-20 05:32

以内存为核心的开源分布式存储系统

Tachyon为不同的大数据计算框架（如ApacheSpark，HadoopMapReduce,ApacheFlink等）提供可靠的内存级的数据共享服务。

这次靠你了·2024-02-20 05:26

斋之评：谈谈股市的熔断

这制度的目的，说是为了防止出现系统性风险——当然，这是好听的谎言。实际上，熔断是人类自私本性所产生的一种欺骗和自我欺骗。

避世斋主人·2024-02-20 01:47

Java程序员，你掌握了多线程吗？（文末送书）

在数字化转型的过程中，高并发、高性能是衡量系统性能的核心指标，越来越多的公司对从业人员的多线程编程能力提出了更高的要求。《一

小尘要自信·2024-02-20 01:14

手机远程控制树莓派-BLINKER应用（物联网基础）

由于我买了坚果云这个软件服务，所以我对云储存并无太大的兴趣，只是有时候要远程回家翻翻服务器上的东西，或者挂着下载个东西，跑个pyspark之类的。

crossni·2024-02-20 00:15

无依赖单机尝鲜 Nebula Exchange 的 SST 导入

无依赖单机尝鲜NebulaExchange的SST导入本文尝试分享下以最小方式（单机、容器化Spark、Hadoop、NebulaGraph），快速趟一下NebulaExchange中SST写入方式的步骤

NebulaGraph·2024-02-19 23:51

创新设计与技术突破：嵌入式系统在人工智能和机器学习领域的应用前景

未来，随着嵌入式系统性能的不断提升，可以实现更加复杂的人工智能算法和

迷璃学妹·2024-02-19 23:45

缓事宜急办，敏则有功急事宜缓办；忙则多错

说是事务繁杂，忙中出错，虽是情有可原，但在我自己的私心看来，还是自己不够认真仔细，而且对事情缺乏系统性的规划造成的。唯一可能让心里觉得不平衡的，可能就是原本他人的工作，也一

心若水容万物·2024-02-19 22:26

Linux下Spark offline安装graphframes包

文章目录背景安装步骤背景GraphX是Spark中用于图计算的模块.Spark安装包中内置Scala语言的GraphX库,但是对于Python语言的安装包,需要额外进行安装.对于内网服务器,不能访问外网

ithiker·2024-02-19 22:45

2024最全的性能测试种类介绍，这6个种类特别重要！

1.负载测试负载测试是指逐步增加系统负载，测试系统性能

测试界媛姐·2024-02-19 20:55

性能测试分类及常用指标

任何一具体分类，都是性能测试一、性能测试常用分类负载测试压力测试并发测试稳定性测试性能测试分类还有其他类型比如：配置测试、容量测试等，前期我们先熟悉以上常用分类1.1负载测试【重点】通过逐步增加系统负载，测试系统性能的变化

仲夏那片海·2024-02-19 19:40

聊聊校外培训机构一次性收费跨度不得超过三个月的事情

趣瓣·2024-02-19 19:11

学习日记

开始听的云里雾里，但也意识到学习日记需要区分语文教学中的“日记”，它是在“日记”之上，写学习日记更有目的性、系统性，它有助于学生反思最近的感受、成长、收获、困惑等等，形式也不仅

conquer_jhf·2024-02-19 18:19

小马宋眼中的李叫兽是如何打造知识体系的

01建立策略性思维李叫兽的策略性思维，就是在自己关注的领域，通过读书掌握底层原理，系统性的弄清楚这个事是怎么发生的，

文东的简书·2024-02-19 16:54

AWS Serverless PySpark 指定 Python 版本（qbit）

·2024-02-19 16:05

Quick introduction to Apache Spark

什么是SparkApacheSpark是一种快速通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持通用执行图的优化引擎。

Liam_ml·2024-02-19 13:29

Spark中多分区写文件前可以不排序么

背景Spark3.5.0目前Spark中的实现中，对于多分区的写入默认会先排序，这是没必要的。

鸿乃江边鸟·2024-02-19 13:10

Flink 细粒度滑动窗口性能优化

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料118篇原创内容公众号1、概述1.1细粒度滑动的影响当使用细粒度的滑动窗口（窗口长度远远大于滑动步长）时，

hyunbar·2024-02-19 13:39

【大数据面试题】006介绍一下Parquet存储格式的优势

同时一般查询使用时不会使用所有列，而是只用到几列，所以查询速度会更快压缩比例高因为是列式存储，所以可以对同一类型的一段做压缩，压缩比例高支持的平台和框架多在Hadoop,Spark,Presto,Python

Jiweilai1·2024-02-19 13:34

七天爆肝flink笔记

一.flink整体介绍及wordcount案例代码1.1整体介绍从上到下包含有界无界流支持状态特点与spark对比应用场景架构分层1.2示例代码了解了后就整个demo吧数据源准备这里直接用的文本文件gradle

我才是真的封不觉·2024-02-19 13:01

(15)Hive调优——数据倾斜的解决指南

目录前言一、什么是数据倾斜二、发生数据倾斜的表现2.1MapReduce任务2.2Spark任务三、如何定位发生数据倾斜的代码四、发生数据倾斜的原因3.1key分布不均匀3.1.1某些key存在大量相同值

爱吃辣条byte·2024-02-19 11:50

大厂的供应链采购系统设计

负责：中央/分销预订系统性能优化活动&优惠券等营销中台建设交易平台及数据中台等架构和开发设计目前主攻降低软件复杂性设计、构建高可用系统方向。

·2024-02-19 10:16

Hive on Spark配置

前提条件1、安装好Hive，参考：Hive安装部署-CSDN博客2、下载好Spark安装包，链接：https://pan.baidu.com/s/1plIBKPUAv79WJxBSbdPODw?

在下区区俗物·2024-02-15 10:51

配置hive on spark

配置hiveonspark1、上传Spark纯净版jar包到HDFS：hdfsdfs-mkdir/spark-jarshdfsdfs-put/opt/spark/jars/*/spark-jars2、修改

空白格2519·2024-02-15 10:51

hive on spark配置经验

常规配置配置完，开启hadoop，开启spark（如果在hdfs上上传了纯净版的spark则不需要开启），开启hive注：当前节点一定要是namenode的active节点，因为hadoop长时间不用namenode

小五冲冲冲·2024-02-15 10:21

Jmeter组件

评估当前系统的能力寻找性能瓶颈，优化系统性能评估软件是否满足未来的需要招聘需要1.1什么是性能时间：系统处理用户请求的响应时间资源：系统运行过程中，系统资源的消耗情况1.2.性能测试是什么1.2.1广义定义基于协议模拟用户发出请求

5888eb1818d9·2024-02-15 09:59

玄学

加上我们一开始铺的摊子太大，后来就养成了不求精确，只求系统性、整体性好的思考习惯。

天降龙虾·2024-02-15 08:22

Hbase - 自定义Rowkey规则

中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制TableInputFormat来实现我们的需求了，我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark

kikiki2·2024-02-15 06:39

django mysql分布式_Django分布式任务队列celery的实践

在并发量很高的复杂系统中，大量Workers访问数据库的行为会使得操作系统磁盘I/O一直处于高峰值状态，非常影响系统性能。如果数据库Broker同时还兼顾着后端业务的话，那么应用程序也很容易被拖垮。

laq是只仓鼠·2024-02-15 03:12

大湿兄成交系统（20200411）

怎么样让对方得到结果成交系统的6大核武器来了1、锁定目标2、做好筛选3、做好服务锁定客户①故事情景化②低门槛海报③自有能量场4.免费体验销售累——产品卖不出去用体验的方式让所有的客户免费参与进来，再做销售——系统性的陪伴性的创业成长

财务自由教练·2024-02-15 01:52

（免费领源码）python+mysql+spark 手机销售数据的可视化分析系统44127-计算机毕业设计项目选题推荐

摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对手机销售数据管理等问题，对手机销售数据管理进行研究分析，然后开发设计出手机销售数据可视化系统以解决问题。手机销售数据可视化系统主要功能模块包括系统首页、轮播图、公告信息、资源管理（新闻资讯、新闻分类）交流管理（交流论坛、论坛分

2301_3224142804·2024-02-15 00:40

基于Kafka的实时计算引擎如何选择？

以Flink和Spark为首的实时计算引擎，成为实时计算场景的重点考虑对象。那么，今天就来聊一聊基于Kafka的实时计算引擎如何选择？FlinkorSpark？2.为何需要实时计算？

java菜·2024-02-14 19:37

调用讯飞火星AI大模型WebAPI

getWebsocketUrl(){returnnewPromise((resolve,reject)=>{varapiKey=API_KEYvarapiSecret=API_SECRETvarurl='ws://spark-api

雲墨知秋·2024-02-14 18:54

与金钱对话（一）

世界上各个专业各门学科都有相应的系统性课程，但奇怪的是，关于如何正确看待和处理金钱，我似乎没怎么看到过系统性课程

蜗牛的奇妙旅行·2024-02-14 18:53

Spark通过jdbc性能调优--采用分区的方式从oracle读数据

spark通过jdbc读取Oracle，当数据量很大的时候会出现两个问题：读取数据异常缓慢，甚至卡死大表中进行操作也会出现OOM的问题调优常规的读取数据库的方式如下ods_bdz=spark.read.format

korry24·2024-02-14 18:08

书本与人生经历：互补而非替代的智慧源泉

在人类浩渺的知识海洋中，书籍无疑是最具系统性和深度的信息载体，它记载了人类历史、科学发现、哲学思考和艺术创作等诸多领域的璀璨成果。

神气仙人·2024-02-14 16:18

xmh-sxh-1314·2024-02-14 15:24

PySpark介绍及其安装教程

一、PySpark是什么PythonPySpark是Spark官方提供的一个Python类库，其中内置了完全的SparkAPI，使得Python用户在导入这个类库后，可以使用自己熟悉的Python语言来编写

文景大大·2024-02-14 14:58

Spark（四十二）数据倾斜解决方案之使用随机数以及扩容表进行join

一、背景当采用随机数和扩容表进行join解决数据倾斜的时候，就代表着，你的之前的数据倾斜的解决方案，都没法使用。这个方案是没办法彻底解决数据倾斜的，更多的，是一种对数据倾斜的缓解。原理，其实在上一讲，已经带出来了。扩容表（RDD）步骤：1、选择一个RDD，要用flatMap，进行扩容，将每条数据，映射为多条数据，每个映射出来的数据，都带了一个n以内的随机数，通常来说，会选择10。2、将另外一个RD

文子轩·2024-02-14 14:36

Spark编程实验六：Spark机器学习库MLlib编程

目录一、目的与要求二、实验内容三、实验步骤1、数据导入2、进行主成分分析（PCA）3、训练分类模型并预测居民收入4、超参数调优四、结果分析与实验体会一、目的与要求1、通过实验掌握基本的MLLib编程方法；2、掌握用MLLib解决一些常见的数据分析问题，包括数据导入、成分分析和分类和预测等。二、实验内容1.数据导入从文件中导入数据，并转化为DataFrame。2、进行主成分分析（PCA）对6个连续型

Francek Chen·2024-02-14 14:48

架构设计内容分享(一百八十六)：微服务架构设计 | 如何设计高性能系统

目录一、引言二、性能指标三、影响系统性能因素有哪些四、高性能设计|硬件层面1.合理选择硬件配置（计算、存储、网络）2.机房选择（就近部署）与CDN3.容器化技术充分利用资源五、高性能设计|软件层面1.使用缓存

之乎者也··2024-02-14 11:14

推荐频道

Spark系统性学习专栏

大数据 - Spark系列《七》- 分区器详解

Hive切换引擎(MR、Tez、Spark)

负载/压力测试应该关注什么？

openGauss学习笔记-220 openGauss性能调优-确定性能调优范围-查询最耗性能的SQL

Hbase - 自定义Rowkey规则

php实现讯飞星火大模型3.5

2024.2.19 阿里云Flink

Flink Catalog 解读与同步 Hudi 表元数据的最佳实践

面试系列之《Spark》（持续更新...）

Linux 性能分析工具汇总

以内存为核心的开源分布式存储系统

斋之评：谈谈股市的熔断

Java程序员，你掌握了多线程吗？（文末送书）

手机远程控制树莓派-BLINKER应用（物联网基础）

无依赖单机尝鲜 Nebula Exchange 的 SST 导入

创新设计与技术突破：嵌入式系统在人工智能和机器学习领域的应用前景

缓事宜急办，敏则有功﻿﻿﻿急事宜缓办；忙则多错

Linux下Spark offline安装graphframes包

2024最全的性能测试种类介绍，这6个种类特别重要！

性能测试分类及常用指标

聊聊校外培训机构一次性收费跨度不得超过三个月的事情

学习日记

小马宋眼中的李叫兽是如何打造知识体系的

AWS Serverless PySpark 指定 Python 版本（qbit）

Quick introduction to Apache Spark

Spark中多分区写文件前可以不排序么

Flink 细粒度滑动窗口性能优化

【大数据面试题】006介绍一下Parquet存储格式的优势

七天爆肝flink笔记

(15)Hive调优——数据倾斜的解决指南

大厂的供应链采购系统设计

Hive on Spark配置

配置hive on spark

hive on spark配置经验

Jmeter组件

玄学

Hbase - 自定义Rowkey规则

django mysql分布式_Django分布式任务队列celery的实践

大湿兄成交系统（20200411）

（免费领源码）python+mysql+spark 手机销售数据的可视化分析系统44127-计算机毕业设计项目选题推荐

基于Kafka的实时计算引擎如何选择？

调用讯飞火星AI大模型WebAPI

与金钱对话（一）

Spark通过jdbc性能调优--采用分区的方式从oracle读数据

书本与人生经历：互补而非替代的智慧源泉

Redis相关介绍

PySpark介绍及其安装教程

Spark（四十二）数据倾斜解决方案之使用随机数以及扩容表进行join

Spark编程实验六：Spark机器学习库MLlib编程

架构设计内容分享(一百八十六)：微服务架构设计 | 如何设计高性能系统

缓事宜急办，敏则有功急事宜缓办；忙则多错