spark编程模型第5页

Spark整合hive（保姆级教程）

准备工作：1、需要安装配置好hive，如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好spark，如果不会安装可以跳转到Spark安装与配置（单机版）3、需要安装配置好Hadoop

万家林·2024-02-29 09:47

在 Spark 数据导入中的一些实践细节

best-practices-import-data-spark-nebula-graph本文由合合信息大数据团队柳佳浩撰写1.前言图谱业务随着时间的推移愈发的复杂化，逐渐体现出了性能上的瓶颈：单机不足以支持更大的图谱

NebulaGraph·2024-02-27 07:53

Spark开发_简单DataFrame判空赋值逻辑

valtable1="实时转存数据"valtable2="历史存hdf数据"valdfin1=inputRDD(table1).asInstanceOf[org.apache.spark.sql.DataFrame

Matrix70·2024-02-26 22:06

Spark SQL编程指南

SparkSQL编程指南SparkSQL是用于结构化数据处理的一个模块。同SparkRDD不同地方在于SparkSQL的API可以给Spark计算引擎提供更多地信息，例如:数据结构、计算算子等。

<>=·2024-02-26 05:46

Spring Cloud Alibaba

此项目包含开发分布式应用服务的必需组件，方便开发者通过SpringCloud编程模型轻松使用这些组件来开发分布式应用服务。

杨健kimyeung·2024-02-20 20:53

Pandas将单列XML格式数据转化为字典再拆分成多列列表拆分成多列

单列XML扩展成多列遇到了个需求是需要把XML格式的数据拆分成多列的一个需求，本来需要使用spark进行处理的，但是没想到什么优雅的解决方案，所以打算先使用pandas找找感觉。样例数据如下所示。

aoyi1337·2024-02-20 18:22

航班数据预测与分析

数据清洗：数据存储到HDFS：使用pyspark对数据进行分析：//数据导入frompysparkimportSparkContextfrompyspark.sqlimportSQLContextsc=

林坰·2024-02-20 16:15

再聊阴影裁剪与高性能视锥剔除

【USparkle专栏】如果你深怀绝技，爱“搞点研究”，乐于分享也博采众长，我们期待你的加入，让智慧的火花碰撞交织，让知识的传递生生不息！

·2024-02-20 16:50

spark为什么比mapreduce快？

spark为什么比mapreduce快？

·2024-02-20 16:30

[CDH] Spark 属性、内存、CPU相关知识梳理

version：2.4.0-cdh6.3.0文章目录sparkproperties常用配置sparktasksparktask使用的cpu核数sparkarchitecturesparkmemorysparkonyarn

枪枪枪·2024-02-20 15:24

spark CTAS nuion all （union all的个数很多）导致超过spark.driver.maxResultSize配置（2G）

背景该sql运行在spark版本3.1.2下的thriftserver下现象在运行包含多个union的sparksql的时候报错（该sql包含了50多个uinon，且每个union字查询中会包含join

鸿乃江边鸟·2024-02-20 13:29

Flink理论—Flink架构设计

它集成了所有常见的集群资源管理器，例如HadoopYARN，但也可以设置作为独立集群甚至库运行,例如Spark的StandaloneMode本节概述了Flink架构，并且描述了其主要组件如何交互以执行应用程序和从故障中恢复

不二人生·2024-02-20 12:59

Scala基础教程--19--Actor

Scala基础教程–19–Actor章节目标了解Actor的相关概述掌握Actor发送和接收消息掌握WordCount案例1.Actor介绍Scala中的Actor并发编程模型可以用来开发比Java线程效率更高的并发程序

落空空。·2024-02-20 10:28

大数据 - Spark系列《六》- RDD详解

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-20 10:55

大数据 - Spark系列《七》- 分区器详解

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-20 10:55

Hive切换引擎(MR、Tez、Spark)

Hive切换引擎(MR、Tez、Spark)1.MapReduce计算引擎(默认)sethive.execution.engine=mr;2.Tez引擎sethive.execution.engine=

落空空。·2024-02-20 10:54

【JavaEE】_线程安全

目录1.线程不安全问题2.线程不安全的原因3.解决线程不安全问题1.线程不安全问题线程安全问题是多线程编程必须考虑的重要问题，也因为其难以理解与处理，故而程序员也尝试发明更多的编程模型来处理并发编程，如多进程

_周游·2024-02-20 09:59

Hbase - 自定义Rowkey规则

中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制`TableInputFormat`来实现我们的需求了，我们还可以采用Flink的`DataSet`的方式读取,另外下面还有`Spark

kikiki5·2024-02-20 07:17

php实现讯飞星火大模型3.5

星火大模型-科大讯飞2.修改对应php文件中的key等可以参考文档说明，以及下载demo星火认知大模型WebAPI文档|讯飞开放平台文档中心其中appid等都需要修改还有uid，3.5模型wss://spark-ap

随风万里无云·2024-02-20 07:38

2024.2.19 阿里云Flink

一、Flink基本介绍Spark底层是微批处理,Flink底层则是实时流计算流式计算特点:数据是源源不断产生,两大问题,乱序和延迟Stateful:有状态Flink的三个部分Source:Transactions

白白的wj·2024-02-20 07:05

Flink Catalog 解读与同步 Hudi 表元数据的最佳实践

在当前的大数据格局中，Spark/Hive/Flink是最为主流的ETL或Strea

　Laurence·2024-02-20 06:28

面试系列之《Spark》（持续更新...）

stage：一个job任务中从后往前划分，分区间每产生了shuffle也就是宽依赖则划分为一个stage，stage这体现了spark的pipeline思想，即数据在内存中尽可能的往后多计算，最后落盘，

atwdy·2024-02-20 06:07

【高并发】两种异步模型与深度解析Future接口

一、两种异步模型在Java的并发编程中，大体上会分为两种异步编程模型，一类是直接以异步的形式来并行运行其他的任务，不需要返回任务的结果数据。一类是以异步的形式运行其他任务，需要返回结果

冰河团队·2024-02-20 05:55

以内存为核心的开源分布式存储系统

Tachyon为不同的大数据计算框架（如ApacheSpark，HadoopMapReduce,ApacheFlink等）提供可靠的内存级的数据共享服务。

这次靠你了·2024-02-20 05:26

JavaScript：异步编程模型

Generator（生成器）：Iterator（迭代器）：async/await：异步迭代器（AsynchronousIterators）和异步生成器（AsyncGenerators）JavaScript中的异步编程模型经历了几个发展阶段

RCX明·2024-02-20 03:39

手机远程控制树莓派-BLINKER应用（物联网基础）

由于我买了坚果云这个软件服务，所以我对云储存并无太大的兴趣，只是有时候要远程回家翻翻服务器上的东西，或者挂着下载个东西，跑个pyspark之类的。

crossni·2024-02-20 00:15

无依赖单机尝鲜 Nebula Exchange 的 SST 导入

无依赖单机尝鲜NebulaExchange的SST导入本文尝试分享下以最小方式（单机、容器化Spark、Hadoop、NebulaGraph），快速趟一下NebulaExchange中SST写入方式的步骤

NebulaGraph·2024-02-19 23:51

Linux下Spark offline安装graphframes包

文章目录背景安装步骤背景GraphX是Spark中用于图计算的模块.Spark安装包中内置Scala语言的GraphX库,但是对于Python语言的安装包,需要额外进行安装.对于内网服务器,不能访问外网

ithiker·2024-02-19 22:45

英伟达（NVIDIA）和CUDA

英伟达（NVIDIA）是一家知名的图形处理器（GPU）制造公司，而CUDA则是NVIDIA推出的一种并行计算架构和编程模型。

小米人er·2024-02-19 20:57

AWS Serverless PySpark 指定 Python 版本（qbit）

·2024-02-19 16:05

Quick introduction to Apache Spark

什么是SparkApacheSpark是一种快速通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持通用执行图的优化引擎。

Liam_ml·2024-02-19 13:29

Flink介绍

Flink介绍文章目录Flink介绍1.简介1.1背景1.2用途2.核心概念2.1流（Stream）2.2转换（Transformation）2.3窗口（Window）2.4状态（State）3.编程模型

程序员白总·2024-02-19 13:41

Spark中多分区写文件前可以不排序么

背景Spark3.5.0目前Spark中的实现中，对于多分区的写入默认会先排序，这是没必要的。

鸿乃江边鸟·2024-02-19 13:10

Flink 细粒度滑动窗口性能优化

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料118篇原创内容公众号1、概述1.1细粒度滑动的影响当使用细粒度的滑动窗口（窗口长度远远大于滑动步长）时，

hyunbar·2024-02-19 13:39

【大数据面试题】006介绍一下Parquet存储格式的优势

同时一般查询使用时不会使用所有列，而是只用到几列，所以查询速度会更快压缩比例高因为是列式存储，所以可以对同一类型的一段做压缩，压缩比例高支持的平台和框架多在Hadoop,Spark,Presto,Python

Jiweilai1·2024-02-19 13:34

七天爆肝flink笔记

一.flink整体介绍及wordcount案例代码1.1整体介绍从上到下包含有界无界流支持状态特点与spark对比应用场景架构分层1.2示例代码了解了后就整个demo吧数据源准备这里直接用的文本文件gradle

我才是真的封不觉·2024-02-19 13:01

(15)Hive调优——数据倾斜的解决指南

目录前言一、什么是数据倾斜二、发生数据倾斜的表现2.1MapReduce任务2.2Spark任务三、如何定位发生数据倾斜的代码四、发生数据倾斜的原因3.1key分布不均匀3.1.1某些key存在大量相同值

爱吃辣条byte·2024-02-19 11:50

十大.NET Core性能优化技巧

使用异步编程.NETCore支持异步编程模型，这有助于减少线程阻塞，提高应用程序的响应能力。在IO密集型或网络请求等场景中，应优先考虑使用async和await关键字进行异

后端Q·2024-02-15 10:14

Hive on Spark配置

前提条件1、安装好Hive，参考：Hive安装部署-CSDN博客2、下载好Spark安装包，链接：https://pan.baidu.com/s/1plIBKPUAv79WJxBSbdPODw?

在下区区俗物·2024-02-15 10:51

配置hive on spark

配置hiveonspark1、上传Spark纯净版jar包到HDFS：hdfsdfs-mkdir/spark-jarshdfsdfs-put/opt/spark/jars/*/spark-jars2、修改

空白格2519·2024-02-15 10:51

hive on spark配置经验

常规配置配置完，开启hadoop，开启spark（如果在hdfs上上传了纯净版的spark则不需要开启），开启hive注：当前节点一定要是namenode的active节点，因为hadoop长时间不用namenode

小五冲冲冲·2024-02-15 10:21

.NET Core性能优化技巧

1.使用异步编程.NETCore支持异步编程模型，这有助于减少线程阻塞，提高应用程序的响应能力。在IO密集型或网络请求等场景中，应优先考虑使用async和await关键字进

会飞的贤鱼·2024-02-15 09:01

Hbase - 自定义Rowkey规则

中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制TableInputFormat来实现我们的需求了，我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark

kikiki2·2024-02-15 06:39

（免费领源码）python+mysql+spark 手机销售数据的可视化分析系统44127-计算机毕业设计项目选题推荐

摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对手机销售数据管理等问题，对手机销售数据管理进行研究分析，然后开发设计出手机销售数据可视化系统以解决问题。手机销售数据可视化系统主要功能模块包括系统首页、轮播图、公告信息、资源管理（新闻资讯、新闻分类）交流管理（交流论坛、论坛分

2301_3224142804·2024-02-15 00:40

基于Kafka的实时计算引擎如何选择？

以Flink和Spark为首的实时计算引擎，成为实时计算场景的重点考虑对象。那么，今天就来聊一聊基于Kafka的实时计算引擎如何选择？FlinkorSpark？2.为何需要实时计算？

java菜·2024-02-14 19:37

调用讯飞火星AI大模型WebAPI

getWebsocketUrl(){returnnewPromise((resolve,reject)=>{varapiKey=API_KEYvarapiSecret=API_SECRETvarurl='ws://spark-api

雲墨知秋·2024-02-14 18:54

Spark通过jdbc性能调优--采用分区的方式从oracle读数据

spark通过jdbc读取Oracle，当数据量很大的时候会出现两个问题：读取数据异常缓慢，甚至卡死大表中进行操作也会出现OOM的问题调优常规的读取数据库的方式如下ods_bdz=spark.read.format

korry24·2024-02-14 18:08

【读书笔记】《大数据技术体系详解：原理，架构与实践》06.大数据计算引擎篇

它主要由两部分组成：编程模型和运行时环境。

粥一样温柔·2024-02-14 15:01

PySpark介绍及其安装教程

一、PySpark是什么PythonPySpark是Spark官方提供的一个Python类库，其中内置了完全的SparkAPI，使得Python用户在导入这个类库后，可以使用自己熟悉的Python语言来编写

文景大大·2024-02-14 14:58

Spark（四十二）数据倾斜解决方案之使用随机数以及扩容表进行join

一、背景当采用随机数和扩容表进行join解决数据倾斜的时候，就代表着，你的之前的数据倾斜的解决方案，都没法使用。这个方案是没办法彻底解决数据倾斜的，更多的，是一种对数据倾斜的缓解。原理，其实在上一讲，已经带出来了。扩容表（RDD）步骤：1、选择一个RDD，要用flatMap，进行扩容，将每条数据，映射为多条数据，每个映射出来的数据，都带了一个n以内的随机数，通常来说，会选择10。2、将另外一个RD

文子轩·2024-02-14 14:36

推荐频道

spark编程模型

Spark整合hive（保姆级教程）

在 Spark 数据导入中的一些实践细节

Spark开发_简单DataFrame判空赋值逻辑

Spark SQL编程指南

Spring Cloud Alibaba

Pandas将单列XML格式数据转化为字典再拆分成多列 列表拆分成多列

航班数据预测与分析

再聊阴影裁剪与高性能视锥剔除

spark为什么比mapreduce快？

[CDH] Spark 属性、内存、CPU相关知识梳理

spark CTAS nuion all （union all的个数很多）导致超过spark.driver.maxResultSize配置（2G）

Flink理论—Flink架构设计

Scala基础教程--19--Actor

大数据 - Spark系列《六》- RDD详解

大数据 - Spark系列《七》- 分区器详解

Hive切换引擎(MR、Tez、Spark)

【JavaEE】_线程安全

Hbase - 自定义Rowkey规则

php实现讯飞星火大模型3.5

2024.2.19 阿里云Flink

Flink Catalog 解读与同步 Hudi 表元数据的最佳实践

面试系列之《Spark》（持续更新...）

【高并发】两种异步模型与深度解析Future接口

以内存为核心的开源分布式存储系统

JavaScript：异步编程模型

手机远程控制树莓派-BLINKER应用（物联网基础）

无依赖单机尝鲜 Nebula Exchange 的 SST 导入

Linux下Spark offline安装graphframes包

英伟达（NVIDIA）和CUDA

AWS Serverless PySpark 指定 Python 版本（qbit）

Quick introduction to Apache Spark

Flink介绍

Spark中多分区写文件前可以不排序么

Flink 细粒度滑动窗口性能优化

【大数据面试题】006介绍一下Parquet存储格式的优势

七天爆肝flink笔记

(15)Hive调优——数据倾斜的解决指南

十大.NET Core性能优化技巧

Hive on Spark配置

配置hive on spark

hive on spark配置经验

.NET Core性能优化技巧

Hbase - 自定义Rowkey规则

（免费领源码）python+mysql+spark 手机销售数据的可视化分析系统44127-计算机毕业设计项目选题推荐

基于Kafka的实时计算引擎如何选择？

调用讯飞火星AI大模型WebAPI

Spark通过jdbc性能调优--采用分区的方式从oracle读数据

【读书笔记】《大数据技术体系详解：原理，架构与实践》06.大数据计算引擎篇

PySpark介绍及其安装教程

Spark（四十二）数据倾斜解决方案之使用随机数以及扩容表进行join

Pandas将单列XML格式数据转化为字典再拆分成多列列表拆分成多列