——Spark 第75页

Spark调优之 -- Spark的并行度深入理解（别再让资源浪费了）

1.并行度理解 Spark作业中，各个stage的task的数量，代表Spark作业在各个阶段stage的并行度。

erainm·2023-10-01 19:36

spark SQL 任务参数调优1

1.背景要了解spark参数调优，首先需要清楚一部分背景资料SparkSQL的执行原理，方便理解各种参数对任务的具体影响。

浩海紫冰·2023-10-01 19:06

24Hibench

HiBenchisabigdatabenchmarksuitethathelpsevaluatedifferentbigdataframeworksintermsofspeed,throughputandsystemresourceutilizations.ItcontainsasetofHadoop,Sparkandstreamingworkloads

sorry_maker·2023-10-01 17:29

Spark性能监测+集群配置

spark-dashboard参考链接架构图Spark官网中提供了一系列的接口可以查看任务运行时的各种指标运行卸载dockerhttps://blog.csdn.net/wangerrong/article

sorry_maker·2023-10-01 17:28

Linux上怎样检查我的spark版本

1、先找到你安装spark的根目录2、进入bin目录就可以进入spark的shell了。退出命令：：quit

你的保护色·2023-10-01 17:37

zookeeper第一章：集群搭建

zookeeper第一章：集群搭建文章目录系列文章目录前言一、软件下载二、单机模式三、集群模式四、启动脚本总结前言zookeeper是apache基金会下的一个分布式管理框架，可以用来管理Hadoop，spark

超哥--·2023-10-01 16:36

Hudi第二章：集成Spark(二)

系列文章目录Hudi第一章：编译安装Hudi第二章：集成SparkHudi第二章：集成Spark(二)文章目录系列文章目录前言一、IDEA1.环境准备2.代码编写1.插入数据2.查询数据3.更新数据4.

超哥--·2023-10-01 15:34

第3.8章：StarRocks数据导入--Spark Load

SparkLoad是通过外部的Spark资源实现对导入数据的预处理，进而提高StarRocks大数据量的导入性能，同时也可以节省StarRocks集群的计算资源。

流木随风·2023-10-01 12:42

StarRocks从入门到精通系列五：导入数据

StarRocks从入门到精通系列五：导入数据一、导入总览二、从ApacheKafka®持续导入三、使用ApacheSpark™批量导入四、从ApacheFlink持续导入一、导入总览下图详细展示了在各种数据源场景下

最笨的羊羊·2023-10-01 12:42

spark练习案例_spark模式体育课案例

自2001年课程改革以来体育课堂教学异彩纷呈，呈现出了百花齐放的良好态势，体育课教学质量有了很大的提高，新的教育教学理念深入人心，三维健康观，三维评价观在课堂教学中得以凸显，在新课程理念的引领下广大体育教师的教育教学能力、综合素养也得到提升。特别是这几年的优质课评比、展示课和教学能手比赛等活动，为我们一线体育教师搭建了一个展示自己教学风采和观摩学习的平台，从中走出了一大批优秀教师。在实际教学中大家

苟渝·2023-10-01 09:18

spark

driver打包程Jar包提交到集群上之后抛了以下异常：Exceptioninthread"main"java.lang.SecurityException:InvalidsignaturefiledigestforManifestmainattributesatsun.security.util.SignatureFileVerifier.processImpl(SignatureFileVer

Gpwner·2023-10-01 04:30

Antlr4

Antlr4是一个强大的解析器的生成器，可以用来读取、处理、执行或翻译结构化文本，ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器，最出名的Spark计算引擎2.x就是用它来解析SQL的，是一个牛到没朋友的家伙

大猪大猪·2023-10-01 03:59

Spark 运行模式----Standalone模式

构建一个由Master+Slave构成的Spark集群，Spark运行在集群中。

_云起·2023-10-01 01:02

Spark调优

Spark参数调优：num-executors建议：一般设置50~100左右executors-memory建议:4G8G，不超过整个集群资源的1/31/2executor-cores每个Excutor

你值得拥有更好的12138·2023-10-01 00:20

OSCAR开源产业大会重磅来袭，六大亮点抢先看！

云计算与云原生领域的OpenStack,Kubernetes及Docker，大数据和人工智能领域的Hadoop,Spark,TensorFlow等更是凭借开源模式，在各

开源社·2023-09-30 22:14

Hudi第二章：集成Spark

系列文章目录Hudi第一章：编译安装Hudi第二章：集成Spark文章目录系列文章目录前言一、安装Spark1、安装Spark2.安装hive二、spark-shell1.启动命令2.插入数据3.查询数据

超哥--·2023-09-30 20:39

2020-02-07 spark归档镜像地址

https://archive.apache.org/dist/spark/spark-2.1.1/

燕青在简书·2023-09-30 20:33

spark sql操作数据

文章目录1、创建Dataset2、实现反射机制推断schema3、编程方式定义Schema4、spark操作mysql数据库在windows操作5、spark操作Hive数据出现bug1无法访问/export

侬本多情。·2023-09-30 20:31

Spark SQL 介绍

文章目录SparkSQL1、HiveonSparkSQL2、SparkSQL优点3、SparkSQL特点1)容易整合2)统一的数据访问3)兼容Hive4)标准的数据连接4、DataFrame是什么5、DataSet

气质&末雨·2023-09-30 20:30

Spark SQL

SparkSQL一、SparkSQL概述二、准备SparkSQL的编程环境三、SparkSQL程序编程的入口四、DataFrame的创建五、DataFrame的编程风格六、DataSet的创建和使用七、

Augenstern K·2023-09-30 20:29

Hive09---字符串拼接，转json等

Intro 常用hive字符串拼接函数，转json等操作importpysparkimportpyspark.sql.functionsfrompyspark.sqlimportSparkSession

维格堂406小队·2023-09-30 16:50

20211005

了解了在spark-shell中，初始化了sparksession，️sparksession又创建了sparkcontext名为sc，用sparksession（spark）读文本为spark.read.textFile

Sophie12138·2023-09-30 16:22

Flume入门（sink配置kafka）

环境分析：上一节我们的服务日志最终用logger打印，这个只是一个测试，生成环境不能这样使用，那么生产环境一般会把日志保存在hdfs中或通过kafka传送给实时计算框架比如sparkstreaming进行实时计算

南山小和尚·2023-09-30 15:49

ChatGPT详细搭建教程+支持AI绘画

一、AI创作系统SparkAi系统是基于很火的GPT提问进行开发的Ai智能问答系统。本期针对源码系统整体测试下来非常完美，可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。

只恨天高·2023-09-30 14:58

别再人云亦云了！！！你真的搞懂了RDD、DF、DS的区别吗？

对于Spark来说，有三套API。分别是：RDDDataFrameDataSet三套的API，开发人员就要学三套。不过，从Spark2.2开始，DataFrame和DataSe

Jimmy2019·2023-09-30 13:28

Hbase - 自定义Rowkey规则

中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制TableInputFormat来实现我们的需求了，我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark

kikiki2·2023-09-30 12:50

Spark RDD 编程指南(官方文档中文版+补充)

SparkRDD编程指南(官方文档中文版+补充)1.总览Spark提供的主要抽象是弹性分布式数据集(RDD),它是跨集群节点划分的元素的集合，可以并行操作。

袭明·2023-09-30 08:55

大数据——Spark GraphX介绍

一、GraphX介绍SparkGraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。

Vicky_Tang·2023-09-30 08:43

pyspark笔记（RDD,DataFrame和Spark SQL）

https://github.com/QInzhengk/Math-Model-and-Machine-LearningPySparkRDD和DataFrame1.SparkSession介绍2.SparkSession

qq742234984·2023-09-30 05:51

26Hbase介绍及其数据模型和架构（hbase学习1）

Hbase介绍Hadoop生态系统spark已经替代mahouthbase简介：非关系型数据库知识面扩展cassandra、hbase、mongodb（文档型数据库）、rediscouchdb，文件存储数据库

文茶君·2023-09-30 03:08

【Spark】Job触发流程原理

1.通过例子分析下：vallines=sc.textFile()首先，hadoopFile()方法的调用，会创建一个HadoopRDD，其中的元素是（key，value）pair，key是HDFS或文本文件的每一行的offset，value就是文本行。然后对HadoopRDD调用map()方法，会剔除key，只保留value，然后会获得一个MapPartitionRDD，MapPartitionR

果果小姚·2023-09-30 01:22

spark工作原理和介绍

https://zhuanlan.zhihu.com/p/34436165https://zhuanlan.zhihu.com/p/704246131.介绍Spark是专为大规模数据处理而设计的快速通用的计算引擎

摩V羯座·2023-09-30 01:06

Scala

目前Spark是新一代的内存型大数据计算框架，是目前大数据技术生态圈中非常主流的一门技术。

_Levi__·2023-09-30 00:05

大数据工程师零基础起步——成长路线引入

即学即写，持续更新中大数据开发基础1编程语言1.1JAVA1.2Scala（优先级靠后，有遇到需要用的时候再学，如Spark）2数据结构和算法3计算机网络4操作系统5数据库基础6设计模式7LINUX系统

ElsaWu1998·2023-09-29 22:16

6个人如何维护上千规模的大数据集群？

其中6人的离线团队需要维护大数据集群规模如下：Hadoop集群规模1300+HDFS存量数据40+PB，Read3.5PB+/天，Write500TB+/天14WMRJob/天，10WSparkJob/

Alukar·2023-09-29 22:41

浅谈UE4的序列化

【USparkle专栏】如果你深怀绝技，爱“搞点研究”，乐于分享也博采众长，我们期待你的加入，让智慧的火花碰撞交织，让知识的传递生生不息！

UWA·2023-09-29 22:15

spark使用snakeyaml读取配置时,总是找不到对象

spark读取配置文件的时候使用到了snakeyaml包.读取配置时总是报错如下图org.yamlsnakeyaml1.26image.png解决://错误的写法,在本地测试可以使用valyaml=newYaml

wangliang938·2023-09-29 20:12

Hadoop、Spark、Storm、Flink区别及选择

hadoop、spark、storm、flink如何选择hadoop和spark是更偏向于对大量离线数据进行批量计算，提高计算速度storm和flink适用于实时在线数据，即针对源源不断产生的数据进行实时处理

墨痕诉清风·2023-09-29 19:52

Scala写入文件时乱码解决

今天在需要将spark操作后的数据保存到本地文件时出现乱码问题,现在记录下来valwriter=newPrintWriter(newFile("E://data/gps_bus_data01.txt")

鬼古神月·2023-09-29 17:32

pyspark 检测任务输出目录是否空，避免读取报错

前言在跑调度任务时候，有时候子任务需要依赖前置任务的输出，但类似读取Parquet或者Orc文件时，如果不判断目录是否为空，在输出为空时会报错，所以需要check一下，此外Hadoop通常在写入数据时会在目录中生成一个名为_SUCCESS的文件来表示写入操作已成功完成，我们在检测时要排除这个文件HDFSAPI判断frompy4j.java_gatewayimportjava_importfromp

三劫散仙·2023-09-29 16:49

spark基础学习（一）

spark就是处理大数据的一个重要的技术。本系列文章主要由浅入深，从基础到复杂来介绍spark技术的各个方面。本文简要介绍spark的基本组件，并从spark对数据的核心抽

senju·2023-09-29 15:58

Spark初体验

Spark是大数据领域一款很流行的云计算系统。之前主要是做Hive，但是Hive相对于Spark来说就显得有点慢了，很多公司都渐渐的在使用Spark来替换Hive进行大数据分析。

BIGrey·2023-09-29 14:09

docer安装hadoop

基于Docker构建Hadoop平台0.绪论使⽤Docker搭建Hadoop技术平台，包括安装Docker、Java、Scala、Hadoop、Hbase、Spark。

汉卿HanQ·2023-09-29 13:59

《从0到1学习Spark》--DataFrame和Dataset探秘

昨天小强带着大家了解了SparkSQL的由来、SparkSQL的架构和SparkSQL四大组件：SparkSQL、DataSourceApi、DataFrameApi和DatasetApi。

小强的进阶之路·2023-09-29 10:53

本地Spark连接服务器hive测试HADOOP_HOME and hadoop.home.dir are unset 报错处理

一般是windows才会出现这个问题请看下面的解决方案：第一步：下载winutils-master.zip蓝奏云：https://www.lanzous.com/i55ccnc如果你安装的hadoop版本是：3.1.2或者3.2.0就用winutils-master里面的hadoop-3.0.0配置环境变量吧！第二步：配置环境变量1，新建系统变量2，编辑path变量第三步：重启idea或者ecli

MnerX·2023-09-29 07:53

历史服务器

二、配置历史服务器在spark-3.1.1-bin-hadoop2.7/conf/spark-defaults.conf添加以下配置，其中d:/log/spark为日志保存位置spark.eventLog.enabledtruespark.eventLog.dirfile

qq_40135006·2023-09-29 06:14

大数据知识图谱笔记

大数据组件繁多，五花八门，这里花了几天时间针对以前笔记的Hadoop、Spark两大生态圈的相关组件进行了分类整理，用简短的几句话对相关特性进行了总结描述，强化记忆，供学习、选型、面试。

*沧海明月*·2023-09-29 06:59

spark笔记

spark分布式计算框架spark不是部署分布式的只是client而已=》hivespark支持分布式部署=》standalone1.spark产生背景？

qq_47721411·2023-09-29 06:59

spark学习笔记

文章目录1，spark架构2，spark部署模式3，spark单机模式4，standalone模式5，sparkonyarn6，idea写代码直接提交yarn7,RDD缓存持久化8，spark从mysql

大数据男·2023-09-29 06:27

推荐频道

——Spark