spark（scala）第2页

Spark on Yarn 多机集群部署

SparkonYarn多机集群部署1.规划机器角色服务器IP地址角色Master192.168.1.100NameNode+ResourceManager+SparkMasterWorker1192.168.1.101DataNode

晓夜残歌·2025-02-23 17:20

Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测

本系统基于大数据设计并实现成都地铁客流量分析系统，使用网络爬虫爬取并收集成都地铁客流量数据，运用机器学习和时间序列分析等方法，对客流量数据进行预处理和特征选择，构建客流量预测模型，利用历史数据对模型进行训练和优化，实现客流量预测模型的部署和应用，通过系统界面展示预测结果。对预测模型进行评估和验证，并提出改进方案。设计步骤使用Python语言编写爬虫程序采集数据，并对原始数据集进行预处理；使用Pyt

qq_79856539·2025-02-23 16:16

搭建Spark On YARN集群

一、SparkOnYARN架构二、搭建SparkOnYARN集群（一）搭建SparkStandalone集群（二）修改Spark环境配置文件SparkOnYARN模式的搭建比较简单，仅需要在YARN集群的一个节点上安装

snow323H·2025-02-23 07:05

对应chd5.14的spark_carbonData使用文档(基于CDH 的spark-yarn模式)

一、部署(基于CDH的spark-yarn模式)下载源码编译(目前官网已经提供编译好的jar包了)【https://dist.apache.org/repos/dist/release/carbondata

颜语一声·2025-02-22 22:22

yarn模式运行spark作业所有属性详解

摘要:Spark参数调优，可以大大提高工作中程序的运行效率。

weixin_34248487·2025-02-22 22:22

Spark on YARN的重要参数

Spark属性或者去源码找Class类SparkSubmitArguments，最全了属性名称默认含义spark.yarn.am.memory512m用于客户端模式下的YARNApplicationMaster

大米饭精灵·2025-02-22 21:50

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构

已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark

m0_74823705·2025-02-22 21:50

spark sql随记

1、sparksql访问hive将hive-site.xml放入到${SPARK_HOME}/conf下如果是sparkonyarn的cluster模式，由于driver是运行于哪个executor未知

cxy1991xm·2025-02-22 21:18

计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测

开发技术SparkHadoopPython爬虫Vue.jsSpringBoot机器学习/深度学习人工智能创新点Spark大屏可视化爬虫预测算法功能1、登录注册界面，用户登录注册，修改信息2、管理员用户：

qq_80213251·2025-02-22 08:35

Python 的 WebSocket 实现详解

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-02-22 03:23

Spark MLlib中的机器学习算法及其应用场景

SparkMLlib是ApacheSpark框架中的一个机器学习库，提供了丰富的机器学习算法和工具，用于处理和分析大规模数据。

Java资深爱好者·2025-02-21 20:47

scala的特质(自用)

packagexy//trait:特质(美丽,智慧,耐心......)//作用:(1)当接口用实现多继承(2)当抽象类，定义类标准//格式:trait名字{属性,方法}traitBackgroundPlayer{//abstractclassBackgroundPlayer(){//抽象属性valcd:String//抽象方法defplayvalcolor="red"//具体属性defpause(

啊迷诺斯·2025-02-21 19:16

Spark源码分析

Spark源码分析SparkonYarnclientCluster本质区别，driver位置不同1)有哪些不同得进程？2)分别有什么作用？

陈同学�·2025-02-21 15:07

Spark源码分析 – Shuffle

参考详细探究Spark的shuffle实现,写的很清楚,当前设计的来龙去脉HadoopHadoop的思路是,在mapper端每次当memorybuffer中的数据快满的时候,先将memory中的数据,按

weixin_34292924·2025-02-21 15:06

【大数据分析】Spark SQL查询：使用SQL命令

在SparkSQL编写SQL命令时，它们将被转换为DataFrame上的操作。通过连接到Spark的Thrift服务器，它们可以通过标准的JDBC或ODBC协议从应用服务器连接到Spark。

sword_csdn·2025-02-21 02:58

如何使用Spark SQL进行复杂的数据查询和分析

使用SparkSQL进行复杂的数据查询和分析是一个涉及多个步骤和技术的过程。

Java资深爱好者·2025-02-21 01:22

如果MLlib 中没有所需要的模型，如何使用 Spark 进行分布式训练？

如果MLlib中没有你所需要的模型，并且不打算结合更强大的框架（如TensorFlowOnSpark或Horovod），仍然可以使用Spark进行分布式训练，但需要手动处理训练任务的分配、数据准备、模型训练

是纯一呀·2025-02-20 08:57

四元数：连接四维时空与三维旋转的数学桥梁

一、四元数基础架构1.代数定义四元数是形如的超复数：q=w+xi+yj+zk其中：w为实部（Scalar）(x,y,z)为虚部（Vector）i²=j²=k²=ijk=-12.基本运算规则运

aichitang2024·2025-02-19 23:33

使用 Docker 部署 Apache Spark 集群教程

简介ApacheSpark是一个强大的统一分析引擎，用于大规模数据处理。

努力的小T·2025-02-19 20:48

笔记：DataSphere Studio安装部署流程

一、标准版部署标准版：有一定的安装难度，体现在Hadoop、Hive和Spark版本不同时，可能需要重新编译，可能会出现包冲突问题。适合于试用和生产使用，2~3小时即可部署起来。

右边com·2025-02-19 13:15

HIVE- SPARK

日常记录备忘Hive修改字段类型之后（varchar->string）Hive可以查到数据，Presto查询报错;分区字段数据类型和表结构字段类型不一样；spark-sql分区表和非分区表兼容问题，不能关联可以建临时表把分区数据导入

流川枫_·2025-02-19 13:14

spark为什么比mapreduce快？

作者：京东零售吴化斌spark为什么比mapreduce快？

·2025-02-19 11:55

spark为什么比mapreduce快？

作者：京东零售吴化斌spark为什么比mapreduce快？

·2025-02-19 11:22

Spark中Dataset方法详解

一、数据清洗核心方法1.处理缺失值方法说明示例代码na().drop()删除包含空值的行Datasetcleaned=dataset.na().drop();na().fill(value)用指定值填充所有空值Datasetfilled=dataset.na().fill(0);na().fill(Map)按列填充不同值Mapfills=newHashMapunique=dataset.dropD

小巫程序Demo日记·2025-02-19 10:53

探索大数据处理：利用 Apache Spark 解锁数据价值

探索大数据处理：利用ApacheSpark解锁数据价值大家好，我是你们熟悉的大数据领域自媒体创作者Echo_Wish。今天，我们来聊聊如何利用ApacheSpark进行大规模数据处理。

Echo_Wish·2025-02-19 07:59

vtk文件格式解析

vtk三维模型的数据主要包括：点point、线edge、面surface，点线面的属性scalar,颜色表lookuptable,下面以polydata数据格式为例：#vtkDataFileVersion3.0

西安光锐软件·2025-02-18 12:11

使用Docker安装Spark集群(带有HDFS)

本实验在CentOS7中完成第一部分：安装Docker这一部分是安装Docker，如果机器中已经安装过Docker，可以直接跳过[root@VM-48-22-centos~]#systemctlstopfirewalld[root@VM-48-22-centos~]#systemctldisablefirewalld[root@VM-48-22-centos~]#systemctlstatusfi

Sicilly_琬姗·2025-02-18 10:52

使用Docker部署Spark集群

使用Docker部署Spark集群克隆包含启动脚本的git仓库启动Spark0.8.0集群并切换至SparkShell环境不带参数运行部署脚本*运行一些小的例子终止集群克隆包含启动脚本的git仓库*gitclone-bblogpostgit

小孩真笨·2025-02-18 10:17

从0开始使用Docker搭建Spark集群

utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation最近在学习大数据技术，朋友叫我直接学习Spark

吃鱼的羊·2025-02-18 10:16

Hbase深入浅出

大家熟知的Spark、以及Hadoop的MapReduce，可以理解为一种计算框架。而HDFS，我们可以认为是为计算框架服务的存

天才之上·2025-02-18 03:13

深入浅出了解HBase及RDD编程

HBase为什么能存储海量数据创建一个HBase表配置Spark编写程序读取HBase数据编写程序向HBase写入数据关于搭建HBase高可用集群的图文教程，可参考我的另一篇博文——安装并配置HBase

山海王子·2025-02-18 03:11

Spark 性能优化（四）：Cache

在Spark中，缓存是一种将计算结果存储在内存中的方式，目的是加速后续操作。当你执行迭代算法或查询时，如果多次重复使用相同的数据集，缓存可以避免每次都重新计算相同的转换操作。

LevenBigData·2025-02-17 00:04

使用Docker搭建Flink集群

我们知道，像spark、flink这些计算框架都有多种运行模式：在本地使用多线程模拟集群真正的分布式集群如果直接在IDE（Intellj）里面编译和运行写好的程序，实际上是用的前一种运行模式；如果想尝试真正的生产环境中任务的提交和管

O_1CxH·2025-02-16 20:34

Spark 和 Flink

Spark和Flink都是目前流行的大数据处理引擎，但它们在架构设计、应用场景、性能和生态方面有较大区别。

信徒_·2025-02-16 12:04

spark任务运行

运行环境在这里插入代码片[root@hadoop000conf]#java-versionjavaversion"1.8.0_144"Java(TM)SERuntimeEnvironment(build1.8.0_144-b01)[root@hadoop000conf]#echo$JAVA_HOME/home/hadoop/app/jdk1.8.0_144[root@hadoop000conf]#

冰火同学·2025-02-16 11:56

【Redis】golang操作Redis基础入门

【Redis】golang操作Redis基础入门大家好我是寸铁总结了一篇【Redis】golang操作Redis基础入门sparkles:喜欢的小伙伴可以点点关注Redis的作用Redis（RemoteDictionaryServer

寸铁·2025-02-16 07:24

hive spark读取hive hbase外表报错分析和解决

问题现象使用Sparkshell操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。

spring208208·2025-02-16 07:21

spark-广播变量

当本地数据极大的时候，可以使用广播变量，使得减少内存。本地集合对象和分布式集合对象（RDD）进行关联的时候，需要将本地集合对象广播变量。本地的数据传输到集群上，会发到每一个线程，每一个分区。每一个进程executor，有多个线程分区，进程内的线程数据共享因此，给每一个线程发送数据会导致数据占用，浪费资源。所有，出现了广播变量，使得只发送给进程代码使用：broadcast=sc.broadcast(

哈哈哈哈q·2025-02-16 05:12

探索数据云的无缝桥梁：Apache Spark 与 Snowflake 的完美结合

探索数据云的无缝桥梁：ApacheSpark与Snowflake的完美结合spark-snowflakeSnowflakeDataSourceforApacheSpark.项目地址:https://gitcode.com

窦育培·2025-02-15 12:32

maven插件学习(maven-shade-plugin和maven-antrun-plugin插件)

整合spark3.3.x和hive2.1.1-cdh6.3.2碰到个问题，就是spark官方支持的hive是2.3.x，但是cdh中的hive确是2.1.x的，项目中又计划用spark-thrift-server

catcher92·2025-02-15 08:00

使用SparkLLM实现智能聊天：技术原理与实战演示

在本篇文章中，我们将探讨如何使用iFlyTek的SparkLLM模型来实现智能聊天功能。我们将详细介绍SparkLLM的技术背景、核心原理，并通过实际代码展示如何进行实现。

shuoac·2025-02-15 06:41

Spark 性能优化（三）：RBO 与 CBO

1.RBO的核心概念在ApacheSpark的查询优化过程中，规则优化（Rule-BasedOptimization,RBO）是Catalyst优化器的一个关键组成部分。

LevenBigData·2025-02-15 02:09

python 并行框架_基于python的高性能实时并行机器学习框架之Ray介绍

这种框架名为Ray，看起来有望取代Spark，业界认为Spark对于一些现实的人工智能应用而言速度太慢了;过不了一年，Ray应该会准备好用于生产环境。目前ray已经发布了0.3.0

weixin_39778582·2025-02-14 20:54

java获取hive表所有字段,Hive Sql从表中动态获取空列计数

我正在使用datastaxspark集成和sparkSQLthrift服务器,它为我提供了一个HiveSQL接口来查询Cassandra中的表.我的数据库中的表是动态创建的,我想要做的是仅根据表名在表的每列中获取空值的计数

拾亿年·2025-02-14 16:23

PySpark查询Dataframe中包含乱码的数据记录的方法

首先，用PySpark获取Dataframe中所有非ASCII字符，找到其中的非乱码字符。

weixin_30777913·2025-02-14 16:23

spark streaming基础操作

sparkstreaming基础操作一、什么是sparkstreamingSparkStreaming用于流式数据的处理。

天选之子123·2025-02-14 09:33

scala kotlin比较_追随 Kotlin/Scala，看 Java 12-15 的现代语言特性

本文原发于我的个人博客：https://hltj.me/java/2020/06/14/java-12-15-lang-features.html。本副本只用于知乎，禁止第三方转载。Java14发布已经过去了三个月，Java15目前也已经到了“RampdownPhaseOne”阶段，其新特性均已敲定。由于12-15都是短期版本，无需考虑也不应该将其用于生产环境。但可以提前了解新特性，以免在下一个L

weixin_39605296·2025-02-13 21:50

java 协程 scala_追随 Kotlin/Scala，看 Java 12-15 的现代语言特性

Java14发布已经过去了三个月，Java15目前也已经到了“RampdownPhaseOne”阶段，其新特性均已敲定。由于12-15都是短期版本，无需考虑也不应该将其用于生产环境。但可以提前了解新特性，以免在下一个LTS(Java17)正式发布时毫无心理准备。Java12-15引入了一系列改进，本文只讨论语言层面的新特性，它们看起来似曾相识——没错，这些特性让人感觉Java在沿Kotlin/Sc

小田linda·2025-02-13 21:50

云计算服务中的“无缝扩展”是什么意思

“无缝扩展”（SeamlessScalability）是云计算服务中的一个重要概念，指的是云平台能够根据需求变化自动、平滑地扩展或缩减资源，而不影响系统的正常运行或用户体验。

云上的阿七·2025-02-13 14:31

推荐频道

spark（scala）

Spark on Yarn 多机集群部署

Python+Spark地铁客流数据分析与预测系统 地铁大数据 地铁流量预测

搭建Spark On YARN集群

对应chd5.14的spark_carbonData使用文档(基于CDH 的spark-yarn模式)

yarn模式运行spark作业所有属性详解

Spark on YARN的重要参数

大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构

spark sql随记

计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统 地铁大数据 地铁流量预测

Python 的 WebSocket 实现详解

Spark MLlib中的机器学习算法及其应用场景

scala的特质(自用)

Spark源码分析

Spark源码分析 – Shuffle

【大数据分析】Spark SQL查询：使用SQL命令

如何使用Spark SQL进行复杂的数据查询和分析

如果MLlib 中没有所需要的模型，如何使用 Spark 进行分布式训练？

四元数：连接四维时空与三维旋转的数学桥梁

使用 Docker 部署 Apache Spark 集群教程

笔记：DataSphere Studio安装部署流程

HIVE- SPARK

spark为什么比mapreduce快？

spark为什么比mapreduce快？

Spark中Dataset方法详解

探索大数据处理：利用 Apache Spark 解锁数据价值

最新Apache Hudi 1.0.1源码编译详细教程以及常见问题处理

vtk文件格式解析

使用Docker安装Spark集群(带有HDFS)

使用Docker部署Spark集群

从0开始使用Docker搭建Spark集群

Hbase深入浅出

深入浅出了解HBase及RDD编程

Spark 性能优化（四）：Cache

使用Docker搭建Flink集群

Spark 和 Flink

spark任务运行

【Redis】golang操作Redis基础入门

hive spark读取hive hbase外表报错分析和解决

spark-广播变量

探索数据云的无缝桥梁：Apache Spark 与 Snowflake 的完美结合

maven插件学习(maven-shade-plugin和maven-antrun-plugin插件)

使用SparkLLM实现智能聊天：技术原理与实战演示

Spark 性能优化 （三）：RBO 与 CBO

python 并行框架_基于python的高性能实时并行机器学习框架之Ray介绍

java获取hive表所有字段,Hive Sql从表中动态获取空列计数

PySpark查询Dataframe中包含乱码的数据记录的方法

spark streaming基础操作

scala kotlin比较_追随 Kotlin/Scala，看 Java 12-15 的现代语言特性

java 协程 scala_追随 Kotlin/Scala，看 Java 12-15 的现代语言特性

云计算服务中的“无缝扩展”是什么意思

Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构

计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测

Spark 性能优化（三）：RBO 与 CBO