spark边缘计算第5页

Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测

本系统基于大数据设计并实现成都地铁客流量分析系统，使用网络爬虫爬取并收集成都地铁客流量数据，运用机器学习和时间序列分析等方法，对客流量数据进行预处理和特征选择，构建客流量预测模型，利用历史数据对模型进行训练和优化，实现客流量预测模型的部署和应用，通过系统界面展示预测结果。对预测模型进行评估和验证，并提出改进方案。设计步骤使用Python语言编写爬虫程序采集数据，并对原始数据集进行预处理；使用Pyt

qq_79856539·2025-02-23 16:16

边缘计算与联邦学习驱动医疗影像特征工程优化

本研究针对医疗影像分析场景中跨机构数据共享的复杂性，提出基于边缘计算与联邦学习的协同优化框架，通过分布式特征工程重构医学图像的解析范式。

智能计算研究中心·2025-02-23 11:40

深度学习框架与边缘计算融合驱动医疗金融模型优化新路径

内容概要随着边缘计算与深度学习框架的深度融合，医疗与金融领域的模型优化正在突破传统算力与隐私保护的瓶颈。

智能计算研究中心·2025-02-23 11:10

边缘计算与联邦学习驱动医疗金融预测及模型可解释性技术突破

内容概要当前人工智能技术正经历多维度融合与迭代升级，边缘计算与联邦学习的协同创新成为突破性方向。

智能计算研究中心·2025-02-23 11:10

搭建Spark On YARN集群

一、SparkOnYARN架构二、搭建SparkOnYARN集群（一）搭建SparkStandalone集群（二）修改Spark环境配置文件SparkOnYARN模式的搭建比较简单，仅需要在YARN集群的一个节点上安装

snow323H·2025-02-23 07:05

对应chd5.14的spark_carbonData使用文档(基于CDH 的spark-yarn模式)

一、部署(基于CDH的spark-yarn模式)下载源码编译(目前官网已经提供编译好的jar包了)【https://dist.apache.org/repos/dist/release/carbondata

颜语一声·2025-02-22 22:22

yarn模式运行spark作业所有属性详解

摘要:Spark参数调优，可以大大提高工作中程序的运行效率。

weixin_34248487·2025-02-22 22:22

Spark on YARN的重要参数

Spark属性或者去源码找Class类SparkSubmitArguments，最全了属性名称默认含义spark.yarn.am.memory512m用于客户端模式下的YARNApplicationMaster

大米饭精灵·2025-02-22 21:50

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构

已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark

m0_74823705·2025-02-22 21:50

spark sql随记

1、sparksql访问hive将hive-site.xml放入到${SPARK_HOME}/conf下如果是sparkonyarn的cluster模式，由于driver是运行于哪个executor未知

cxy1991xm·2025-02-22 21:18

计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测

开发技术SparkHadoopPython爬虫Vue.jsSpringBoot机器学习/深度学习人工智能创新点Spark大屏可视化爬虫预测算法功能1、登录注册界面，用户登录注册，修改信息2、管理员用户：

qq_80213251·2025-02-22 08:35

Python 的 WebSocket 实现详解

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-02-22 03:23

Spark MLlib中的机器学习算法及其应用场景

SparkMLlib是ApacheSpark框架中的一个机器学习库，提供了丰富的机器学习算法和工具，用于处理和分析大规模数据。

Java资深爱好者·2025-02-21 20:47

Spark源码分析

Spark源码分析SparkonYarnclientCluster本质区别，driver位置不同1)有哪些不同得进程？2)分别有什么作用？

陈同学�·2025-02-21 15:07

Spark源码分析 – Shuffle

参考详细探究Spark的shuffle实现,写的很清楚,当前设计的来龙去脉HadoopHadoop的思路是,在mapper端每次当memorybuffer中的数据快满的时候,先将memory中的数据,按

weixin_34292924·2025-02-21 15:06

边缘安全加速平台 EO（Edge Optimization）

腾讯云边缘安全加速平台EO（EdgeOptimization）是腾讯云推出的一项基于边缘计算的安全加速解决方案，旨在提升企业网站、应用、服务等的访问速度、安全性和稳定性。

HaoHao_010·2025-02-21 13:13

【大数据分析】Spark SQL查询：使用SQL命令

在SparkSQL编写SQL命令时，它们将被转换为DataFrame上的操作。通过连接到Spark的Thrift服务器，它们可以通过标准的JDBC或ODBC协议从应用服务器连接到Spark。

sword_csdn·2025-02-21 02:58

如何使用Spark SQL进行复杂的数据查询和分析

使用SparkSQL进行复杂的数据查询和分析是一个涉及多个步骤和技术的过程。

Java资深爱好者·2025-02-21 01:22

如果MLlib 中没有所需要的模型，如何使用 Spark 进行分布式训练？

如果MLlib中没有你所需要的模型，并且不打算结合更强大的框架（如TensorFlowOnSpark或Horovod），仍然可以使用Spark进行分布式训练，但需要手动处理训练任务的分配、数据准备、模型训练

是纯一呀·2025-02-20 08:57

使用 Docker 部署 Apache Spark 集群教程

简介ApacheSpark是一个强大的统一分析引擎，用于大规模数据处理。

努力的小T·2025-02-19 20:48

笔记：DataSphere Studio安装部署流程

一、标准版部署标准版：有一定的安装难度，体现在Hadoop、Hive和Spark版本不同时，可能需要重新编译，可能会出现包冲突问题。适合于试用和生产使用，2~3小时即可部署起来。

右边com·2025-02-19 13:15

HIVE- SPARK

日常记录备忘Hive修改字段类型之后（varchar->string）Hive可以查到数据，Presto查询报错;分区字段数据类型和表结构字段类型不一样；spark-sql分区表和非分区表兼容问题，不能关联可以建临时表把分区数据导入

流川枫_·2025-02-19 13:14

最新技术趋势：2025年的无服务器架构发展方向

随着云计算和边缘计算的深入融合，无服务器架构的发展方向也更加明确。理解这些趋势可以帮助开发者和企业在技术演进中抢占先机。首先是边缘无服务器计算的兴起。

zxzy_org·2025-02-19 11:29

spark为什么比mapreduce快？

作者：京东零售吴化斌spark为什么比mapreduce快？

·2025-02-19 11:55

spark为什么比mapreduce快？

作者：京东零售吴化斌spark为什么比mapreduce快？

·2025-02-19 11:22

Spark中Dataset方法详解

一、数据清洗核心方法1.处理缺失值方法说明示例代码na().drop()删除包含空值的行Datasetcleaned=dataset.na().drop();na().fill(value)用指定值填充所有空值Datasetfilled=dataset.na().fill(0);na().fill(Map)按列填充不同值Mapfills=newHashMapunique=dataset.dropD

小巫程序Demo日记·2025-02-19 10:53

探索大数据处理：利用 Apache Spark 解锁数据价值

探索大数据处理：利用ApacheSpark解锁数据价值大家好，我是你们熟悉的大数据领域自媒体创作者Echo_Wish。今天，我们来聊聊如何利用ApacheSpark进行大规模数据处理。

Echo_Wish·2025-02-19 07:59

使用Docker安装Spark集群(带有HDFS)

本实验在CentOS7中完成第一部分：安装Docker这一部分是安装Docker，如果机器中已经安装过Docker，可以直接跳过[root@VM-48-22-centos~]#systemctlstopfirewalld[root@VM-48-22-centos~]#systemctldisablefirewalld[root@VM-48-22-centos~]#systemctlstatusfi

Sicilly_琬姗·2025-02-18 10:52

使用Docker部署Spark集群

使用Docker部署Spark集群克隆包含启动脚本的git仓库启动Spark0.8.0集群并切换至SparkShell环境不带参数运行部署脚本*运行一些小的例子终止集群克隆包含启动脚本的git仓库*gitclone-bblogpostgit

小孩真笨·2025-02-18 10:17

从0开始使用Docker搭建Spark集群

utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation最近在学习大数据技术，朋友叫我直接学习Spark

吃鱼的羊·2025-02-18 10:16

Hbase深入浅出

大家熟知的Spark、以及Hadoop的MapReduce，可以理解为一种计算框架。而HDFS，我们可以认为是为计算框架服务的存

天才之上·2025-02-18 03:13

深入浅出了解HBase及RDD编程

HBase为什么能存储海量数据创建一个HBase表配置Spark编写程序读取HBase数据编写程序向HBase写入数据关于搭建HBase高可用集群的图文教程，可参考我的另一篇博文——安装并配置HBase

山海王子·2025-02-18 03:11

无线工业物联数据交互优化方案，基于巨控GRM240

无线工业物联数据交互优化方案1.方案背景与技术优势广州巨控科技深耕工业物联领域十余年，依托4G+边缘计算技术打造新一代无线传输体系。

何工13763355074·2025-02-17 19:39

如何运用边缘计算控制器提升智能工厂的竞争力？

其中，边缘计算作为一项关键技术，在提升生产效率、降低成本以及实现智能制造方面发挥着至关重要的作用。本文将探讨边缘计算在智能工厂中的应用场景及其带来的价值。

钡铼技术物联网关·2025-02-17 16:44

边缘AI架构提升LLM应用的响应速度

边缘AI架构提升LLM应用的响应速度关键词边缘计算、边缘AI、LLM、响应速度、模型压缩、分布式计算摘要本文探讨了如何通过边缘AI架构提升大型语言模型（LLM）应用的响应速度。

AI天才研究院·2025-02-17 15:08

Spark 性能优化（四）：Cache

在Spark中，缓存是一种将计算结果存储在内存中的方式，目的是加速后续操作。当你执行迭代算法或查询时，如果多次重复使用相同的数据集，缓存可以避免每次都重新计算相同的转换操作。

LevenBigData·2025-02-17 00:04

使用Docker搭建Flink集群

我们知道，像spark、flink这些计算框架都有多种运行模式：在本地使用多线程模拟集群真正的分布式集群如果直接在IDE（Intellj）里面编译和运行写好的程序，实际上是用的前一种运行模式；如果想尝试真正的生产环境中任务的提交和管

O_1CxH·2025-02-16 20:34

Spark 和 Flink

Spark和Flink都是目前流行的大数据处理引擎，但它们在架构设计、应用场景、性能和生态方面有较大区别。

信徒_·2025-02-16 12:04

spark任务运行

运行环境在这里插入代码片[root@hadoop000conf]#java-versionjavaversion"1.8.0_144"Java(TM)SERuntimeEnvironment(build1.8.0_144-b01)[root@hadoop000conf]#echo$JAVA_HOME/home/hadoop/app/jdk1.8.0_144[root@hadoop000conf]#

冰火同学·2025-02-16 11:56

如何通过5G和边缘计算提升工业远程运维效能？

边缘计算工控机结合5G网络技术，为工业远程运维提供了一个全新的软硬件协同解决方案。本文将探讨这一方案的具体实施方式及其带来的变革，并通过实例展示其应用效果。

钡铼技术物联网关·2025-02-16 09:15

【Redis】golang操作Redis基础入门

【Redis】golang操作Redis基础入门大家好我是寸铁总结了一篇【Redis】golang操作Redis基础入门sparkles:喜欢的小伙伴可以点点关注Redis的作用Redis（RemoteDictionaryServer

寸铁·2025-02-16 07:24

hive spark读取hive hbase外表报错分析和解决

问题现象使用Sparkshell操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。

spring208208·2025-02-16 07:21

spark-广播变量

当本地数据极大的时候，可以使用广播变量，使得减少内存。本地集合对象和分布式集合对象（RDD）进行关联的时候，需要将本地集合对象广播变量。本地的数据传输到集群上，会发到每一个线程，每一个分区。每一个进程executor，有多个线程分区，进程内的线程数据共享因此，给每一个线程发送数据会导致数据占用，浪费资源。所有，出现了广播变量，使得只发送给进程代码使用：broadcast=sc.broadcast(

哈哈哈哈q·2025-02-16 05:12

明远智睿核心板在智能家居与工业网关中的应用实践

**——从硬件支持到场景落地的技术路径**SSD2351在智能家居与工业物联网领域，设备需具备实时响应、多协议兼容及边缘计算能力。

myzr123·2025-02-15 17:11

探索数据云的无缝桥梁：Apache Spark 与 Snowflake 的完美结合

探索数据云的无缝桥梁：ApacheSpark与Snowflake的完美结合spark-snowflakeSnowflakeDataSourceforApacheSpark.项目地址:https://gitcode.com

窦育培·2025-02-15 12:32

maven插件学习(maven-shade-plugin和maven-antrun-plugin插件)

整合spark3.3.x和hive2.1.1-cdh6.3.2碰到个问题，就是spark官方支持的hive是2.3.x，但是cdh中的hive确是2.1.x的，项目中又计划用spark-thrift-server

catcher92·2025-02-15 08:00

使用SparkLLM实现智能聊天：技术原理与实战演示

在本篇文章中，我们将探讨如何使用iFlyTek的SparkLLM模型来实现智能聊天功能。我们将详细介绍SparkLLM的技术背景、核心原理，并通过实际代码展示如何进行实现。

shuoac·2025-02-15 06:41

Spark 性能优化（三）：RBO 与 CBO

1.RBO的核心概念在ApacheSpark的查询优化过程中，规则优化（Rule-BasedOptimization,RBO）是Catalyst优化器的一个关键组成部分。

LevenBigData·2025-02-15 02:09

江苏地区电子制造行业首选的设备运行监测系统SKF IMAX-8边缘计算盒子与DuodooBMS实现高效预测性维护

引言在电子制造行业中，设备高精度、高复杂度、高频率换线的生产特点对设备稳定性提出了严苛要求。传统维护方式依赖人工巡检和定期检修，存在响应滞后、成本高昂等问题。预测性维护（PredictiveMaintenance,PdM）通过实时数据分析和AI算法，能够提前识别设备潜在故障，大幅降低停机风险。然而，实现这一目标需要解决设备数据采集、边缘实时计算、平台深度融合等关键问题。本文将结合SKFIMAX-8

邹工转型手札·2025-02-14 22:07

推荐频道

spark边缘计算

Python+Spark地铁客流数据分析与预测系统 地铁大数据 地铁流量预测

边缘计算与联邦学习驱动医疗影像特征工程优化

深度学习框架与边缘计算融合驱动医疗金融模型优化新路径

边缘计算与联邦学习驱动医疗金融预测及模型可解释性技术突破

搭建Spark On YARN集群

对应chd5.14的spark_carbonData使用文档(基于CDH 的spark-yarn模式)

yarn模式运行spark作业所有属性详解

Spark on YARN的重要参数

大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构

spark sql随记

计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统 地铁大数据 地铁流量预测

Python 的 WebSocket 实现详解

Spark MLlib中的机器学习算法及其应用场景

Spark源码分析

Spark源码分析 – Shuffle

边缘安全加速平台 EO（Edge Optimization）

【大数据分析】Spark SQL查询：使用SQL命令

如何使用Spark SQL进行复杂的数据查询和分析

如果MLlib 中没有所需要的模型，如何使用 Spark 进行分布式训练？

使用 Docker 部署 Apache Spark 集群教程

笔记：DataSphere Studio安装部署流程

HIVE- SPARK

最新技术趋势：2025年的无服务器架构发展方向

spark为什么比mapreduce快？

spark为什么比mapreduce快？

Spark中Dataset方法详解

探索大数据处理：利用 Apache Spark 解锁数据价值

最新Apache Hudi 1.0.1源码编译详细教程以及常见问题处理

使用Docker安装Spark集群(带有HDFS)

使用Docker部署Spark集群

从0开始使用Docker搭建Spark集群

Hbase深入浅出

深入浅出了解HBase及RDD编程

无线工业物联数据交互优化方案，基于巨控GRM240

如何运用边缘计算控制器提升智能工厂的竞争力？

边缘AI架构提升LLM应用的响应速度

Spark 性能优化（四）：Cache

使用Docker搭建Flink集群

Spark 和 Flink

spark任务运行

如何通过5G和边缘计算提升工业远程运维效能？

【Redis】golang操作Redis基础入门

hive spark读取hive hbase外表报错分析和解决

spark-广播变量

明远智睿核心板在智能家居与工业网关中的应用实践

探索数据云的无缝桥梁：Apache Spark 与 Snowflake 的完美结合

maven插件学习(maven-shade-plugin和maven-antrun-plugin插件)

使用SparkLLM实现智能聊天：技术原理与实战演示

Spark 性能优化 （三）：RBO 与 CBO

江苏地区电子制造行业首选的设备运行监测系统SKF IMAX-8边缘计算盒子与DuodooBMS实现高效预测性维护

Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构

计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测

Spark 性能优化（三）：RBO 与 CBO