spark边缘计算第2页

介绍 Apache Spark 的基本概念和在大数据分析中的应用

ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。

佛渡红尘·2025-03-18 13:31

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。

Echo_Wish·2025-03-18 12:57

Hive 与 SparkSQL 的语法差异及性能对比

在大数据处理领域，Hive和SparkSQL都是极为重要的工具，它们为大规模数据的存储、查询和分析提供了高效的解决方案。

自然术算·2025-03-18 09:22

5G 网络的关键技术及对物联网发展的推动

目录一、5G网络的关键技术（一）毫米波技术（二）MassiveMIMO（大规模多输入多输出）（三）网络切片（四）边缘计算二、5G网络对物联网发展的推动（一）支持海量设备连接（二）低延迟与高可靠性通信（三

叶间清风1998·2025-03-18 01:49

Spark任务读取hive表数据导入es

使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf

小小小小小小小小小小码农·2025-03-17 18:25

Spark sql 中row的用法

在ApacheSpark中，Row是一个表示一行数据的类。它是SparkSQL中DataFrame或Dataset的基本数据单元。

闯闯桑·2025-03-17 18:53

Spark Sql 简单校验的实现

在网上参考了很多资料，都是要依赖Sparksession，这个需要spark环境，非常不友好，jdk版本也不好控制。

小小小小小小小小小小码农·2025-03-17 17:50

PySpark安装及WordCount实现（基于Ubuntu）

在Ubuntu上安装PySpark并实现WordCount，需要以下步骤：安装PySpark：安装Java：PySpark需要Java运行环境。

uui1885478445·2025-03-17 12:11

[特殊字符] 用Rust重塑Web开发速度极限：Hyperlane框架——开启高性能服务的「光年时代」[特殊字符]

Rust内核级优化：基于tokio异步运行时的极致封装，QPS突破5万+，内存占用极低，完美适配边缘计算与云原生场景。️「开发者狂喜」：5分钟极速上

LTPP·2025-03-17 05:45

大数据手册(Spark)--Spark安装配置

若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。

WilenWu·2025-03-16 20:09

国内外AI搜索产品盘点

序号AISearch产品名简介网站开发者1Perplexity强大的对话式AI搜索引擎https://www.perplexity.aiPerplexity2GensparkAIAgent搜索引擎https

Suee2020·2025-03-16 11:38

PCDN 与边缘计算的结合：未来内容分发的新趋势

PCDN（P2P内容分发网络）与边缘计算的结合，正逐渐崭露头角，成为未来内容分发的新趋势。PCDN通过P2P技术，利用用户节点的闲置资源进行内容分发，有效减轻了中心服务器的压力，降低了传输成本。

yczykjyxgs·2025-03-16 05:26

云计算、边缘计算与雾计算

云计算（数据上传到云端进行处理）云计算(CloudComputing)是一种基于互联网的计算方式，通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。通俗的讲，云是网络、互联网的一种比喻说法，即互联网与建立互联网所需要的底层基础设施的抽象体。“计算”指的是一台足够强大的计算机提供的计算服务（包括各种功能，资源，存储）。“云计算”可以理解为：通过互联网可以使用足够强大的计算机为用户提

白小白呀·2025-03-16 05:55

PCDN边缘计算小白入门指南

一、PCDN边缘计算简介PCDN是一种基于P2P技术的边缘计算内容分发网络。它通过挖掘和利用边缘网络中的海量碎片化闲置资源，构建出低成本、高品质的内容分发网络服务。

神鸟云-Hu·2025-03-16 05:53

HIVE开窗函数

面试高频考点——HIVE开窗函数（基础篇）目录标题ETL,SQL面试高频考点——HIVE开窗函数（基础篇）一，窗口函数介绍二，开窗函数三，分析函数分类1，排序分析函数：实列解析对比总结2.聚合分析函数3.用spark

Cciccd·2025-03-16 02:31

Hive MR & Spark & Yarn参数优化总结

一、hivemr参数调优：sethive.optimize.ppd=true;--开启谓词下推。--动态分区参数sethive.exec.mode.local.auto=true;sethive.exec.dynamic.partition.mode=nonstrict;--默认是strict，表示至少有一个静态分区，nonstri

大数据侠客·2025-03-16 02:31

NPU的应用场景：从云端到边缘

2.边缘计算智能摄像头：在安防监控中，NPU可以实时处理视频流，实现目标检测和跟踪。智能音箱：在语音助手中，NPU可以加速语音识别和自然语言处理任务。3.自动驾驶实时感知：NPU可以加速自动驾

绿算技术·2025-03-16 02:29

Spark 中创建 DataFrame 的2种方式对比

spark.createDataFrame(data).toDF("name","age")和spark.createDataFrame(spark.sparkContext.parallelize(data

闯闯桑·2025-03-15 20:20

python手写kmeans算法

kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!

菜鸟懿·2025-03-15 09:26

数据分析大数据面试题大杂烩01

处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK

爱学习的菜鸟罢了·2025-03-15 09:19

doris：SQL 方言兼容

提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。

向阳1218·2025-03-15 01:07

25年大数据开发省赛样题第一套，离线数据处理答案

省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1

Tometor·2025-03-15 00:01

边缘计算Edge Computing

最近工作有接触到这个概念，先贴点资料在这里吧。OverviewEdgecomputingpushesapplications,dataandcomputingpower(services)awayfromcentralizedpointstothelogicalextremesofanetwork.Edgecomputingtakesadvantageofmicroservicesarchitec

福梦·2025-03-14 22:07

ROS机器人边缘计算：EdgeComputing与ROS

1.2边缘计算

AI天才研究院·2025-03-14 22:36

边缘计算（Edge Computing）

边缘计算（EdgeComputing）是一种分布式计算范式，它将数据处理和存储功能从传统的集中式云端转移到靠近数据源的网络边缘设备（如路由器、网关、本地服务器或终端设备）。

Dream Algorithm·2025-03-14 21:01

再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖

宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技

移远通信·2025-03-14 17:56

云原生边缘计算：分布式智能的最后一公里革命

引言：从集中式云到边缘计算的范式演进阿里云ENS覆盖3000边缘节点，腾讯云ECM支持5ms内就近接入，特斯拉每辆车部署轻量K8s管理AI模型。

桂月二二·2025-03-13 14:12

sparkML入门，通俗解释机器学习的框架和算法

Tometor·2025-03-13 11:53

MBox20边缘计算网关：助力PLC远程调试监控

如今，随着边缘计算技术的飞速发展，明达技术自主研发的MBox20边缘计算网关正逐渐成为实现PLC远程调试监控的关键工具，为

明达技术·2025-03-13 06:12

大数据面试之路 (三) mysql

将SparkSQL加工后的数据存入MySQL通常基于以下几个关键原因：1.数据应用场景适配OLTP与OLAP分工：SparkSQL擅长处理大数据量的OLAP（分析型）任务，而MySQL作为OLTP（事务型

愿与狸花过一生·2025-03-12 16:38

大模型中的剪枝、蒸馏是什么意思？

这两种技术在实际应用中非常重要，尤其是在资源受限的环境中（如移动设备或边缘计算）。1.剪枝（Pruning）定义剪枝是一种模型压缩技术，通过移除模型中不重要的权重或神经元来减少模型的大小和

玩人工智能的辣条哥·2025-03-12 10:29

NanoMQ ds笔记250306

多版本下载地址https://www.emqx.com/zh/downloads/nanomqNanoMQ官方文档https://nanomq.io/docs/zh/latest/NanoMQ是一个专为物联网边缘计算设计的轻量级

kfepiza·2025-03-12 05:43

如何使用 SparkLLM 进行自然语言处理

iFLYTEK开发的SparkLLM便是这样一个大规模认知模型。通过学习大量文本、代码和图像，SparkLLM能够理解和执行基于自然对话的任务。

shuoac·2025-03-12 04:36

使用Couchbase中的向量搜索进行智能查询

技术背景介绍Couchbase是一种强大的分布式NoSQL数据库，广泛应用于云、移动、AI和边缘计算应用中。其向量搜索功能，作为全文搜索服务的一部分，支持在应用中进行高效的语义查询。

eahba·2025-03-12 04:05

RDD 行动算子

在ApacheSpark中，RDD（弹性分布式数据集）是核心数据结构之一。行动算子会触发实际的计算并返回结果或执行某些操作。

阿强77·2025-03-12 03:02

模型优化前沿趋势与行业应用实战

随着自动化机器学习（AutoML）与边缘计算技术的深度融合，模型开发范式正从人工调参转向自动化、自适应优化。

智能计算研究中心·2025-03-11 22:12

算力安全创新驱动未来趋势endofsentence

内容概要算力安全与技术创新正在重塑全球算力生态，其核心驱动力来自异构计算、边缘计算及量子计算等前沿技术的深度融合。

智能计算研究中心·2025-03-11 22:42

讲一下Spark的shuffle过程

首先Spark的shuffle是Spark分布式集群计算的核心。Spark的shuffle可以从shuffle的阶段划分，shuffle数据存储，shuffle的数据拉取三个方面进行讲解。

冰火同学·2025-03-11 20:29

Spark常见面试题目（1）

Spark有哪几种部署的方式，谈谈方式都有哪些特点第一种是local本地部署,通常就是一台机器用于测试。

冰火同学·2025-03-11 20:58

Spark数据倾斜的问题

Spark数据倾斜业务背景Spark数据倾斜表现Spark的数据倾斜，包括SparkStreaming和SparkSQL，表现主要有下面几种：1、Excutorlost，OOM，Shuffle过程出错2

冰火同学·2025-03-11 20:58

PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析

编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值

weixin_30777913·2025-03-11 19:55

Hadoop、Spark和 Hive 的详细关系

Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。

夜行容忍·2025-03-11 18:46

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。

雨中徜徉的思绪漫溢·2025-03-11 17:07

大数据面试之路 (一) 数据倾斜

Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。

愿与狸花过一生·2025-03-11 17:34

Spike Neural Network Introduction and Research Directions

这使得SNNs很适合应用在对功耗要求非常严格的场景,如边缘计算。时序编

Debug_Snail·2025-03-11 14:09

scala针对复杂数据源导入与分隔符乱码处理

和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时（如,、|、\t混合使用），可采用以下方法：1.1动态检测分隔符//示例：自动检测前100行的常用分隔符valsampleLines=spark.read.text

Tometor·2025-03-11 11:45

Spark-TTS：基于大模型的文本语音合成工具

GitHub：https://github.com/SparkAudio/Spark-TTSSpark-TTS是一个先进的文本到语音系统，它利用大型语言模型（LLM）的强大功能进行高度准确和自然的语音合成

CITY_OF_MO_GY·2025-03-10 13:35

IoT边缘计算软件：AWS Greengrass二次开发_AWSGreengrass安全机制与最佳实践

AWSGreengrass作为边缘计算平台，提供了一系列的安全机制来保护设备、数据和通信。

chenlz2007·2025-03-10 10:09

数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark

1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性

晴天彩虹雨·2025-03-10 03:22

YOLOv7-Tiny：轻量化实时目标检测的革新实践

一、模型定位与核心优势YOLOv7-Tiny作为YOLOv7系列的轻量级版本，专为边缘计算设备和实时检测场景设计。

追寻向上·2025-03-10 03:21

推荐频道

spark边缘计算