spark边缘计算第15页

Spark——Spark DataFrame导出为Excel文件

文章目录问题背景实现1.Maven依赖2.代码实现3.参数详解1.'sheet_name'!B3:C35。2.sheet_name[#All]参考问题背景有时候我们在进行一些表的计算之后，会生成一些指标，需要导出来给其它同事用，虽说可以将DataFrame直接写成表，然后通过工具(比如Hue)导出为Excel，但是步骤就多了，而且如果要导出的表比较多的话，就更浪费时间了，那么这时候调用第三方插件就

Southwest-·2024-01-28 08:17

Spark —— JSON对象/数组转成Spark Dataset/DataFrame

JSON转DataFrame在日常使用Spark处理数据时,半结构化的JSON数据(JSONObject,JSONArray)可能是最常见的一种数据结构，那么能熟练并快速地处理JSON格式数据应该是数据开发人员的必备技能

Southwest-·2024-01-28 08:16

Spark——Spark读写MongoDB

文章目录Spark直连MongoDB1.通过SparkConf2.通过ReadConfig3.通过DataFrameReaderHive中创建映射表mongoexport导出文件参考如果我们要想通过Spark

Southwest-·2024-01-28 08:46

Spark——Spark读写Greenplum/Greenplum-Spark Connector高速写Greenplum

文章目录问题背景解决方式代码实现Spark写GreenplumSpark读Greenplum参考问题背景通过数据平台上的DataX把Hive表数据同步至Greenplum（因为DataX原生不支持GreenplumWriter

Southwest-·2024-01-28 08:42

Hive之set参数大全-18

指定在执行Spark上的动态分区裁剪时，用于评估分区数据大小的最大限制在Hive中，hive.spark.dynamic.partition.pruning.max.data.size是一个配置参数，用于指定在执行

OnePandas·2024-01-28 07:33

hive面试题

本质上是将SQL转换为MapReduce或者spark来进行计算，数据是存储在hdfs上，简单理解来说hive就是MapReduce的一个客户端工具。补充1：你可以说一下HQL转换为MR的任务流程吗？

韩顺平的小迷弟·2024-01-28 07:29

大数据——Flink 知识点整理

目录1.Flink的特点2.Flink和SparkStreaming的对比3.Flink和Blink、Alink之间的关系4.JobManager和TaskManager的职责5.Flink集群部署有哪些模式

Vicky_Tang·2024-01-28 06:17

你应该知晓的十几种企业流量管理设施

无论是公有云、私有云还是边缘计算，都为企业带来了前所未有的机会和挑战。流量管理技术，如CDN、隧道、WAF等，也不断适应新的需求和环境。背景怎么会有这么多的流量管理设施？

Flomesh·2024-01-28 05:55

Apache Spark架构与特点

1.背景介绍ApacheSpark是一个开源的大数据处理框架，由AMLLabs公司开发，后被Apache软件基金会所支持。

OpenChat·2024-01-27 23:35

Spark-core

什么是SparkSpark是基于内存的快速，通用，可扩展的大数据分析引擎Spark的内置模块SparkCore是Spark可以离线处理的部分，实现了spark的基本功能，包含任务调度，错误恢复，与存储系统交互等模块

luckboy0000·2024-01-27 23:12

独家解读 | 滴滴机器学习平台架构演进之路

所谓大同是指大家所要处理的问题都相似，技术架构和选型也差不太多，比如都会使用GPU集群、采用Spark或K8s平台等。

csdn产品小助手·2024-01-27 19:18

基于多接入边缘计算的任务卸载和资源分配策略研究

摘要：随着移动通信技术和工业互联网的飞速发展，移动设备端日渐庞大的数量和复杂的应用对大量计算密集和低时延提出了要求，也因此引出了基于多接入边缘计算的任务卸载概念。

边缘计算社区·2024-01-27 17:20

边缘计算卸载算法--LOPRTC

LOPRTC卸载算法背景：我实现该算法是在边缘计算单个工作流环境中，下面可以看到此背景下的java代码实现。1.算法伪代码2.输入任务集等…3.输出接近最优的任务调度。

achu19·2024-01-27 17:48

边缘计算卸载算法--GT-GAOA

GT-GAOA卸载算法背景：我实现该算法是在边缘计算单个工作流环境中，下面可以看到此背景下的java代码实现。

achu19·2024-01-27 17:48

基于遗传算法（GA）的计算卸载策略的求解（二）

3、编码方式葛海波的文章《改进遗传算法的边缘计算卸载策略》卸载地点为边缘端和云端，他的基因编码取值为（0，1，2），0表示在本地端执行，1表示在边缘端执行，2表示在云端执行；每条染色体对应一种卸载策略，

武力TYの武·2024-01-27 17:18

边缘计算卸载算法--CD梯度下降

梯度下降卸载算法背景：我实现该算法是在边缘计算单个工作流任务环境中，下面可以看到此背景下的java代码实现。此处假设我们的工作流任务中只有3个任务节点（构成一个有向无环图），下面基于此假设分析算法。

achu19·2024-01-27 17:18

深度学习学习笔记-论文研读4-基于深度强化学习的多用户边缘计算任务卸载调度与资源分配算法

本人学识浅薄，如有理解不到位的地方还请大佬们指出，相互学习，共同进步概念引入强化学习DQN算法边缘计算边缘计算，是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务

丰。。·2024-01-27 17:17

基于差分进化算法的移动边缘计算的任务卸载与资源调度（提供MATLAB代码）

一、优化模型介绍移动边缘计算的任务卸载与资源调度是指在移动设备和边缘服务器之间，将部分计算任务从移动设备卸载到边缘服务器，并合理分配资源以提高系统性能和降低能耗。

IT猿手·2024-01-27 17:47

apache 前30个开源项目

高性能Web服务器提供HTTP服务支持非常活跃2ApacheTomcatJava应用服务器部署JavaWeb应用程序非常活跃3ApacheHadoop分布式存储和计算框架大数据处理非常活跃4ApacheSpark

临水逸·2024-01-27 17:35

如何使用irsa将火花提交给亚马逊eks集群

Inpreviousarticle,IhaveintroducedhowwesubmitaSparkjobtoanEKScluster.Aslongaswe’reusingotherAWScomponentsforourpipelinestointeract

weixin_26755331·2024-01-27 15:26

Pyspark分类--LogisticRegression

LogisticRegression：逻辑回归分类classpyspark.ml.classification.LogisticRegression(featuresCol=‘features’,labelCol

Gadaite·2024-01-27 14:53

搭建大数据平台常用的端口号

journalnode默认的端口号9000：非高可用访问数rpc端口8020：高可用访问数据rpc8088：yarn的webUI的端口号8080：master的webUI，Tomcat的端口号7077：spark

修勾勾L·2024-01-27 13:51

Spark连接Hive的两种方式

一、使用hive-site.xml第一步：将集群中的hive-site.xml的内容复制出来，并放在idea项目的resources下，要求文件命名为：hive-site.xmldatanucleus.schema.autoCreateAlltruejavax.jdo.option.ConnectionURLjdbc:mysql://192.168.38.160:3306/hive_db?crea

修勾勾L·2024-01-27 13:50

项目中常用的utils

importcryptofrom'crypto'importSparkMD5from'spark-md5'importCryptoJsfrom'crypto-js'importJSEncryptfrom'jsencrypt'importstoragefrom

乐夫天命兮·2024-01-27 13:05

flume+kafka+SparkStreaming+mysql+ssm+高德地图热力图项目

第一步、编写python脚本，产生模拟数据#coding=UTF-8importrandomimporttimephone=["13869555210","18542360152","15422556663","18852487210","13993584664","18754366522","15222436542","13369568452","13893556666","1536669855

printf200·2024-01-27 12:24

【Scala-spark.mlib】分布式矩阵——分布式计算的基石与利器

分布式矩阵1.mlib.linalg.distributed包2.DistributedMatrix特质3.BlockMatrix类4.CoordinateMatrix类5.IndexedRowMatrix类6.RowMatrix类7.小结1.mlib.linalg.distributed包矩阵计算是很多科学计算的重要步骤，而分布式矩阵存储则是分布式计算的基础。根据不同的计算需求，需要将用于计

JimmyShis·2024-01-27 10:12

2019年12月10日

今天在公司继续看spark教程，这么说来我已经快一个月没啥正事了（望向每日记录Excel文档），究竟说明公司药丸还是我药丸……反正先做好多手准备【今天明明温度不低办公室的三恒系统却还是开着高温，仿佛电费不要钱

真昼之月·2024-01-27 08:49

Spark-RDD持久化

(1)persist算子使用方法：varrdd=sc.textFile("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count()//或者其他操作StorageLevel说明：StorageLevel的构造函数：classStorageLevelprivate(privatevar_useDisk:Boolean,#是否

printf200·2024-01-27 08:02

Spark SQL中掌控sql语句的执行 - 了解你的查询计划

本文翻译自BeinchargeofQueryExcutioninSparkSQL背景自spark2.x的sql以及申明行DataFrameAPi以来，在spark查询数据越来越方便。

鸿乃江边鸟·2024-01-27 08:18

基于差分进化算法（Differential Evolution Algorithm，DE）的移动边缘计算的任务卸载与资源调度研究（提供MATLAB代码）

一、优化模型介绍移动边缘计算的任务卸载与资源调度是指在移动设备和边缘服务器之间，将部分计算任务从移动设备卸载到边缘服务器，并合理分配资源以提高系统性能和降低能耗。

IT猿手·2024-01-27 08:59

Hadoop与Spark横向比较【大数据扫盲】

大数据场景下的数据库有很多种，每种数据库根据其数据模型、查询语言、一致性模型和分布式架构等特性，都有其特定的使用场景。以下是一些常见的大数据数据库：1.**NoSQL数据库**：这类数据库通常用于处理大规模、非结构化的数据。它们通常提供简单的查询语言，并强调水平扩展和高可用性。例如：-**键值存储**：如Redis，AmazonDynamoDB-**列式存储**：如ApacheCassandra，

super_journey·2024-01-27 07:51

使用spark mllib训练中文文本分类器的

importorg.apache.spark.mllib.classification.NaiveBayesimportorg.apache.spark.mllib.feature.HashingTFimportorg.apache.spark.mllib.linalg.Vectorsimportorg.apache.spark.sql.functions

DreamNotOver·2024-01-27 07:45

使用 Spark MLlib 使用 jieba 分词训练中文分类器

importorg.apache.spark.ml.classification.NaiveBayesimportorg.apache.spark.ml.feature.HashingTFimportorg.apache.spark.sql.functions

DreamNotOver·2024-01-27 07:45

Spark Thrift Server 架构和原理介绍

也可以看我CSDN的博客：https://blog.csdn.net/u013332124/article/details/90339850一、SparkThriftServer介绍SparkThriftServer

疯狂的哈丘·2024-01-27 04:17

实时分析海量新数据的难点和解决方案

解决方案：使用分布式计算和存储技术，如Hadoop、Spark、Kafka等，将数据分散存储在多个节点上，同时进行分布式计算和处理，以实现数据的实时处理和分析。2.数据质量的保障：海量新

云台095·2024-01-27 03:40

idea上搭建pyspark开发环境

1环境版本说明python版本：Anaconda3.6.5spark版本：spark-2.4.8-bin-hadoop2.7idea版本：2019.32环境变量配置2.1python环境变量配置将python.exe

jackyan163·2024-01-27 00:06

远程设备运维Node-RED 5G遥测终端支持python3编程

钡铼Node-Red边缘计算网关BL304采用嵌入式Linux系统开发的产品，具有高度的稳定性。主板使用NXP公司i.MX8MMini四核64位处理器设计，主频最高1.8GHz

钡铼技术物联网关·2024-01-26 21:54

边缘计算面临的挑战和机遇

一、什么是边缘计算边缘计算也称为边缘处理，边缘计算是一种新兴的计算范式，将计算和数据处理推向接近数据源的边缘设备，解决网络传输的延迟问题。

明明跟你说过·2024-01-26 21:45

【前沿技术杂谈：边缘计算】连接未来的桥梁

【前沿技术杂谈：边缘计算】连接未来的桥梁引言第一部分：边缘计算的基础定义与原理关键技术第二部分：边缘计算的挑战与机遇数据安全与隐私保护网络稳定性实时性与本地处理能力方向一：数据安全与隐私保护安全机制设计隐私保护算法方向二

jcfszxc·2024-01-26 19:56

边缘计算在电力行业的应用：挑战与机遇

摘要：随着电力行业的数字化转型，边缘计算作为一种新兴技术，正在变得日益重要。通过将数据处理能力带到网络的边缘，即接近数据产生的地方，边缘计算能显著提高电力系统的实时性和效率。

雨微尘·2024-01-26 19:55

Spark 2.3.4 StandAlone 集群模式部署

Spark2.3.4StandAlone集群模式部署相关文档依赖服务系统优化创建路径配置/etc/profile配置$SPARK_HOME/conf/spark-env.sh配置$SPARK_HOME/

JP.Hu·2024-01-26 19:07

Flink 基础入门

前言SparkStreaming准确来说算是一个微批处理伪实时的做法，可是Flink是真的来一条就会处理一条，而且在SparkStreaming和Kafka进行整合时我们需要手动去管理偏移量的问题，而在

IT领域君·2024-01-26 19:28

展望2024: 中国AI算力能否引爆高性能计算和大模型训练的新革命？

★算力；算法；人工智能；高性能计算；高性能；高互联；生成式人工智能；StableDiffusion；ChatGPT；CoPilot；文本创建；图像生成；代码编写；大语言模型；多模态大模型；预训练；边缘计算

高性能服务器·2024-01-26 15:02

Spark常见问题解决-日志和排查办法

Spark日志与排查报错问题查看：https://blog.csdn.net/qq_33588730/article/details/109353336Spark常见问题1.org.apache.spark.SparkException

for your wish·2024-01-26 15:39

Spark3内核源码与优化

文章目录一、Spark内核原理1、Spark内核概述1.1简介1.2Spark核心组件1.3Spark通用运行流程概述2、Spark部署模式2.1YARNCluster模式(重点)2.2YARNClient

魅Lemon·2024-01-26 15:38

Spark3学习笔记

文章目录一、Spark基础1、Spark概述1.1Spark简介1.2SparkVSHadoop1.3Spark特点1.4Spark入门Demo2、Spark运行模式2.1概述2.2Local模式2.3Standalone