spark边缘计算第40页

流批一体神器 Flink 之 Flink State 架构原理解析

身为大数据工程师，你还在苦学Spark、Hadoop、Storm，却还没搞过Flink？醒醒吧！

zhisheng_blog·2023-12-17 14:32

大规模异常滥用检测：基于局部敏感哈希算法——来自Uber Engineering的实践

为了解决我们和其他系统中的类似挑战，UberEngineering和Databricks共同向ApacheSpark2.1开发了局部敏感哈希（LSH）。LSH是大规模

djph26741·2023-12-17 14:49

在 idea 中以 yarn-client 远程提交 Spark 作业

示例代码RemoteSubmitApp主类packagecom.clouderaimportorg.apache.kafka.clients.consumer.ConsumerConfigimportorg.apache.kafka.common.serialization.StringDeserializerimportorg.apache.log4j.Loggerimportorg.apach

lei_charles·2023-12-17 13:41

Flink 简介

Flink简介#一、Flink简介#1.Flink发展这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有Hadoop、Storm，以及后来的Spark，他们都有着各自专注的应用场景。

lz_matlab·2023-12-17 09:09

图解Spark Graphx实现顶点关联邻接顶点的collectNeighbors函数原理

在用Sparkgraphx中，通过函数collectNeighbors便可以获取到源顶点邻接顶点的数据。下面以一个例子来说明，首先，先基于顶点集和边来创建一个Graph图。

朱季谦·2023-12-17 09:31

Spark sql 写分区表，设置format报错

sparksqldataset写入表的时候，我写的是一个用ymd分区的表，我想设置输出格式format("hive")，然后报错了代码如下ds.write().partitionBy(partitionsStr

南修子·2023-12-17 07:25

Hadoop，Hive和Spark大数据框架的联系和区别

Hadoop，Hive和Spark是大数据相关工作中最常用的三种框架。1Hadoophadoop是一个分布式计算框架，是大数据处理的基石，大多其他框架都是以hadoop为基础。

Weiyaner·2023-12-17 06:00

Win10下安装大数据开发环境 spark+hadoop+hive（实测可用）

Win10下安装大数据开发环境spark+hadoop+hive（实测可用）基础环境安装spark安装Hadoop安装hive安装总结参考博客基础环境安装首先，我们需要搭建软件的运行环境，本文中所使用的软件均需要运行在

YannAdams·2023-12-17 06:30

大数据生态中‘Hadoop’、‘Hive’、‘Spark’、‘Mapreduce’、‘HDFS’、‘Yarn’是什么关系

小书生啊·2023-12-17 06:29

大数据 | Hadoop、Hive、Spark的关系

文章总括图数据存储单机数据库时代所有数据在单机都能存的下，数据处理的任务都是IO密集型，更谈不上分布式系统一个典型的2U服务器可以插6块硬盘，每块硬盘4T，共24T原始容量，再加上一些数据包的可用冗余，再加上一些格式化的损失，保守估计一台服务器至少可以有10T以上的可用容量，再加上128G内存和两颗CPU，装入DBMS，稍微调优，单表处理10e条数据问题不大多机数据库时代当数据量变多时，单台机器无

xyzhang2018·2023-12-17 06:58

[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark：Java大师的大数据研究之旅

在这个充满机遇和挑战的领域中，我深入研究了Hadoop、HDFS、Hive和Spark等关键技术。本篇博客将从"是什么"、"为什么"和"怎么办"三个角度，系统地介绍这些技术。文章目录是什么？

程序员三木·2023-12-17 06:55

Spark报错处理系列之：Caused by: java.lang.StackOverflowError

Spark报错处理系列之：Causedby:java.lang.StackOverflowError一、完整报错二、错误原因三、解决方法一、完整报错INFOApplicationMaster:UnregisteringApplicationMasterwithFAILED

最笨的羊羊·2023-12-17 06:38

Spark-Streaming+HDFS+Hive实战

文章目录前言一、简介1.Spark-Streaming简介2.HDFS简介3.Hive简介二、需求说明1.目标：2.数据源：3.数据处理流程：4.HDFS文件保存：5.Hive外部表映射：三、实战示例演练

大数据魔法师·2023-12-17 06:38

《智能决策技术及应用》笔记

但是编排上是有独特组合的，所以我只放总结目录+一些我觉得有意思应该记录一下的东西，每个再写两句自己的备忘（其实基本都在研究生课程学过了）第1章绪论智能制造支撑技术与平台：人工智能、工业大数据、云计算、工业互联网、边缘计算

超自然祈祷·2023-12-17 06:23

《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-17 05:16

《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-17 05:10

175、Spark运维管理进阶之作业资源调度standalone模式下使用动态资源分配

/sbin/.start-shuffle-service.sh启动spark-shell，启用动态资源分配添加如下配置--confspark.shuffle.service.enabled=true\-

ZFH__ZJ·2023-12-17 04:18

Spark SQL之读取复杂的json数据

text":"Nicedayouttoday"}{"user":{"name":"Matei","location":"Berkeley"},"text":"Evennicerhere:)"}2、直接使用spark

kun2736·2023-12-17 03:41

边缘计算产业联盟正式成立 —— 引领边缘计算产业蓬勃发展深化行业数字化转型...

《企业网D1Net》11月30日（北京）今日，由华为技术有限公司、中国科学院沈阳自动化研究所、中国信息通信研究院、英特尔公司、ARM和软通动力信息技术(集团)有限公司联合倡议发起的边缘计算产业联盟(EdgeComputingConsortium

weixin_33690963·2023-12-17 03:10

边缘计算产业联盟正式成立——引领边缘计算产业蓬勃发展深化行业数字化转型...

[中国，北京，2016年11月30日]今日，由华为技术有限公司、中国科学院沈阳自动化研究所、中国信息通信研究院、英特尔公司、ARM和软通动力信息技术（集团）有限公司联合倡议发起的边缘计算产业联盟(EdgeComputingConsortium

weixin_34292287·2023-12-17 03:10

【WebVR系列文章（1）】WebVR 和浏览器边缘计算革命

WebVR和边缘计算有可能提高VR的采用率并将VR带给更广泛的受众。在本系列文章中，我会向你介绍WebVR和边缘计算的基础知识，并附有详细的示例。虚拟现实（VR）是一个巨大的技术浪潮，它已经到来。

编程轨迹_·2023-12-17 03:05

边缘计算系统设计与实践：引领科技创新的新浪潮

文章目录一、边缘计算的概念二、边缘计算的设计原则三、边缘计算的关键技术四、边缘计算的实践应用《边缘计算系统设计与实践》特色内容简介作者简介目录前言/序言本书读者对象获取方式随着物联网、大数据和人工智能等技术的快速发展

程序边界·2023-12-17 03:03

Spark数据倾斜（一）：描述及定位

1、数据倾斜的原理在执行shuffle操作的时候，是按照key，来进行values的数据的输出、拉取和聚合的。同一个key的values，一定是分配到一个reducetask进行处理的。假如现在有多个key对应的values，总共是90万，但是问题是，可能某个key对应了88万数据，key-values(88万数据)分配到一个task上去面去执行，另外两个task，可能各分配到了1万数据，可能是数

雪飘千里·2023-12-17 02:04

spark-常用算子

一，Transformation变换/转换算子：这种变换并不触发提交作业，这种算子是延迟执行的，也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行，需要等到有Action操作的时候才会真正触发。1.Value数据类型的Transformation算子这种变换并不触发提交作业，针对处理的数据项是Value型的数据（1）输入分区与输出分区一对一型：1.map算子处理数据是一对一的关系，进入

Logan_addoil·2023-12-17 02:04

TG-5510cb: txo高稳定性+105℃高温

TG-+5510CB是一款高稳定性TCXO，可提供CMOS或限幅正弦输出，5G基站和边缘计算的额定温度为+85ºC，需要室外安装、小型化和无风扇运行。

Epson样品中心·2023-12-17 01:51

Flink 有状态流式处理

传统批次处理方法【1】持续收取数据（kafka等），以window时间作为划分，划分一个一个的批次档案（按照时间或者大小等）；【2】周期性执行批次运算（Spark/Stom等）；传统批次处理方法存在的问题

程序猿进阶·2023-12-17 00:30

spark在standalone模式下提交任务流程

1、application（自己编写的应用程序），拷贝到用来提交spark应用的机器上，用spark-summit来提交这个application，在standalone模式下，会在本机客户端直接启动一个

程序媛啊·2023-12-16 23:22

Spark - 直接操作数据源 MySQL

答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。

kikiki4·2023-12-16 23:31

Spark(一): 基本架构及原理

Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升

hedgehog1112·2023-12-16 22:33

【Scala】Scala中的一些基本数据类型的特性列表、元组、构造器、单例对象、伴生类、伴生对象、抽象类与特质

列表使用List(“”,“”,“”)去声明sliding和groued表示迭代器valiter=List("Hadoop","Spark","Scala")sliding2//sliding和groued

冲鸭嘟嘟可·2023-12-16 20:17

Spark

1.请解释Spark中的RDD是什么？

编织幻境的妖·2023-12-16 20:22

Spark

1.请简要介绍一下ApacheSpark的基本架构和组件。

编织幻境的妖·2023-12-16 20:21

RDD是什么

RDD是Spark的基础，是对大数据的抽象，所以先破解Spark，首先从RDD开始。*RDD是什么？有什么特点？*RDD包含什么？*RDD能做什么？

猿界零零七·2023-12-16 20:18

Spark RDD、DataFrame、DataSet比较

在Spark的学习当中，RDD、DataFrame、DataSet可以说都是需要着重理解的专业名词概念。尤其是在涉及到数据结构的部分，理解清楚这三者的共性与区别，非常有必要。

猿界零零七·2023-12-16 20:17

Spark

1.请解释Spark的工作原理。Spark是一种通用的大数据计算框架，其设计目标是提供快速、通用和易于使用的数据处理平台。

编织幻境的妖·2023-12-16 20:16

Spark RDD的转换

按颜色区分转换：绿色是单RDD窄依赖转换黑色是多RDD窄依赖转换紫色是KV洗牌型转换黄色是重分区转换蓝色是特例的转换单RDD窄依赖转换MapPartitionRDD这个RDD在第一次分析中已经分析过。简单复述一下：依赖列表：一个窄依赖，依赖上游RDD分区列表：上游RDD的分区列表计算流程：映射关系（输入一个分区，返回一个迭代器）分区器：上游RDD的分区器存储位置：上游RDD的优先位置可见除了计算流

猿界零零七·2023-12-16 20:45

Spark性能优化总结（建议收藏）

近期优化了一个spark流量统计的程序，此程序跑5分钟小数据量日志不到5分钟，但相同的程序跑一天大数据量日志各种失败。

PHP9年架构师·2023-12-16 18:23

Spark源码之Worker

Spark源码之Worker介绍篇Worker介绍Worker作为工作节点,一般Driver以及Executor都会在这Worker上分布;Worker代码概览Worker继承了ThreadSafeRpcEndpoint

小狼星I·2023-12-16 18:40

Spark 的“血液” --Spark RPC（一）简述

一.Sparkrpc概述首先说明RPC，引用百度百科：RPC（RemoteProcedureCall）—远程过程调用，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。

大数据_zzzzMing·2023-12-16 18:46

云计算、边缘计算、雾计算

目录云计算边缘计算雾计算云计算云计算是基于互联网的计算模式，允许用户通过网络获取计算资源、存储资源、数据库等服务，无需了解和管理底层云计算是分布式计算的一种，指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序

C000kie·2023-12-16 17:16

《PySpark大数据分析实战》-10.独立集群模式的代码运行

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-16 14:49

《PySpark大数据分析实战》-08.宽窄依赖和阶段划分

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-16 14:19

《PySpark大数据分析实战》-09.Spark独立集群安装

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-16 14:49

《PySpark大数据分析实战》-05.PySpark库介绍

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-16 14:05

spark 内核源码剖析十四：Checkpoint原理

Checkpoint，是Spark提供的一个比较高级的功能。

雪飘千里·2023-12-16 12:27

spark的键值对的行动操作

先上图frompysparkimportSparkContextif__name__=="__main__":master="local"iflen(sys.argv)==2:master=sys.argv

yanghedada·2023-12-16 10:03

安卓运行js代码-完美

前言安卓里面做边缘计算的功能，需要动态编辑js代码执行巨坑java里面有ScriptEngineManager类，可以执行js但在安卓里面没有这个类，javax下面的都不能执行网上说的安卓里面用ScriptEngineManager

卡恩.鸿蒙·2023-12-16 08:06

Hbase BulkLoad用法

要导入大量数据，Hbase的BulkLoad是必不可少的，在导入历史数据的时候，我们一般会选择使用BulkLoad方式，我们还可以借助Spark的计算能力将数据快速地导入。

kikiki1·2023-12-16 07:59

AI创作系统ChatGPT网站源码+搭建部署教程文档，AI绘画，支持TSS GPT语音对话功能

一、AI创作系统SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。

白云如幻·2023-12-16 07:50

推荐频道

spark边缘计算

流批一体神器 Flink 之 Flink State 架构原理解析

大规模异常滥用检测：基于局部敏感哈希算法——来自Uber Engineering的实践

在 idea 中以 yarn-client 远程提交 Spark 作业

Flink 简介

图解Spark Graphx实现顶点关联邻接顶点的collectNeighbors函数原理

Spark sql 写分区表，设置format报错

Hadoop，Hive和Spark大数据框架的联系和区别

Win10下安装大数据开发环境 spark+hadoop+hive（实测可用）

大数据生态中‘Hadoop’、‘Hive’、‘Spark’、‘Mapreduce’、‘HDFS’、‘Yarn’是什么关系

大数据 | Hadoop、Hive、Spark的关系

[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark：Java大师的大数据研究之旅

Spark报错处理系列之：Caused by: java.lang.StackOverflowError

Spark-Streaming+HDFS+Hive实战

《智能决策技术及应用》笔记

《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop

《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上

175、Spark运维管理进阶之作业资源调度standalone模式下使用动态资源分配

Spark SQL之读取复杂的json数据

边缘计算产业联盟正式成立 —— 引领边缘计算产业蓬勃发展 深化行业数字化转型...

边缘计算产业联盟正式成立——引领边缘计算产业蓬勃发展 深化行业数字化转型...

【WebVR系列文章（1）】WebVR 和浏览器边缘计算革命

边缘计算系统设计与实践：引领科技创新的新浪潮

Spark数据倾斜（一）：描述及定位

spark-常用算子

TG-5510cb: txo高稳定性+105℃高温

Flink 有状态流式处理

spark在standalone模式下提交任务流程

Spark - 直接操作数据源 MySQL

Spark(一): 基本架构及原理

【Scala】Scala中的一些基本数据类型的特性 列表、元组、构造器、单例对象、伴生类、伴生对象、抽象类与特质

Spark

Spark

RDD是什么

Spark RDD、DataFrame、DataSet比较

Spark

Spark RDD的转换

Spark性能优化总结（建议收藏）

Spark源码之Worker

Spark 的“血液” --Spark RPC（一）简述

云计算、边缘计算、雾计算

《PySpark大数据分析实战》-10.独立集群模式的代码运行

《PySpark大数据分析实战》-08.宽窄依赖和阶段划分

《PySpark大数据分析实战》-09.Spark独立集群安装

《PySpark大数据分析实战》-05.PySpark库介绍

spark 内核源码剖析十四：Checkpoint原理

spark的键值对的行动操作

安卓运行js代码-完美

Hbase BulkLoad用法

AI创作系统ChatGPT网站源码+搭建部署教程文档，AI绘画，支持TSS GPT语音对话功能

最新AI绘画Midjourney绘画提示词Prompt教程

边缘计算产业联盟正式成立 —— 引领边缘计算产业蓬勃发展深化行业数字化转型...

边缘计算产业联盟正式成立——引领边缘计算产业蓬勃发展深化行业数字化转型...

【Scala】Scala中的一些基本数据类型的特性列表、元组、构造器、单例对象、伴生类、伴生对象、抽象类与特质