E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark内核源码
Hudi学习笔记1
使用
Spark
SQL创建hudi表时,默认设置:hoodie.da
一见
·
2024-01-25 09:09
hudi
flink
spark
学习
笔记
hive
Hudi学习笔记(一)
大数据发展背景Hudi用于管理分布式文件系统上大型分析数据集存储,支持
Spark
和Flink整合。它能够是DFS数据集在分钟级时延内支持变更,也支持下游系统对这个数据集的增量处理。
一一|一一一亅
·
2024-01-25 09:37
学习
笔记
上万字详解
Spark
Core(建议收藏)
先来一个问题,也是面试中常问的:
Spark
为什么会流行?
废柴程序员
·
2024-01-25 09:06
spark
3.2 reuse pvc 功能改造
背景
spark
reusepvcfeaturePVC:PersistentVolumeClaim.APersistentVolumeClaim(PVC)isarequestforstoragebyauser.ItissimilartoaPod.PodsconsumenoderesourcesandPVCsconsumePVresources.Podscanrequestspecificlevelso
todd5167
·
2024-01-25 07:23
大数据平台组件日常运维操作说明(Hadoop/Zookeeper/Kafa/ES/Mysql/
Spark
/Flume/Logstash/Tomcat)
Hadoop日常运维操作说明hdfs生产环境hadoop为30台服务器组成的集群,统一安装配置,版本号为2.7.7部署路径:/opt/hadoop启动用户:hadoop配置文件:/opt/hadoop/config/hdfs-site.xml/opt/hadoop/config/core-site.xmlhadoopy运行环境变量配置文件:hadoop-env.shjournalnode.envd
love6a6
·
2024-01-25 07:12
大数据
java-zookeeper
运维
一个女人和一座公园
图片发自App后来知道这座公园有一个很阴柔的名字“Women‘
sPark
”。鉴于这是所知范围内最近的公园,所以似乎也没有更好的选择。于是这名孕妇经常踟蹰在这异国他乡清
七月的薰衣草天空
·
2024-01-25 07:13
【Java Kubernates】Java调用kubernates提交Yaml到
Spark
Operator
考虑使用
spark
,
spark
operator也已经部署到k8s,现在需要定向提交
spark
sql到k8s的
spark
operator上,使用k8s资源执行sql。
秦拿希
·
2024-01-25 07:13
java
k8s
spark
operator
fabric8io
spark
广播变量
-1-24广播变量特点BroadcastVariable会将使用到的变量,只会为每个节点拷贝一份,不会为每个task进行拷贝,能够优化性能(在task数量比较大体现更明显),减少网络传输及内存消耗通过
Spark
Context
新鲜氧气
·
2024-01-25 07:37
spark
大数据
分布式
Spark
Streaming稽查布控/动态广播变量(处理电信数据)
Spark
Streaming稽查布控/动态广播变量需求:1.在mysql中建表2.在虚拟机中使用指令:nc-lk88883.在IDEA中编写代码数据如下需求:1.在mysql中建表CREATETABLE
莫尼莫尼
·
2024-01-25 05:54
大数据
spark
big
data
scala
py
spark
udf
目录简单的注册UDF自己定义函数UDFpy
spark
udf源码解析复杂数据类型:ArrayType、MapType、StructTypeArrayTypeMapTypeStructType简单的注册UDF
小赵要加油
·
2024-01-25 05:33
spark
spark
【
spark
】
Spark
SQL
目录
Spark
SQL01.快速入门什么是
Spark
SQL为什么学习
Spark
SQL
Spark
SQL的特点
Spark
SQL发展历史-前身Shark框架
Spark
SQL发展历史02.
Spark
SQL概述
Spark
SQL
小赵要加油
·
2024-01-25 05:00
spark
spark
大数据
分布式
Spark
难点 | Join的实现原理
Join背景当前
Spark
SQL支持三种join算法:ShuffleHashJoin、BroadcastHashJoin以及SortMergeJoin。
王知无
·
2024-01-25 03:35
大数据开发之
Spark
(累加器、广播变量、Top10热门品类实战)
1、累加器使用1)累加器定义(
spark
context.accumulator(in
Key-Key
·
2024-01-25 00:25
大数据
spark
分布式
大数据开发之
Spark
SQL
第1章:
spark
sql概述1.1什么是
spark
sql1、
spark
sql是
spark
用于结构化数据处理的
spark
模块1)半结构化数据(日志数据)2)结构化数据(数据库数据)1.2为什么要有
spark
sqlhiveon
spark
Key-Key
·
2024-01-25 00:24
大数据
hadoop
请手动写出wordcount的
spark
代码实现
valconf=new
Spark
Conf().setMaster("local[6]").setAppName("wordCount")valsc=new
Spark
Context(conf)sc.textFile
scott_alpha
·
2024-01-24 23:28
js快速计算文件hash值
1.通过requestIdleCallbackor
spark
-md5利用浏览器空闲时间切片计算文件hash值:requestIdleCallback简介:window.requestIdleCallback
舜岳
·
2024-01-24 22:01
vue
js设计模式
javascript
hash
spark-md5
Worker
【无标题】
Github:https://github.com/
Spark
DevNetwork/Rock详细介绍:点击查看145、用于自动化测试Windows应用程序的开
sophiemantela
·
2024-01-24 21:15
c#
学习笔记
.net
开源
Spark
基本架构及原理
Hadoop和
Spark
的关系
Spark
运算比Hadoop的MapReduce框架快的原因是因为Hadoop在一次MapReduce运算之后,会将数据的运算结果从内存写入到磁盘中,第二次Mapredue
李飞_fd28
·
2024-01-24 20:50
最新AI系统ChatGPT网站H5系统源码,支持Midjourney绘画,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-24 17:09
ChatGPT
人工智能
软件源码
人工智能
chatgpt
语音识别
midjourney
AI作画
Spark
性能优化指南数据倾斜——高级篇
继基础篇讲解了每个
Spark
开发人员都必须熟知的开发调优与资源调优之后,本文作为《
Spark
性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。
吃胖点儿
·
2024-01-24 17:15
spark核心技术
Spark
源码之CacheManager
Spark
源码之CacheManager篇CacheManager介绍1.CacheManager管理
spark
的缓存,而缓存可以基于内存的缓存,也可以是基于磁盘的缓存;2.CacheManager需要通过
小狼星I
·
2024-01-24 12:38
Hudi0.14.0 集成
Spark
3.2.3(IDEA编码方式)
本次在IDEA下使用Scala语言进行开发,具体环境搭建查看文章IDEA下ScalaMaven开发环境搭建。1环境准备1.1添加maven依赖创建Maven工程,pom文件:<projectxmlns="http://maven.apache.org/POM/4.0.0"
跟着大数据和AI去旅行
·
2024-01-24 11:46
大数据企业级实战
hudi
Hudi0.14.0集成
Spark
3.2.3(
Spark
Shell方式)
1启动1.1启动
Spark
Shell#For
Spark
versions:3.2-3.4
spark
-shell--jars/path/to/jars/hudi-
spark
3.2-bundle_2.12-0.14.0
跟着大数据和AI去旅行
·
2024-01-24 08:11
大数据企业级实战
hudi
Hudi0.14.0集成
Spark
3.2.3(
Spark
SQL方式)
1整合HiveForuserswhohave
Spark
-Hiveintegrationintheirenvironment,thisguideassumesthatyouhavetheappropriatesettingsconfiguredtoallow
Spark
tocreatetablesandregisterinHiveMetastore
跟着大数据和AI去旅行
·
2024-01-24 08:05
大数据企业级实战
hudi
学习
Spark
遇到的问题
【报错】AttributeError:‘
Spark
Context’objecthasnoattribute‘setcheckpointDir’本人传参:conf=
Spark
Conf().setAppName
黄黄黄黄黄莹
·
2024-01-24 07:20
spark
Spark
详解(八):
Spark
容错以及高可用性HA
1.Executor容错
Spark
支持多种运行模式,这些运行模型中的集群管理器会为任务分配运行资源,在运行资源中启动Executor,由Ex
MasterT-J
·
2024-01-24 07:19
Spark框架
Spark框架
Spark框架
Spark
DataFrame:从底层逻辑到应用场景的深入解析
本文将深入探讨
Spark
DataFrame的底层逻辑、发展由来以及应用场景。通过了解DataFrame的底层逻辑,我们可以更好地理解其在
Spark
中的重要地位。
{BOOLEAN}
·
2024-01-24 07:18
spark
大数据
分布式
Apache
Spark
中的广播变量分发机制
Apache
Spark
中的广播变量提供了一种机制,允许用户在集群中共享只读变量,并且每个任务都可以访问这个变量,而不需要在每次任务之间重新发送该变量。
{BOOLEAN}
·
2024-01-24 07:18
spark
大数据
分布式
大数据开发之
Spark
(RDD弹性分布式数据集)
第1章:rdd概述1.1什么是rddrdd(resilientdistributeddataset)叫做弹性分布式数据集,是
spark
中最基本的数据抽象。
Key-Key
·
2024-01-24 07:17
大数据
分布式
spark
弹性分布式数据集
深入理解
Spark
编程中的map方法
在
Spark
的上下文
{BOOLEAN}
·
2024-01-24 07:47
spark
大数据
分布式
Spark
运行架构以及容错机制
Spark
运行架构以及容错机制1.
Spark
的角色区分1.1Driver1.2Excuter2.
Spark
-Cluster模式的任务提交流程2.1
Spark
OnYarn的任务提交流程2.1.1yarn相关概念
李姓门徒
·
2024-01-24 07:41
大数据
Spark
spark
架构
java
spark
-flink设计思想之吸星大法-1
Spark
和Flink都是大数据处理框架,它们的设计思想有一些不同之处。以下是对它们设计思想的简要对比:数据模型和计算模型:
Spark
:
Spark
使用弹性分布式数据集(RDD)作为其核心数据结构。
{BOOLEAN}
·
2024-01-24 07:47
spark
flink
大数据
reduceByKey应用举例
PhotobyStefanStefancikfromPexels在进行
Spark
开发算法时,最有用的一个函数就是reduceByKey。
学习之术
·
2024-01-24 05:16
【Linux
内核源码
分析】堆内存管理
堆堆是一种动态分配内存的数据结构,用于存储和管理动态分配的对象。它是一块连续的内存空间,用于存储程序运行时动态申请的内存。堆可以被看作是一个由各个内存块组成的堆栈,其中每个内存块都有一个地址指针,指向下一个内存块。当程序需要分配内存时,堆会根据分配算法找到一块足够大的连续内存空间,并将其分配给程序。程序可以在堆中动态创建和销毁对象,而不需要在编译时确定对象的数量或大小。与静态分配的栈不同,堆的内存
攻城狮百里
·
2024-01-24 03:19
Linux
linux
【Linux
内核源码
分析】RCU机制
RCU基本概念Linux内核的RCU(Read-Copy-Update)机制是一种用于实现高效读取和并发更新数据结构的同步机制。它在保证读操作不被阻塞的同时,也能够保证数据的一致性。RCU的核心思想是通过延迟资源释放来实现无锁读取,并且避免了传统锁带来的争用和开销。具体而言,RCU维护了一个“回收”过程,在该过程中,当没有任何读者引用时,才会真正释放资源。这样就可以避免等待所有读者完成或者互斥锁对
攻城狮百里
·
2024-01-24 03:48
Linux
linux
Spark
- 动态注册UDF
>昨天有位大哥问小弟一个
Spark
问题,他们想在不停
Spark
程序的情况下动态更新UDF的逻辑,他一问我这个问题的时候,本猪心里一惊,
Spark
**还能这么玩?
kikiki4
·
2024-01-24 03:22
【Linux
内核源码
分析】内存屏障
内存屏障内存屏障的作用是强制对内存的访问顺序进行排序,保证多线程或多核处理器下的内存访问的一致性和可见性。通过插入内存屏障,可以防止编译器对代码进行过度优化,也可以解决CPU乱序执行引起的问题,确保程序的执行顺序符合预期。Linux内核提供了多种内存屏障,包括通用的内存屏障、数据依赖屏障、写屏障、读屏障、释放操作和获取操作等。Linux内核中的内存屏障源码主要位于include/linux/com
攻城狮百里
·
2024-01-24 03:48
Linux
linux
Spark
编程模型 RDD
Spark
编程模型有两个主要的抽象,第一个是弹性数据集RDD(ResilientDistributedDataset),第二个是共享变量:广播变量和累加器。首先了解以下RDD。
Alex90
·
2024-01-23 23:44
Grafana panel之Singlestat
它还可以将单个数字转换为文本值,并显示该时间序列的
spark
line摘要。在Grafana7.0中已将Stat面板代替Singlestat。但由于我用的还是老版的grafana所以还是决定
jeongee0328
·
2024-01-23 19:15
Spark
- 动态注册UDF
>昨天有位大哥问小弟一个
Spark
问题,他们想在不停
Spark
程序的情况下动态更新UDF的逻辑,他一问我这个问题的时候,本猪心里一惊,
Spark
**还能这么玩?
kikiki5
·
2024-01-23 16:08
Spark
Core源码精读计划#22:BlockInfoManager与其实现的块锁机制
目录前言BlockInfoManager的成员属性及构造方法BlockInfoManager提供的锁方法获取读锁获取写锁释放锁锁降级删除BlockInfo总结前言在上一篇文章中,我们对与块相关的BlockId、BlockData和BlockInfo有了比较全面的理解。前面已经提到过,块在读写时有锁机制,并且委托给BlockInfoManager来管理。虽然BlockInfoManager的字面意思
LittleMagic
·
2024-01-23 15:23
Spark
RDD分区数和分区器
一、分区数如何决定1、数据源RDD数据源RDD的分区数由数据源的读取器决定,比如sc.textFile产生的rdd,分区数由TextInputFormat.getInputSplits()方法决定,具体源码追踪及解析如下:valrdd1=sc.textFile("data/tbPerson.txt")①Ctrl+B进入textFiletextFile底层其实就是通过hadoopFile去读文件②C
maplea2012
·
2024-01-23 15:40
spark
大数据
hadoop
AI绘画Midjourney绘画提示词Prompt入门到精通【宝藏级收藏】
一、AI绘画工具
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-23 15:35
人工智能
ChatGPT
AIGC
人工智能
AI作画
midjourney
2024最新AI系统ChatGPT网站源码+搭建部署教程文档,Midjourney绘画,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图+GPT-4识图理解/自定义知识库
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-23 15:05
人工智能
AIGC
网站源码
人工智能
chatgpt
AI作画
语音识别
midjourney
gpt
2024最新AI创作系统ChatGPT源码,支持Midjourney绘画,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图+GPT-4识图理解
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-23 15:04
人工智能
AIGC
软件源码
人工智能
chatgpt
语音识别
AI作画
midjourney
prompt
最新ChatGPT商业运营版源码,AI绘画,Midjourney绘画,GPT-4V多模态模型识图理解+GPT语音对话+ChatFile文档对话总结+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
只恨天高
·
2024-01-23 15:03
人工智能
chatgpt
程序源码
chatgpt
AI作画
midjourney
人工智能
AIGC
最新AI系统ChatGPT网站系统源码,支持AI绘画,GPT语音对话,ChatFile文档对话总结,DALL-E3文生图,MJ绘画局部编辑重绘
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-23 15:32
人工智能
ChatGPT
网站源码
人工智能
chatgpt
语音识别
AI作画
DataFrame的基本使用--学习笔记
方法其中包括的方法有:select(),selectExpr(),groupby()/groupBy()where,orderBy(),sort(),limit(),withColumn(),frompy
spark
.sqlimport
Spark
Session
祈愿lucky
·
2024-01-23 14:59
大数据
学习
笔记
NVIDIA与
Spark
fun 的合作伙伴在 Hackster.io 上发起了人工智能创新挑战赛,喊你来参加!
NVIDIA与
Spark
fun的合作伙伴在Hackster.io上发起了人工智能创新挑战赛,喊你来参加!
扫地的小何尚
·
2024-01-23 14:28
人工智能
Stuuctured Streaming基础--学习笔记
Structuredstreaming介绍
spark
进行实时数据流计算时有两个工具:
Spark
Streaming:编写rdd代码处理数据流,可以解决非结构化的流式数据StructuredStreaming
祈愿lucky
·
2024-01-23 14:58
大数据
学习
笔记
kafka
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他