E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark源码解读
(六)Geo
spark
SQL 加载SHP数据
Geo
spark
SQL加载SHP数据Geo
Spark
SQL默认是无法读取Shp和GeoJson格式的矢量数据的,必须要通过RDD读取,然后利用Geo
Spark
提供的Adapter在RDD和DataFrame
Scially
·
2024-01-07 11:53
node.js小记 (0419) http
源码解读
什么是作用域?作用域分局部作用域和全局作用域,同时作用域和变量有关,在局部作用域内可以访问到全局变量,在局部作用域外,只能访问外部作用域。什么是上下文?和this关键字有关在js中this关键字通常指向当前函数的拥有者,通常把这个拥有者叫上下文,
折梅踏雪
·
2024-01-07 11:38
大数据学习(31)-
Spark
非常用及重要特性
&&大数据学习&&系列专栏:哲学语录:承认自己的无知,乃是开启智慧的大门如果觉得博主的文章还不错的话,请点赞+收藏⭐️+留言支持一下博主哦
spark
中引入过很多不常用的特性。但是非常重要的特性。
viperrrrrrr
·
2024-01-07 07:44
大数据
学习
spark
Spark
五:
Spark
的两种核心Shuffle
Spark
也有Map阶段和Reduce阶段,因此也会出现Shuffle。学习资料:https://mp.weixin.qq.com/s/ca
eight_Jessen
·
2024-01-07 07:38
scala
spark
spark
ajax
大数据
Spark
运行架构
Spark
框架的核心是一个计算引擎,整体来说,它采用了标准master-slave的结构。如下图所示,它展示了一个
Spark
执行时的基本结构。
zmx_messi
·
2024-01-07 07:35
spark
架构
大数据
个人笔记:分布式大数据技术原理(二)构建在 Hadoop 框架之上的 Hive 与 Impala
有了MapReduce,Tez和
Spark
之后,程序员发现,MapReduce的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言,虽然你几乎什么都能干了,但是你还是觉得繁琐。
garagong
·
2024-01-07 07:16
大数据
大数据
hadoop
hive
impala
mapreduce
Spark
大数据分析与实战笔记(第二章
Spark
基础-05)
文章目录每日一句正能量前言2.5启动
Spark
-Shell2.5.1运行
Spark
-Shell命令2.5.2运行
Spark
-Shell读取HDFS文件后记每日一句正能量成长是一条必走的路路上我们伤痛在所难免
想你依然心痛
·
2024-01-07 06:33
spark
数据分析
笔记
linux
源码解读
系列
学习目标:理解Linux内核中的进程管理机制的基本概念和原理掌握Linux内核中进程的创建、调度和终止的流程理解进程调度算法在Linux内核中的应用学习如何获取和管理进程的信息理解进程间通信(IPC)的基本概念和机制学习内容:进程管理的基本概念和原理:进程的定义和特点进程控制块(PCB)的结构和作用进程状态的转换和流程进程的创建与终止:进程的创建流程和相关的系统调用进程的终止流程和相关的系统调用进
阿猫的故乡
·
2024-01-07 05:20
linux
运维
服务器
大文件切片上传和断点续传
这里写目录标题大文件分片上传大文件切片上传过程代码断点上传过程大图片上传多文件上传图片缩略图和视频预览大文件分片上传前端知识点md5加密算法用于确保信息传输完整一致
spark
md5在散列大量数据(例如文件
tutou_girl
·
2024-01-07 05:05
个人项目
面试
spark
前端
大数据编程期末大作业
大数据编程期末大作业文章目录大数据编程期末大作业一、Hadoop基础操作二、RDD编程三、
Spark
SQL编程四、
Spark
Streaming编程一、Hadoop基础操作在HDFS中创建目录/user/
-北天-
·
2024-01-07 05:20
大数据学习
大数据
课程设计
hadoop
Spark
用代码实现求百分位数Percentile(Quentile)的方法
参考下文得到的启发https://stackoverflow.com/questions/28805602/how-to-compute-percentiles-in-apache-
spark
简单说明下分位数的定义
达微
·
2024-01-07 04:21
spark
操作Redis
需求:需要通过
spark
对redis里面的数据进行实时读写实现方案:通过建立连接池,在每台机器上单独建立连接,进行操作1、利用lazyval的方式进行包装classRedisSink(makeJedisPool
不加班程序员
·
2024-01-07 03:43
Hadoop相关
spark
redis
redis
spark
数据库
连接池
scala
八大在线项目实习 2024年第一期即将开班
机器学习)某平台广东省区采购数据分析(Excel供需分析)产品订单的数据分析与需求预测(Python营销分析)基于注意力机制的评论者满意度分析(TensorFlow与NLP)基于锅炉工况实现蒸汽产生量预测(
Spark
泰迪智能科技
·
2024-01-07 01:14
大数据
人工智能
大数据
人工智能
《Py
Spark
大数据分析实战》-23.Pandas介绍DataFrame介绍
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2024-01-07 00:26
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
《Py
Spark
大数据分析实战》-22.Pandas介绍Series介绍
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2024-01-07 00:25
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
《Py
Spark
大数据分析实战》-25.数据可视化图表Matplotlib介绍
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2024-01-07 00:24
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
2024.1.6
Spark
_Core 分词处理,RDD持久化,内核调度
目录一.分词处理二.RDD持久化1.使用缓存:2.RDD的checkpoint检查点:3.缓存和checkpoint的区别:三.
Spark
内核调度1.RDD依赖2.DAG和Stage3.shuffle阶段
白白的wj
·
2024-01-06 23:04
spark
大数据
分布式
etl
hdfs
python
AI绘画Midjourney绘画提示词Prompt大全
一、Midjourney绘画工具
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-06 20:17
人工智能
AIGC
教程
人工智能
AI作画
midjourney
最新AI创作系统ChatGPT源码,Midjourney绘画系统,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图+思维导图+GPT-4识图理解+自定义知识库一站式解决方案
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-06 20:14
人工智能
软件源码
AIGC
人工智能
chatgpt
语音识别
midjourney
开源软件
01GORM
源码解读
简介起步数据库连接gorm.DB事务实现总结简介GORM
源码解读
,基于v1.9.11版本.起步官方文档上入门的例子如下:packagemainimport("github.com/jinzhu/gorm
刷漆猫咪
·
2024-01-06 18:21
Spark
(三十九)数据倾斜解决方案之使用随机key实现双重聚合
一、方案使用随机key实现双重聚合1、原理2、使用场景(1)groupByKey(2)reduceByKey比较适合使用这种方式;join,咱们通常不会这样来做,后面会讲三种,针对不同的join造成的数据倾斜的问题的解决方案。1、第一轮聚合的时候,对key进行打散,将原先一样的key,变成不一样的key,相当于是将每个key分为多组;2、先针对多个组,进行key的局部聚合;接着,再去除掉每个key
文子轩
·
2024-01-06 17:41
高可用分布式部署
Spark
、完整详细部署教程
前言
Spark
是UCBerkeleyAMPLab开源的通用分布式并行计算框架。
一座野山
·
2024-01-06 16:15
spark
bigdata
hadoop
分布式
spark
大数据
linux
Spark
Streaming与数据源连接:Kinesis、Flume等
Apache
Spark
Streaming是一个强大的工具,可用于处理实时数据流。
晓之以理的喵~~
·
2024-01-06 16:13
Spark
spark
flume
大数据
Spark
Streaming的容错性与高可用性
Apache
Spark
Streaming是一个强大的工具,用于实时数据处理和分析,具备卓越的容错性和高可用性。
晓之以理的喵~~
·
2024-01-06 16:13
Spark
spark
大数据
分布式
使用Kafka与
Spark
Streaming进行流数据集成
为了实现实时数据集成和分析,组合使用ApacheKafka和Apache
Spark
Streaming是一种常见的做法。
晓之以理的喵~~
·
2024-01-06 16:43
Spark
kafka
spark
分布式
Spark
MLlib简介与机器学习流程
Apache
Spark
MLlib是一个强大的机器学习库,可以在分布式大数据处理环境中进行机器学习任务。本文将深入介绍
Spark
MLlib的基本概念、机器学习流程以及提供详细的示例代码。
晓之以理的喵~~
·
2024-01-06 16:34
Spark
spark-ml
机器学习
人工智能
Spark
大数据分析与实战笔记(第二章
Spark
基础-04)
文章目录每日一句正能量引言章节概要2.4体验第一个
Spark
程序2.4.1运行
Spark
官方示例
Spark
Pi总结每日一句正能量“春风十里,不如你。”
想你依然心痛
·
2024-01-06 15:22
#
Spark大数据分析与实战
spark
笔记
大数据
Spark
大数据分析与实战笔记(第二章
Spark
基础-03)
文章目录每日一句正能量章节概要2.3
Spark
运行架构与原理2.3.1基本概念2.3.2
Spark
集群运行架构2.3.3
Spark
运行基本流程总结每日一句正能量又回到了原点,就从现在开始我的新生活吧。
想你依然心痛
·
2024-01-06 15:52
#
Spark大数据分析与实战
spark
架构
原理
【数据采集与预处理】流数据采集工具Flume
解压安装包(三)配置环境变量(四)查看Flume版本信息四、Flume的运行(一)Telnet准备工作(二)使用Avro数据源测试Flume(三)使用netcat数据源测试Flume五、Flume作为
Spark
Streaming
Francek Chen
·
2024-01-06 14:07
Spark编程基础
大数据技术基础
flume
大数据
spark
分布式
Spark
入门案例
Spark
shell简介启动
Spark
shell进入
Spark
安装目录后执行
spark
-shell--mastermaster就可以提交
Spark
任务
Spark
shell的原理是把每一·行Scala代码编译成类
我像影子一样
·
2024-01-06 10:13
spark
大数据
Spark
集群搭建
Spark
集群结构图名词解释Driver该进程调用
Spark
程序的main方法,并且启动
Spark
ContextClusterManager该进程负责和外部集群工具打交道,申请或释放集群资源Worker
我像影子一样
·
2024-01-06 09:43
Spark
大数据
spark
大数据
Spark
概述
Spark
概述
Spark
是什么Apache
Spark
是一个快速的,多用途的集群计算系统,相对于HadoopMapReduce将中间结果保存在磁盘中,
Spark
使用了内存保存中间结果,能在数据尚未写入硬盘时在内存中进行运算
我像影子一样
·
2024-01-06 09:38
Spark
大数据
spark
大数据
Spark
SQL示例1 创建
Spark
实例
添加依赖4.0.0org.baozi
spark
-learning1.02008MyLicensehttp://....repo2.11.82.1.0org.scala-langscala-library
歌哥居士
·
2024-01-06 09:08
PyTorch
源码解读
之torch.utils.data.DataLoader使用方法
目录一、简介二、参数三、示例一、简介官网:https://pytorch.org/docs/stable/data.html?highlight=torch%20utils%20data%20dataloader#torch.utils.data.DataLoaderdataloader.py脚本的的github地址:https://github.com/pytorch/pytorch/blob/
不瘦8斤的妥球球饼
·
2024-01-06 06:25
python
Flink学习笔记(一):为什么选择flink
流处理的框架不是很多么Q:流处理框架有很多中,比如前面提到的
spark
,storm等,为什么选flink?
胖胖的战士
·
2024-01-06 05:48
Flink
flink
大数据处理
StreamPark + PiflowX 打造新一代大数据计算处理平台
什么是PiflowXPiFlow是一个基于分布式计算框架
Spark
开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。
暗影八度
·
2024-01-06 05:47
大数据
spark
hadoop
flink
「
源码解读
」Dubbo SPI自适应扩展
1.原理在Dubbo中,很多拓展都是通过SPI机制进行加载的,比如Protocol、Cluster、LoadBalance等。有时,有些拓展并不想在框架启动阶段被加载,而是希望在拓展方法被调用时,根据运行时参数进行加载。这听起来有些矛盾。拓展未被加载,那么拓展方法就无法被调用(静态方法除外)。拓展方法未被调用,拓展就无法被加载。对于这个矛盾的问题,Dubbo通过自适应拓展机制很好的解决了。自适应拓
CoderChronicle
·
2024-01-06 05:39
其他
dubbo
safari
前端
「
源码解读
」Dubbo SPI
1.简介SPI全称为ServiceProviderInterface,是一种服务发现机制。SPI的本质是将接口实现类的全限定名配置在文件中,并由服务加载器读取配置文件,加载实现类。这样可以在运行时,动态为接口替换实现类。正因此特性,我们可以很容易的通过SPI机制为我们的程序提供拓展功能。SPI机制在第三方框架中也有所应用,比如Dubbo就是通过SPI机制加载所有的组件。不过,Dubbo并未使用Ja
CoderChronicle
·
2024-01-06 05:07
其他
dubbo
vue3
源码解读
--teleport
目录vue2源码vue3源码示例源码compile经过上一节分析,我们知道这是一次递归过程:parseChildren--parseElement--parseChildren。我们直接将代码定位到对teleport的解析过程,即当前示例中的第二次parseElement过程teleport开始标签的解析结果如下接着解析style="color:red"的标签,再次进入parseElement(此
习惯水文的前端苏
·
2024-01-06 04:03
minor scratch, fortunately
ThetrafficwassobadthismorningandsoIwasrunninglateforwork.WhenIwa
spark
ingmycar,Ihitthewallwithsomeminorscratch.accidentsdohappen.Fortunately
是团儿呀
·
2024-01-06 03:25
【MLOps】使用Ray缩放AI
Ray正在人工智能工程领域崭露头角,对扩展LLM和RL至关重要
Spark
在数据工程中几乎是必不可少的。Ray正在人工智能工程领域崭露头角。雷是伦敦大学学院
Spark
的继任者。
架构师研究会
·
2024-01-06 01:59
MLOps
人工智能
IT运维
人工智能
Ray
MLops
1.大数据概述
安装结束概述先了解几个常用的网站apache官网hadoop官网hadoopgithubhttps://github.com/apache/xxx[https://github.com/apache/
spark
流月up
·
2024-01-05 23:00
大数据
hadoop
大数据
发行版
模块
搭建Py
Spark
大数据分析环境
担心自己遗忘,便做此纪录。普通的数据分析其实仅仅在PyCharm环境即可做相应的分析。但是如果数据较大,还是要在集群环境里跑会快一些,一下又两种方案:针对数据量不大(不是几十上百个G或者百万条级数据)的情况,为了方便可采用方案一:下图为需要使用到的文件:第一步,安装JDK(如果不确定自己的电脑之前是否装过jdk,可以前往设置——应用——应用和功能——搜索java即可查看是否有jdk,后面的查看自己
TraStar
·
2024-01-05 23:25
python
hadoop
ambari
大数据
spark
大数据全套虚拟机(直接拿来用)
故事背景因为有python的基础,我就跳着学,也就是直接来到了
spark
阶段这个时候被虚拟机难住了,卖家只有视频,给我发了几个虚拟机都不对,没有办法.。我自己去配,在有相关文档的情况下去配置。
中长跑路上crush
·
2024-01-05 23:02
大数据
hadoop
hive
分布式
Spark
学习之
Spark
Core
什么是
Spark
?(官网:http://
spark
.apache.org)https://www.cnblogs.com/lq0310/p/9841647.html
John Stones
·
2024-01-05 22:51
spark
big
data
scala
Java并发系列(14)——synchronized之HotSpot
源码解读
(上)
上一篇:《Java并发系列(13)——线程池的选择与参数设置》文章目录10synchronized实现原理10.1研究思路10.1.1输出JVM指令10.1.2跟踪JVM源码10.2预备知识10.2.1对象头10.2.1.1什么是对象头10.2.1.2打印对象头10.2.1.3小端存储10.2.2用户态与内核态10.2.2.1用户态与内核态10.2.2.2用户线程与内核线程10.3Hashtabl
JinchaoLv
·
2024-01-05 19:11
并发
java
synchronized
多线程
并发
偏向锁
Hotspot 垃圾回收之ConcurrentMarkSweepGeneration(二) 源码解析
目录一、ModUnionClosure/ModUnionClosurePar二、CMSIsAliveClosure/CM
SParK
eepAliveClosure三、CFLS_LAB1、构造方法和modify_initialization2
孙大圣666
·
2024-01-05 19:07
Hotspot和Linux内核
ModUnionClosure
CFLS_LAB
CMSCollector
spark
的任务提交方式及流程
本地模式local测试用,不多赘述分布式模式standalonestandalone集群是
spark
自带的一个资源调度集群,分为两个角色,master/worker,master负责接收任务请求、资源调度
qzWsong
·
2024-01-05 19:29
spark
spark
大数据
yarn
线程池
源码解读
一.线程池基础1.线程池的作用主要有三个:(1)可以用来复用线程,降低因为频繁的创建和销毁线程的消耗;(2)可以有效地控制线程的最大并发数;(3)可以对线程进行一些简单的管理,如延时执行等。2.构造参数:ThreadPoolExecutor是其核心类,publicThreadPoolExecutor(intcorePoolSize,intmaximumPoolSize,longkeepAliveT
愤怒的灰机
·
2024-01-05 14:48
Apache Doris (六十一):
Spark
Doris Connector - (1)-源码编译
博主个人B栈地址:豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频目录1.
Spark
DorisConnector2.
Spark
与Doris版本兼容
IT贫道
·
2024-01-05 14:40
大数据OLAP体系技术栈
apache
spark
大数据
doris
上一页
22
23
24
25
26
27
28
29
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他