E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
——spark
大数据系列之:读取parquet文件统计数据量
大数据系列之:读取parquet文件统计数据量一、
Spark
读取parquet文件统计数据量二、parquet-tools统计parquet文件数据量三、实际应用案例一、
Spark
读取parquet文件统计数据量首先
最笨的羊羊
·
2024-01-03 16:49
日常分享专栏
大数据系列
读取parquet文件
统计数据量
推荐一个小孩儿学编程的App
code
spark
嗯嗯,当然这个软件本质上还是一个游戏,但是和其他游戏的区别在于它可以把我们的编程思想放到小孩玩游戏的过程当中。
花生草
·
2024-01-03 14:03
使用UDF扩展
Spark
SQL
Apache
Spark
是一个强大的分布式计算框架,
Spark
SQL是其一个核心模块,用于处理结构化数据。虽然
Spark
SQL内置了许多强大的函数和操作,但有时可能需要自定义函数来处理特定的数据需求。
晓之以理的喵~~
·
2024-01-03 12:08
Spark
spark
sql
大数据
性能优化:
Spark
SQL中的谓词下推和列式存储
Apache
Spark
是一个强大的分布式计算框架,
Spark
SQL是其一个核心模块,用于处理结构化数据。
晓之以理的喵~~
·
2024-01-03 12:02
Spark
性能优化
spark
sql
大数据实时项目必备技能二:kafka有话说
导读:Kafka是由LinkedIn开发并开源的分布式消息系统,因其分布式及高吞吐率而被广泛使用,现已与ClouderaHadoop,ApacheStorm,Apache
Spark
集成。
栀子花_ef39
·
2024-01-03 11:05
Spark
之Adaptive Query Execution
文章目录AdaptiveQueryExecutionCoalescingPostShufflePartitionsSplitingskewedshufflepartitionsConvertingsort-mergejointobroadcastjoinConvertingsort-mergejointoshuffledhashjoinOptimizingSkewJoin(forsore-merg
zincooo
·
2024-01-03 09:16
Spark
spark
大数据
分布式
【
Spark
精讲】
Spark
SQL的RBO与CBO
Spark
SQL核心:Catalyst
Spark
SQL的核心是Catalyst查询编译器,它将用户程序中的SQL/Dataset/DataFrame经过一系列操作,最终转化为
Spark
系统中执行的RDD
话数Science
·
2024-01-03 09:45
大数据
Spark
Spark精讲
spark
大数据
【
Spark
精讲】记一个
Spark
SQL引擎层面的优化:SortMergeJoinExec
Spark
SQL的Join执行流程如下图所示,在分析不同类型的Join具体执行之前,先介绍Join执行的基本框架,框架中的一些概念和定义是在不同的SQL场景中使用的。
话数Science
·
2024-01-03 09:44
Spark精讲
大数据
Spark
spark
大数据
Spark
大数据分析与实战笔记(第二章
Spark
基础-02)
文章目录每日一句正能量章节概要2.2搭建
Spark
开发环境2.2.1环境准备2.2.2
Spark
的部署方式2.2.3
Spark
集群安装部署一、
Spark
下载二、
Spark
安装三、环境变量配置2.2.4
Spark
HA
想你依然心痛
·
2024-01-03 09:14
#
Spark大数据分析与实战
spark
数据分析
笔记
2024.1.2
Spark
简介,架构,环境部署,词频统计
目录一.
Spark
简介二.
Spark
框架模块三.环境准备3.1
Spark
Local模式搭建3.2通过Anaconda安装python3环境3.3Py
Spark
库安装四.
Spark
集群模式架构介绍五.pycharm
白白的wj
·
2024-01-03 09:41
spark
大数据
分布式
hadoop
数据仓库
python
Spark
一:
Spark
介绍、技术栈与运行模式
一、
Spark
简介
Spark
官网https://
spark
.apache.org/1.1
Spark
是什么
Spark
是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。
eight_Jessen
·
2024-01-03 09:11
spark
spark
大数据
分布式
Spark
导入报错:object security is not a member of package org.apache.kafka.common
引言 build
spark
里自带的示例项目时报了这样一个错:objectkafkaisnotamemberofpackageorg.apache,排查后发现是因为添加的jar依赖里没有kafka这一项,
夜半罟霖
·
2024-01-03 09:40
spark
apache
kafka
Spark
之Dynamic Resource Allocation
文章目录DynamicResourceAllocation请求策略移除策略移除存在的问题相关参数DynamicResourceAllocation
Spark
提供一种基于负载使用情况来动态调整application
zincooo
·
2024-01-03 09:39
Spark
spark
大数据
分布式
Hive/
Spark
SQL中UDF/UDTF/UDAF的含义、区别、有哪些函数
Hive官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-Built-inTable-GeneratingFunctions(UDTF)1.UDF(User-DefinedFunction)含义即用户定义函数,UDF用于处理一行数据并返回一个标量值(单个值),这个值可以是
TRX1024
·
2024-01-03 08:39
hive
hadoop
数据仓库
Hive/
Spark
SQL中Map、Array的基本使用和转换
一、Map1.构建语法:map(key1,value1,key2,value2,…)说明:根据输入的key和value对构建map类型-->1.一般创建方法selectmap('key1_name','张三','key2_age',20)asmap_col--结果:{"key1_name":"张三","key2_age":"20"}-->2.根据SQL查询结果构建mapselectmap('k_n
TRX1024
·
2024-01-03 08:09
hive
hadoop
数据仓库
Spark
解决构建倒排索引问题的步骤
相比于MapReduce,采用
spark
解决问题则简单得多:用户无需受限于(MapReduce中的)Mapper、Combiner和Reducer等组件要求的固定表达方式,而只需将解决方案翻译成
Spark
皮皮杂谈
·
2024-01-03 08:26
【kettle】pdi/data-integration 集成kerberos认证连接hive或
spark
thriftserver
spark
thriftserver本质就是通过hivejdbc协议连接并运行
spark
sql任务。二、思路kettle中可以使用js调用java类的方法。
lisacumt
·
2024-01-03 08:37
hive
spark
hadoop
计算机毕业设计吊打导师hadoop+
spark
+hive知识图谱医生推荐系统 医生数据分析可视化大屏 医生爬虫 医疗可视化 医生大数据 机器学习 大数据毕业设计
,使用高德地图解析地理位置,并将结果转入.csv文件同时上传到hdfs文件系统;3.使用hive建库建表,导入.csv数据集;4.一半指标使用离线数仓hive_sql分析,一半指标使用实时数仓实时计算
Spark
计算机毕业设计大神
·
2024-01-03 07:53
虚拟机VMware
spark
的安装教程
1.创建一个空文件夹2.解压安装包到文件夹中3.进入目录4.重命名文件夹5.打开
spark
进行编译
爱打网球的小哥哥一枚吖
·
2024-01-03 05:40
hadoop
大数据
分布式
Azkaban+
Spark
资源调度
本文以利用Azkaban+
Spark
构建数仓的DWS层和ADS层为例!!!
孤城暮雨@
·
2024-01-03 04:46
spark
大数据
分布式
Spark
之 Shuffle
Shuffle在
Spark
中Shuffle的目的是为了保证每一个key所对应的value都会汇聚到同一个分区上去聚合和处理。
zhixingheyi_tian
·
2024-01-03 02:31
Spark
Sql
spark
spark
大数据
big
data
Spark
Sql中join和shuffle知识点梳理
spark
sql中有一些容易混淆的概念,大家在面试时也会经常被问到join和shuffle相关的问题:说说join的几种实现说说shuffle的实现join操作一定发生shuffle吗?
小萝卜算子
·
2024-01-03 02:30
spark源码精读分析系列
spark
大数据
分布式
数据仓库
sql
Spark
源码分析之:Shuffle
这一篇我们来分析
Spark
2.1的Shuffle流程。
你说个der
·
2024-01-03 02:30
Spark
spark
大数据
Spark
源码——Shuffle过程
shuffle很重要,调优的重点、性能的杀手未优化的shuffle:(图片来源:北风网)未优化的shuffle有两个特点:
spark
早期版本中,shuffleMapTask将所有数据写入bucket缓存后
阿松0311
·
2024-01-03 02:59
Spark
spark
mapreduce
big
data
Shuffle Read Time调优
先看第一张
Spark
任务执行时间轴的图:红色部分是任务反序列化时间,黄色部分是shuffleread时间,绿色是实际计算任务执行时间,这里我们先不讨论任务反序列化时间长,下一篇文章说任务反序列化时间长怎么解决
初心江湖路
·
2024-01-03 02:59
大数据
Spark
shuffle
read
time优化
spark调优
Spark
SQL Shuffle分区数目
运行程序时,查看WEBUI监控页面发现,某个Stage中有200个Task任务,也就是说RDD中200分区Partition可以设置在:配置文件:conf/
spark
-defaults.conf:
spark
.sql.shuffle.partitions100
飞Link
·
2024-01-03 02:29
大数据
大数据
spark
数据仓库
Spark
SQL的3种Join实现
Spark
SQL的3种Join实现引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。
章鱼哥TuNan&Z
·
2024-01-03 02:29
#
Spark
spark
shuffle流程入门
shuffle操作
Spark
中的某些操作会触发一个称为shuffle的事件。shuffle是
Spark
重新分发数据的机制,以便在分区之间以不同的方式分组。
鸭梨山大哎
·
2024-01-03 02:29
spark
spark
shuffle
[
spark
SQL] Shuffle
在
Spark
SQL中,Shuffle是指将数据重新分布到不同的节点上以进行处理的操作。
言之。
·
2024-01-03 02:58
spark
Spark
内容分享(二十四):Apache
Spark
在爱奇艺的应用实践
目录Apache
Spark
在爱奇艺的现状
Spark
计算框架应用优化
Spark
SQL服务的落地与优化总结与展望Apache
Spark
在爱奇艺的现状Apache
Spark
是爱奇艺大数据平台主要使用的离线计算框架
之乎者也·
·
2024-01-02 18:56
Spark
内容分享
大数据(Hadoop)内容分享
spark
apache
大数据
最新ChatGPT网站AI系统源码,附详细搭建教程/支持GPT4.0/AI绘画/GPT语言对话/DALL-E3文生图/自定义知识库
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-02 14:09
人工智能
软件源码
教程
人工智能
chatgpt
AI作画
语音识别
midjourney
gpt
Spark
快速入门系列(三)深入理解RDD
这里写目录标题深入RDD案例再谈RDDRDD为什么会出现?RDD的特点什么叫做弹性分布式数据集总结:RDD的五大属性深入RDD目标深入理解RDD的内在逻辑,以及RDD的内部属性(RDD由什么组成)案例需求给定一个网站的访问记录,俗称Accesslog计算其中出现的独立IP,以及其访问的次数创建个数据文件access_log_sample.txt(数据量太大,存不到这里,先用100)行190.217
Alienware^
·
2024-01-02 13:23
#
Spark
大数据
spark
88、
Spark
Streaming之输入DStream之Kafka数据源实战(基于Direct的方式)
基于Direct的方式这种新的不基于Receiver的直接方式,是在
Spark
1.3中引入的,从而能够确保更加健壮的机制。
ZFH__ZJ
·
2024-01-02 13:25
Spark
内容分享(二十三):
Spark
on K8s 在茄子科技的实践
目录
Spark
与云原生1.传统大数据计算集群的缺陷2.公有云带来的优势3.如何充分利用公有云带来的优势?
之乎者也·
·
2024-01-02 11:30
Spark
内容分享
大数据(Hadoop)内容分享
spark
kubernetes
科技
Spark
内容分享(二十二):eBay最佳实践:
Spark
SQL优化之物化视图
MVOptimizer的实现验证部分重写部分物化视图应用场景及收益应用场景:物化视图重写普通视图应用场景:物化视图重定义表结构物化视图应用收益总结及后续计划背景Carmel是eBay内部基于Apache
Spark
之乎者也·
·
2024-01-02 11:00
Spark
内容分享
大数据(Hadoop)内容分享
spark
sql
大数据
Spark
内容分享(二十一):字节跳动
Spark
支持万卡模型推理实践
目录背景介绍字节跳动
Spark
规模
Spark
云原生方案及引擎增强Arcee介绍
Spark
onArcee
Spark
引擎优化周边生态融合万卡模型推理实践主要矛盾资源任务任务-资源匹配未来展望背景介绍随着云原生的发展
之乎者也·
·
2024-01-02 11:59
Spark
内容分享
大数据(Hadoop)内容分享
spark
大数据
分布式
Spark
内容分享(二十):网易基于 Kyuubi +
Spark
内核优化以及实践
目录Apache
Spark
-AdaptiveQueryExecution/AQE1.AQE–History2.AQE–Shuffle3.AQE-SmallReducePartition4.AQE–SkewedReducePartition5
之乎者也·
·
2024-01-02 10:21
Spark
内容分享
大数据(Hadoop)内容分享
spark
大数据
分布式
Spark
内容分享(十九):
Spark
调度系统
目录前言聚义厅的头三把交椅元老派空降派任务提交的代码调用貌合神离——戴格与塔斯克心有灵犀——塔斯克与拜肯德追随者众——拜老板的小弟们Postscript前言
Spark
是典型的主从型(M/S,Master
之乎者也·
·
2024-01-02 10:20
Spark
内容分享
大数据(Hadoop)内容分享
spark
大数据
分布式
Spark
内容分享(十八):70个
Spark
面试题
1、Apache
Spark
有哪些常见的稳定版本,
Spark
1.6.0的数字分别代表什么意思?
之乎者也·
·
2024-01-02 10:50
Spark
内容分享
大数据(Hadoop)内容分享
Spark
大数据
Spark
- 动态注册UDF
昨天有位大哥问小弟一个
Spark
问题,他们想在不停
Spark
程序的情况下动态更新UDF的逻辑,他一问我这个问题的时候,本猪心里一惊,
Spark
**还能这么玩?
kikiki2
·
2024-01-02 09:10
大数据学习入门到实战教程,精心整理万字长文入门,老奶奶看了都说学会了
换个角度说,大数据是:1、有海量的数据2、有对海量数据进行挖掘的需求3、有对海量数据进行挖掘的软件工具(hadoop、
spark
、storm、flink、tez
悦悦学Python
·
2024-01-02 08:59
Spark
中的数据加载与保存
Apache
Spark
是一个强大的分布式计算框架,用于处理大规模数据。在
Spark
中,数据加载与保存是数据处理流程的关键步骤之一。
晓之以理的喵~~
·
2024-01-02 07:15
Spark
spark
大数据
分布式
Spark
SQL中的聚合与窗口函数
Spark
SQL是Apache
Spark
的一个模块,用于处理结构化数据。在数据分析和处理中,聚合和窗口函数是非常重要的工具,它们可以对数据进行各种汇总、计算和分析。
晓之以理的喵~~
·
2024-01-02 07:15
Spark
spark
sql
大数据
【大数据面试知识点】
Spark
的DAGScheduler
Spark
数据本地化是在哪个阶段计算首选位置的?先看一下DAGScheduler的注释,可以看到DAGScheduler除了Stage和Task的划分外,还做了缓存的跟踪和首选运行位置的计算。
话数Science
·
2024-01-02 07:44
大数据
Spark
Spark精讲
spark
大数据
面试
Spark
SQL简介与基本用法
Apache
Spark
是一个强大的分布式计算框架,
Spark
SQL是其组件之一,用于处理结构化数据。
晓之以理的喵~~
·
2024-01-02 07:44
Spark
spark
sql
大数据
【大数据面试知识点】
Spark
中的累加器
Spark
累加器累加器用来把Executor端变量信息聚合到Driver端,在driver程序中定义的变量,在Executor端的每个task都会得到这个变量的一份新的副本,每个task更新这些副本的值后
话数Science
·
2024-01-02 07:44
面试
Spark
大数据
大数据
spark
面试
Spark
魔力:招聘网站数据深度分析系统
Spark
魔力:招聘网站数据深度分析系统简介数据集技术栈功能特点创新点简介在本文中,我们将介绍一款基于
Spark
的招聘网站数据分析系统,该系统使用爬取的前程无忧招聘数据。
OverlordDuke
·
2024-01-02 07:09
Spark
爬虫
数据可视化
spark
大数据
分布式
网络爬虫
Spark
中使用DataFrame进行数据转换和操作
Apache
Spark
是一个强大的分布式计算框架,其中DataFrame是一个核心概念,用于处理结构化数据。DataFrame提供了丰富的数据转换和操作功能,使数据处理变得更加容易和高效。
晓之以理的喵~~
·
2024-01-02 07:08
Spark
spark
大数据
分布式
最In干货大赏,SDCC 2017·深圳站完整版日程大放送
秉承干货实料的内容原则,邀请业内顶尖的架构师和数据技术专家,共话高可用/高并发/高性能的系统架构设计、分布式缓存服务、WebApp前端架构、消息引擎架构、弹性计算、大数据平台构建、优化提升大数据平台的各项性能、
Spark
仲培艺
·
2024-01-02 07:00
SDCC
深圳
日程
架构
大数据
最容易出错的 Hive Sql 详解
前言在进行数仓搭建和数据分析时最常用的就是sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括hive,
spark
,flink等,所以sql在大数据领域有着不可替代的作用
奔跑者-辉
·
2024-01-02 07:30
hive
hive
sql
大数据
上一页
21
22
23
24
25
26
27
28
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他