E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark性能调优
(转)
Spark
DataFrame 开发指南
DataFrame是
Spark
在RDD之后新推出的一个数据集,从属于
Spark
SQL模块,适用于结构化数据。对于我们这些用惯了数据库表和散列/字典结构的人来说,尤为亲切。
达微
·
2023-11-27 06:40
大数据处理框架
Spark
:核心原理
大数据处理框架
Spark
:核心原理
Spark
是一个开源的大数据处理框架,它提供了高效的分布式数据处理和计算能力。本文将介绍
Spark
的核心原理,并提供相应的源代码示例。
雨中徜徉的思绪漫溢
·
2023-11-27 04:17
spark
ajax
大数据
Spark
SQL之catalyst
说到
Spark
SQL,我们不得不提到它的优化器(Catalyst),Catalyst是
Spark
sql的核心,它是针对于
Spark
SQL语句执行过程中的查询优化框架。
临界爵迹
·
2023-11-27 03:34
大数据
spark
利用
Spark
SQL Logical Plan Parse 打造大数据平台SQL诊断利器
利用我们的源码,打造一款SQL的扫描工具~~原理篇
Spark
被大家津津乐道的经典SQL解析流程Sql语句经过Antlr4解析,生成UnresolvedLog
敏叔V587
·
2023-11-27 03:34
Spark
大数据
工具分享
big
data
spark
Spark
SQL 源码解析
Spark
Planner
文章目录物理计划转换过程
Spark
Plan分类LeafExecNodeUnaryExecNodeBinaryExecNode其他类型的
Spark
Plan
Spark
PlannerPlanLaterplan
Spark
Strategy.applycollectPlaceholdersplaceholders
KD_
·
2023-11-27 03:03
Spark
Spark
入门之五:
Spark
SQL的原理以及架构
1、
Spark
SQL的发展历程1.1HiveandShark
Spark
SQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在
铁猴
·
2023-11-27 03:03
Spark
Spark入门简单学
Spark
SparkSQL
架构
Spark
SQL讲解
一
Spark
SQL是什么1.1
Spark
SQL的出现契机数据分析的方式数据分析的方式大致上可以划分为SQL和命令式两种:命令式在前面的RDD部分,非常明显可以感觉的到是命令式的,主要特征是通过一个算子,
北山璎珞
·
2023-11-27 03:32
Spark
SparkSQL
SparkSQL学习
spark
SQL1.1入门之二:
spark
SQL运行架构
在介绍
spark
SQL之前,我们首先来看看,传统的关系型数据库是怎么运行的。
chuozhi7142
·
2023-11-27 03:02
scala
数据库
大数据
spark
SQL1.1入门之二:
spark
SQL执行架构
在介绍
spark
SQL之前。我们首先来看看,传统的关系型数据库是怎么执行的。
aofan9566
·
2023-11-27 03:31
scala
数据库
大数据
Spark
SQL之Optimized LogicalPlan生成过程
经过Analyzer的处理,UnresolvedLogicalPlan已经解析成为AnalyzedLogicalPlan。AnalyzedLogicalPlan中自底向上节点分别对应Relation、Subquery、Filter和Project算子。 AnalyzedLogicalPlan基本上是根据UnresolvedLogicalPlan一对一转换过来的,对于SQL语句中的逻辑能够很好
RainTicking
·
2023-11-27 03:31
大数据
大数据
scala
Spark
:读取mysql数据作为DataFrame
{Calendar,Date}importcom.iptv.domain.DatePatternimportcom.iptv.job.JobBaseimportorg.apache.
spark
.sql.expressions.Windowimportorg.apa
利伊奥克儿
·
2023-11-27 02:57
常见的 JVM 面试题
11.JVM的
性能调优
有哪些方面需要考虑?12.内存泄漏和
贝la
·
2023-11-27 02:10
Java
jvm
window环境下安装
spark
spark
是大数据计算引擎,拥有
Spark
SQL、
Spark
Streaming、MLlib和GraphX四个模块。
FTDdata
·
2023-11-26 22:42
spark
spark
大数据
讯飞星火知识库文档问答Web API的使用(二)
上一篇提到过星火
spark
大模型,现在有更新到3.0:给ChuanhuChatGPT配上讯飞星火
spark
大模型V2.0(一)同时又看到有知识库问答的webapi,于是就测试了一下。
悟乙己
·
2023-11-26 21:54
LLM大模型
前端
服务器项目怎么连接数据库,项目使用服务器上的数据库连接
项目使用服务器上的数据库连接内容精选换一换该任务指导用户使用Loader将数据从关系型数据库导入到
Spark
。创建或获取该任务中创建Loader作业的业务用户和密码。
sched yield
·
2023-11-26 19:22
服务器项目怎么连接数据库
大数据集群高可用组建搭建部署
大数据集群高可用安装部署包有:redis-3.2.10.tar.gz
spark
-2.2.0-bin-hadoop2.7.tgzhbase-1.2.1-bin.tar.gzhadoop-2.8.1.tar.gzapache-hive
Big-Hadoop
·
2023-11-26 19:18
笔记
hadoop
hdfs
kafka
mapreduce
spark
平台环境部署的相关大数据
本文利用云服务器对大数据平台进行环境部署,包含:服务器使用、环境准备、Hadoop集群完全分布式安装、Zookeeper集群完全分布式安装、HBase完全分布式安装、Hive、Scala、
Spark
、Sqoop
云建站架构师rain
·
2023-11-26 19:45
腾讯云
服务器
云计算
技术分享 | gh-ost 原理剖析
作者简介:杨奇龙,网名“北在南方”,7年DBA老兵,目前任职于杭州有赞科技DBA,主要负责数据库架构设计和运维平台开发工作,擅长数据库
性能调优
、故障诊断。
爱可生开源社区
·
2023-11-26 19:05
传统数仓和clickhouse对比
背景传统数仓一般都是Hive+
Spark
Sql作为代表,不过也包括Kylin等,而clickhouse是实时OLAP的代表,我们简单看下他们的对比传统数仓和clickhouse对比Hive+
Spark
SQL
lixia0417mul2
·
2023-11-26 19:06
clickhouse
clickhouse
Dr.Elephant入门
Dr.Elephant是一个Hadoop和
Spark
的性能监控和调优工具,由LinkedIn于2016年4月份开源。能自动化收集所有计算任务指标,进行数据分析,并以简单易用的方式进行呈现。
文贞武毅
·
2023-11-26 17:46
多家大厂 JAVA 面试题整理分布式 + 微服务 + 高并发 + 性能优调 + 框架源码
一、
性能调优
系列1.Tomcat
性能调优
JVM参数调优:-Xms表示JVM初始化堆的大小,一Xmx表示JVM堆的最大值。这两个值的大小一般根据需要进行设置。
90后小伙追梦之路
·
2023-11-26 14:26
架构
面试
java
java
分布式
微服务
数据库
面试
“夜光”:使用域隐藏代替域前置
文章来源|MS08067内网安全知识星球本文作者:
Spark
(Ms08067内网小组成员)众所周知,谷歌云和亚马逊云于2018年宣布停止支持域前置技术。
Ms08067安全实验室
·
2023-11-26 14:19
java
http
https
linux
网络
2023年全国职业院校技能大赛-赛题第01套-GZ033 大数据应用开发
目录任务A:大数据平台搭建(容器环境)(15分)子任务一:Hadoop完全分布式安装配置子任务二:
Spark
onYarn安装配置子任务三:HBase分布式安装配置任务B:离线数据处理(25分)子任务一:
你可知这世上再难遇我
·
2023-11-26 13:48
各类赛项赛题比赛综合任务书
大数据
数据采集
数据挖掘
1.5.1.2
Spark
的部署与安装
总目录:https://www.jianshu.com/p/e406a9bc93a9Hadoop-子目录:https://www.jianshu.com/p/9428e443b7fd
Spark
的部署方式单机
寒暄_HX
·
2023-11-26 13:16
百度开源高性能 Python 分布式计算框架 Bigflow
Bigflow的设计中有许多思想借鉴自GoogleFlumeJava以及GoogleCloudDataflow,另有部分接口设计借鉴自Apache
Spark
。
妄心xyx
·
2023-11-26 12:25
【
Spark
】Ubuntu16.04
spark
集群安装 (standalone模式)
一、前言目前Apache
Spark
支持三种分布式部署方式,分别是:standalone
spark
onmesos
spark
onYARN其中,第一种类似于MapReduce1.0所采用的模式,内部实现了容错性和资源管理
w1992wishes
·
2023-11-26 11:50
Java中的jvm——面试题+答案(方法区、代理、本地方法接口等)——第14期
涵盖更多深入的主题,包括
性能调优
、内存模型、类加载机制等。什么是Java的内存模型(JavaMemoryModel)?它的目的是什么?
Keep forward upup
·
2023-11-26 11:00
Java基础
java
jvm
面试
java 虚拟机 字节码_深入理解Java虚拟机(字节码+jvm内存模型+虚拟机原理+
性能调优
)...
Java虚拟机是所有Java开发者都必须要突破的一道坎,除非你愿意一直做CRUD。学习虚拟机有助于你深入理解Java的运行机制,编写高质量的代码,更能快速地排查生产问题,当然虚拟机也是面试中必不可少的一块内容。本套课程按照事物发展的顺序讲起,要运行一个Java应用,首先要编写Java源码,然后将源码编译为字节码,再将字节码交给虚拟机来执行。我们讲解也是按照这个顺序,从Java源码编译为字节码开始讲
眉浅穹跪
·
2023-11-26 11:28
java
虚拟机
字节码
Java+虚拟机原理tomcat_深入理解Java虚拟机字节码+jvm内存模型+虚拟机原理+
性能调优
...
Java虚拟机是所有Java开发者都必须要突破的一道坎,除非你愿意一直做CRUD。学习虚拟机有助于你深入理解Java的运行机制,编写高质量的代码,更能快速地排查生产问题,当然虚拟机也是面试中必不可少的一块内容。本套课程按照事物发展的顺序讲起,要运行一个Java应用,首先要编写Java源码,然后将源码编译为字节码,再将字节码交给虚拟机来执行。我们讲解也是按照这个顺序,从Java源码编译为字节码开始讲
傲世少年
·
2023-11-26 11:58
DBT踩坑第二弹
总结下dbt-
spark
踩到的坑,连接方式采用的是thrift连接+Kerberos认证。
淡定一生2333
·
2023-11-26 10:02
DBT
数据库
掌握
spark
3.0中的查询计划
本文翻译自MasteringQueryPlansin
Spark
3.0,能够很好的帮助学习
spark
sql理解
spark
UI的计划,决定翻译记录一下。
鸿乃江边鸟
·
2023-11-26 09:16
AIGC创作系统ChatGPT网站源码、支持最新GPT-4-Turbo模型、GPT-4图片对话能力+搭建部署教程
一、AI创作系统
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-11-26 09:50
人工智能
ChatGPT
软件源码
chatgpt
AIGC
人工智能
(转载)
Spark
任务输出文件过程详解
一、
Spark
任务输出文件的总过程当一个Job开始执行后,输出文件的相关过程大概如下:1、Job启动时创建一个目录:${output.dir}/_temporary/${appAttemptId}作为本次运行的输出临时目录
淡定一生2333
·
2023-11-26 09:09
Spark学习
Spark
任务输出文件过程详解
文章目录一、
Spark
任务输出文件的总过程二、Commit细节分析1、commitTask介绍1.1、判断是否需要commit1.2、task的commit细节2、commitJob介绍三、V1和V2commiter
疯狂哈丘
·
2023-11-26 09:07
spark
大数据
spark输出文件
spark
spark任务性能优化
简略
Spark
输出
http://blog.jobbole.com/86232/
Spark
(和Py
Spark
)的执行可以特别详细,很多INFO日志消息都会打印到屏幕。
chenlongzhen_tech
·
2023-11-26 09:37
python
python
Spark
SQL输入输出
1、对于
Spark
SQL的输入需要使用
spark
Session.read方法1)、通用模式
spark
Session.read.format("json").load("path")支持类型:parquet
sinat_36710456
·
2023-11-26 09:37
大数据
Spark
SQL
输入
输出
spark
输出结果压缩(gz)
如果不想往下看,可以直接看结果:maxCallRdd.repartition(3).saveAsTextFile(path,GzipCodec.class);恩,没错。就只这么一行简单的代码实现了gz压缩,但是为什么网上一直没找到呢,这个我不太清楚,可能是他们没碰到吧。最近项目的需求,其实很简单,就是将输出结果以.gz的格式压缩,每个压缩包的大小不能超过100M,而且压缩包的名称也有要求,就是要以
fjr_huoniao
·
2023-11-26 09:00
spark
spark
gz压缩
【
spark
】控制日志输出的方法
目录一、控制日志输出方法二、代码测试一、控制日志输出方法1、使用
spark
默认的log4j配置文件设置日志输出级别Logger.getLogger("org.apache.
spark
").setLevel
郝少
·
2023-11-26 09:30
大数据
Spark技术经验
spark
日志
Spark
Streaming(四)——输出
输出操作如下:1)print():在运行流程序的驱动结点上打印DStream中每一批次数据的最开始10个元素。这用于开发和调试。2)saveAsTextFiles(prefix,[suffix]):以text文件形式存储这个DStream的内容。每一批次的存储文件名基于参数中的prefix和suffix。”prefix-Time_IN_MS[.suffix]”。3)saveAsObjectFile
爱喝水的绿萝
·
2023-11-26 09:29
spark
streaming
spark
大数据
big
data
Spark
导出
3
Spark
导出在使用
Spark
之前,先将编译好的classes导出为jar比较好,可以$sbt/sbtassembly将
Spark
及其依赖包导出为jar,放在core/target/
spark
-core-assembly
a2261504394
·
2023-11-26 09:59
Spark
多文件输出的两种形式
#所需环境版本jdk=1.8scala.version=2.11.0
spark
.version=2.3.2hadoop.verison=2.7.2importorg.apache.hadoop.io.
一只咸鱼va
·
2023-11-26 09:58
spark
spark
scala
大数据
使用
Spark
进行结构化流处理并将结果输出到终端或指定位置
使用
Spark
进行结构化流处理并将结果输出到终端或指定位置
Spark
是一个强大的大数据处理框架,提供了许多功能强大的组件,其中包括StructuredStreaming,它是
Spark
的流处理引擎。
心之所向,或千或百
·
2023-11-26 09:24
spark
linq
大数据
Hadoop+Hive+
Spark
+Hbase开发环境练习
app/data/exam查看csv文件行数[root@kb129~]#hdfsdfs-cat/app/data/exam/meituan_waimai_meishi.csv|wc-l2.分别使用RDD和
Spark
SQL
不吃香菜lw
·
2023-11-26 07:48
hadoop
hive
spark
SpringBoot 是如何通过jar包启动的
只有了解了底层实现原理,才能更好的掌握该项技术带来的好处以及
性能调优
。本篇文章带大家聊一探究竟。java-jar做了什么先要弄清楚java-jar命令做了什
「已注销」
·
2023-11-26 05:50
jar
spring
boot
java
Java之jvm调优
JVM调优思路、订单秒杀jvm调优案例:https://blog.csdn.net/qq_45076180/article/details/108441940.JVM
性能调优
链接:https://blog.csdn.net
jsxllht
·
2023-11-26 05:36
java
eclipse
udp
JVM
性能调优
实战
JVM调优调什么JVM调优是一个系统而又复杂的过程,但我们知道,在大多数情况下,我们基本不用去调整JVM内存分配,因为一些初始化的参数已经可以保证应用服务正常稳定地工作了。而且一般情况下,就算出现了,也是架构师级别的去处理。实际上,JVM调优,调的是稳定,并不能带给你性能的大幅提升。服务稳定的重要性就不用多说了,保证服务的稳定,gc永远会是Java程序员需要考虑的不稳定因素之一。复杂和高并发下的服
汪了个王
·
2023-11-26 05:06
JVM
java
jvm
java虚拟机教程图解_jvm优化视频教程java虚拟机jvm
性能调优
原理实战
一、jvm调优与优化方法指导思路在学会如何进行调优JVM之前一定要了解和监控JVM的运行机制,比如我们常用的一些JVM监控工具可以帮助我们查看其运行和工作状态,因为调优是一个持久长时间要做的事情,我们要长时间的监控JVM的运行,才能够做到更好的去调优。在整个监控过程中,我们能够看到JVM的内存分配情况,包括物理内存分配和非物理分配以及新生代老年代的内存占比情况,同时要监控垃圾回收频率和垃圾回收时间
weixin_39867708
·
2023-11-26 04:05
java虚拟机教程图解
JVM调优大全及实战总结
性能调优
的程序
性能调优
的标准:
性能调优
的工具:监控工具:分析工具:JVM自带工具GC基础GC日志GC调优HotSpotVM的Heap布局对象在不同代的移动虚拟机调优总体设置原则:内存泄漏JVM类型JavaVirtualMachine
m0_67401606
·
2023-11-26 04:30
java
jvm
java
开发语言
servlet
hdfs
Java虚拟机JVM
性能调优
实战
16年的时候花了一些时间整理了一些关于jvm的介绍文章,到现在回顾起来还是一些还没有补充全面,其中就包括如何利用工具来监控调优前后的性能变化。工具做为图形化界面来展示更能直观的发现问题,另一方面一些耗费性能的分析(dump文件分析)一般也不会在生产直接分析,往往dump下来的文件达1G左右,人工分析效率较低,因此利用工具来分析jvm相关问题,长长可以到达事半功倍的效果来。jvm监控分析工具一般分为
braverex
·
2023-11-26 04:00
滑动窗口rolling详解
文章目录引言PandasDataFrame参数详解Py
Spark
Dataframe基本程序参数详解参考文献引言为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口
安替-AnTi
·
2023-11-26 03:37
机器学习
pandas
rolling
滑动窗口
pyspark
上一页
44
45
46
47
48
49
50
51
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他