E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark调优
Hive之企业级
调优
实战
1:Fetch抓取Fetch抓取是指,==Hive中对某些情况的查询可以不必使用MapReduce计算例如:select*fromscore;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minim
不要迷恋发哥
·
2023-12-27 18:50
Hive
大数据
hive
数据仓库
【Hive_05】企业
调优
1(资源配置、explain、join优化)
1、计算资源配置1.1Yarn资源配置1.2MapReduce资源配置2、Explain查看执行计划(重点)2.1Explain执行计划概述2.2基本语法2.3案例实操3、分组聚合优化3.1优化说明(1)map-side聚合相关的参数3.2优化案例4、join优化4.1Join算法概述(1)CommonJoin(2)MapJoin(3)BucketMapJoin(4)SortMergeBucket
温欣2030
·
2023-12-27 18:49
#
【Hive】
【大数据】
hive
hadoop
数据仓库
Hive学习——企业级
调优
目录一、计算资源
调优
(一)Yarn资源配置——集群1.Yarn配置说明(1)yarn.nodemanager.resource.memory-mb(2)yarn.nodemanager.resource.cpu-vcores
雷神乐乐
·
2023-12-27 18:49
#
Hive
学习
大数据
java
hive
【hive】hive的
调优
经验
一、hive自己进行优化对union这样的命令进行了优化二、数据本地化率hdfs数据本地化率对hive性能产生影响在数据大小一定的情况下,500个128M的文件和2个30G的文件跑hive任务,性能是有差异的,两者最大的区别在于,后者在读取文件时,需要跨网络传输,而前者为本地读写。数据本地化率问题。三、数据格式hive提供text,sequenceFile,RCFile,ORC,Parquest等
kiraraLou
·
2023-12-27 18:49
hive
hive
hadoop
big
data
什么是
Spark
开发?
1、核心开发:离线批处理/延迟性的交互式数据处理2、SQL查询:底层都是RDD和计算操作3、实时计算:底层都是RDD和计算操作
一个人一匹马
·
2023-12-27 17:54
论文阅读——TÜLU
TÜLU:通过整合资源实现更好的教学
调优
模型加指令的多样性可以有效地提高指令调整的性能。所以创建了两个混合数据集,
じんじん
·
2023-12-27 17:07
论文
人工智能
Flink实时电商数仓之Doris框架(七)
主要实现的功能有:实时看板面向企业内部分析师和管理者的报表面向用户或者客户的高并发报表分析即席查询统一数仓构建:替换了原来由
Spark
,Hive,Kudu,Hbase等旧框架数据湖联邦查询:通过外表的方式联邦分析位于
十七✧ᐦ̤
·
2023-12-27 16:47
flink
大数据
doris
Spark
使用mariadb驱动读取AWS Aurora所有结果数据行都是列名
目录一、使用mariadb驱动读取AWSAurora二、df.show()的内容三、解决办法一、使用mariadb驱动读取AWSAuroraval
spark
=
Spark
Session.builder()
瞎胡侃
·
2023-12-27 15:28
大数据
spark
mariadb
aws
ChatGLM2-6B微调实践-QLora方案
ChatGLM2-6B微调实践-QLora方案环境部署Lora微调项目部署准备数据集修改训练脚本adapter推理模型合并与量化合并后的模型推理参数
调优
微调过程中遇到的问题参考:环境部署申请阿里云GPU
我在北国不背锅
·
2023-12-27 15:25
大模型
linux
chatglm
java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothi...
Spark
Streaming报错java.lang.IllegalArgumentException:requirementfailed:Nooutputoperationsregistered,sonothingtoexecute
扣篮的左手
·
2023-12-27 14:58
Spark
与Hadoop的关系和区别
在大数据领域,
Spark
和Hadoop是两个备受欢迎的分布式数据处理框架,它们在处理大规模数据时都具有重要作用。本文将深入探讨
Spark
与Hadoop之间的关系和区别,以帮助大家的功能和用途。
晓之以理的喵~~
·
2023-12-27 12:13
Spark
spark
hadoop
大数据
企业级实战项目:基于 pycaret 自动化预测公司是否破产
本文系数据挖掘实战系列文章,我跟大家分享一个数据挖掘实战,与以往的数据实战不同的是,用自动机器学习方法完成模型构建与
调优
部分工作,深入理解由此带来的便利与效果。
Python数据挖掘
·
2023-12-27 12:40
机器学习
数据分析及可视化
数据挖掘
数据分析
算法
python
Spark
生产集群各种使用
1.环境配置1.1版本说明要求版本是否必须其他事项Hadoop3.3.4是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用
spark
sql,使用hive更好的管理
tuoluzhe8521
·
2023-12-27 10:15
hive相关
spark
大数据
分布式
七牛云存储
Flink on K8S集群搭建及StreamPark平台安装
1.环境准备1.1介绍在使用Flink&
Spark
时发现从编程模型,启动配置到运维管理都有很多可以抽象共用的地方,目前streampark提供了一个flink一站式的流处理作业开发管理平台,从流处理作业开发到上线全生命周期都做了支持
tuoluzhe8521
·
2023-12-27 10:45
flink
flink
kubernetes
大数据
StreamPark
Harbor
删除azkaban的执行历史
azkaban通常用在大数据任务调度场景,把任务提交之后,如果任务是
spark
,hive,hadoop,flink等任务的话,
飞有飞言
·
2023-12-27 07:09
调优
-mybatis saveBatch
一条一条插入:批量插入:批量插入-优化:在url配置#rewriteBatchedStatements=trueurl:jdbc:mysql://localhost:3306/xi_ning?characterEncoding=utf-8&serverTimezone=UTC&rewriteBatchedStatements=truerewriteBatchedStatements=true是一个
猫三棂
·
2023-12-27 06:40
Java
mybatis
Spark
的生态系统概览:
Spark
SQL、
Spark
Streaming
Apache
Spark
是一个强大的分布式计算框架,用于大规模数据处理。
Spark
的生态系统包括多个组件,其中两个重要的组件是
Spark
SQL和
Spark
Streaming。
晓之以理的喵~~
·
2023-12-27 06:35
Spark
spark
sql
大数据
[
spark
] 存储到hdfs时指定分区
在
Spark
SQL中指定多个分区字段进行数据存储:类似hive分区存储文章目录代码示例代码importorg.apache.
spark
.sql.
Spark
Sessionval
spark
=
Spark
Session.builder
言之。
·
2023-12-27 06:33
spark
hdfs
大数据
米哈游大数据云原生实践
以
Spark
为例,在云上运行
Spark
可以充分享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少
Spark
onKubernetes的优秀实践。
阿里云云原生
·
2023-12-27 06:31
大数据
云原生
[
spark
] DataFrame 的 checkpoint
在Apache
Spark
中,DataFrame的checkpoint方法用于强制执行一个物理计划并将结果缓存到分布式文件系统,以防止在计算过程中临时数据丢失。
言之。
·
2023-12-27 06:29
spark
大数据
分布式
[
spark
] dataframe的cache方法
在Apache
Spark
中,DataFrame的cache方法用于将DataFrame的计算结果缓存到内存中,以便在后续的操作中能够更快地访问这些数据。
言之。
·
2023-12-27 06:59
spark
大数据
分布式
JVM面试题
3.直接内存4.说一下类加载的执行过程5.JVM
调优
参数有哪些6.JVM
调优
的工具7.java内存泄漏的排查思路8.cpu飙高排查方案和思路1.什么是虚拟机栈每个线程运行时需要的内存,称为虚拟机栈2.方法内的局部变量是线程安全吗
ITfeib
·
2023-12-27 06:12
面试总结
jvm
java
面试
doris基本操作,03-导入数据-Broker Load
因为Doris表里的数据是有序的,所以Brokerload在导入数据的时是要利用doris集群资源对数据进行排序,相对于
Spark
load来完成海量历史数据迁移,对Doris的集群资源占用要比较大,这种方式是在用户没有
车前猛跑
·
2023-12-27 05:46
数据开发
doris
数据开发
orc小文件合并趣谈
这里增量数据采用
Spark
SQL以动态分区增量写入的方
艾伦_alan
·
2023-12-27 01:02
分布式系统面试连环炮
他们有共同的一个问题,就是都没怎么搞过分布式系统,现在互联网公司,一般都是做分布式的系统,大家都不是做底层的分布式系统、分布式存储系统hadoophdfs、分布式计算系统hadoopmapreduce/
spark
Java机械师
·
2023-12-26 23:13
为什么
Spark
比MapReduce快?
MapReduce慢是因为模型很呆板,频繁的Io操作
Spark
快的话不仅是因为它是内存迭代计算吧?具体什么是内存迭代计算?
tracy_668
·
2023-12-26 23:00
JVM
调优
之经验
在生产系统中,高吞吐和低延迟一直都是JVM
调优
的最终目标,但这两者恰恰又是相悖的,鱼和熊掌不可兼得,所以在
调优
之前要清楚舍谁而取谁。
alterem
·
2023-12-26 23:21
码歌老薛大话Java性能
调优
,Java
调优
概述(一)
老薛读书会1第一本书大话java性能
调优
书籍简单介绍,今天和大家读的是大话java性能
调优
这本书,IBM技术专家周明耀先生编纂。
坑王老薛
·
2023-12-26 19:56
Linux性能
调优
| 01 平均负载的理解和分析
01uptime命令通常我们发现系统变慢时,我们都会执行top或者uptime命令,来查看当前系统的负载情况,比如像下面,我执行了uptime,系统返回的了结果。[root@lincoding~]#uptime08:31:49up27min,1user,loadaverage:0.07,0.04,0.00前几列的信息,相信大家都很熟悉,它们分别是当前时间、系统运行时间和正在登陆的用户个数,最后一个
小林coding
·
2023-12-26 19:15
【
Spark
-HDFS小文件合并】使用
Spark
实现 HDFS 小文件合并
【
Spark
-HDFS小文件合并】使用
Spark
实现HDFS小文件合并1)导入依赖2)代码实现2.1.HDFSUtils2.2.MergeFilesApplication需求描述:1、使用
Spark
做小文件合并压缩处理
bmyyyyyy
·
2023-12-26 17:15
Spark
spark
hdfs
大数据
#HDFS小文件合并
datasophon组件安装时踩坑记录
identifiedby'xxxx';1.安装hdfs后有一个namenode进程未启动解决:在那个未启动的节点上执行hdfsnamenode-bootstrapStandby之后在web页面重启hdfs2.hiveon
spark
州周
·
2023-12-26 17:56
hadoop
hdfs
大数据
主流级显卡的新选择,
Spark
le(撼与科技)Intel Arc A750兽人体验分享
如果要在ArcA系列当中选一个性能不俗,能够满足生产力与游戏需求,价格方面又不会太高的显卡,那么我手上的这张
Spark
le(撼与科技)的IntelArcA750兽人OC显卡就是一个不错的选择。
资讯看点
·
2023-12-26 14:48
业界资讯
EMQ百万级MQTT消息服务(优化和压测)
只有你自己试了才知道,本节就带着大家一起有
调优
系统配置和对EMQ进行压力测试来一探EMQ的庐山真面目附上:喵了个咪的博客:w-blog.cnEMQ官方地址:http://emqtt.com/EMQ中文文档
文振熙
·
2023-12-26 13:14
使用Java进行性能
调优
的实践指南
为了确保Java应用程序的高效运行,性能
调优
成为了一项重要的任务。本文将为您提供一份使用Java进行性能
调优
的实践指南,帮助您优化应用程序的性能。
api77
·
2023-12-26 12:52
电商api
java
开发语言
人工智能
大数据
服务器
六:
Spark
集群安装和部署
ubuntu16.04系统;(2)Master节点:内存分配2g;Slave1节点:内存分配512MB;Slave2节点:内存分配512MB;2.安装路径:(1)Hadoop2.6.5:/usr/local/;(2)
Spark
2.6.0
玉成226
·
2023-12-26 10:21
spark
大数据
Spark
实战高手之路职业学习路线图
从零起步,分阶段无任何障碍逐步掌握大数据统一计算平台
Spark
,从
Spark
框架编写和开发语言Scala开始,到
Spark
企业级开发,再到
Spark
框架源码解析、
Spark
与Hadoop的融合、商业案例和企业面试
smileyboy2009
·
2023-12-26 10:56
hadoop
spark
spark
hadoop
hadoop3.0x 后要比
spark
快10倍!
Apachehadoop项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce基于内存+io+磁盘,共同处理数据其实最大改变的是hdfs,hdfs通过最近black块计算,根据最近计算原则,本地black块,加入到内存,先计算,通过IO,共享内存计算区域,最后快速形成计算结果。hadoop3.0后会大改mapreduce计算模型,就让我们拭目以待吧!目前hadoop版本是2.
smileyboy2009
·
2023-12-26 10:56
hadoop
spark
内存
mapreduce
spark
hdfs
hadoop
Java
Spark
Sql 2.4.0 ArrayIndexOutOfBoundsException error
在
spark
2.4中报ArrayIndexOutOfBoundsException原因是
Spark
2.4.0中引用的paranamer版本是2.7导致问题。
smileyboy2009
·
2023-12-26 10:56
spark
Iceberg1.4.2 java 表管理(DDL和DML)操作
既然是一种开放的表管理格式,那就不应该依赖hadoop,hive,
spark
,flink
smileyboy2009
·
2023-12-26 10:26
java
开发语言
spark
和flink对比
最近网上和各大公司在对比
spark
和flink,也有一部分人,演讲时不分析代码原理,不根据事实,直接吹嘘flink比
spark
好,flink能干掉
spark
的话,今天就跟大家从技术,应用和未来发展角度对两个产品进行对比
smileyboy2009
·
2023-12-26 10:25
spark
flink
数据仓库
大数据
iceberg1.4.2+
spark
3.4.2+minio
在idea里面编写iceberg的数据写入和创建表动作,虽然简单,但是官网没有给出完整例子,包括jar包的依赖。最大的坑就是版本不兼容。通过下面完整例子,编写Iceberg的完整代码。pom.xml文件需要引入的包org.scala-langscala-library${scala.version}junitjunit4.4testorg.specsspecs1.2.5testorg.apache
smileyboy2009
·
2023-12-26 10:25
spark
idea开发delta.io数据湖
通过idea的
spark
操作delta.ideamaven的pom.xmlio.miniominio8.5.7org.apache.
spark
spark
-core_2.123.5.0o
smileyboy2009
·
2023-12-26 10:52
intellij-idea
java
ide
JVM
调优
的参数在哪里可以进行设置(不是指临时的)
WAR包部署在Tomcat中时,可以通过设置JVM
调优
参数来提升性能。以下是一些常用的JVM
调优
参数:-Xms:设置JVM的初始堆大小,例如-Xms512m表示初始堆大小为512MB。
Flying_Fish_roe
·
2023-12-26 09:29
jvm
pycharm连接虚拟机
前言:我们默认用户已经在虚拟机上安装好了
spark
等相关集群和生态,是可以在虚拟机中运行相关的操作,比如mapper,reducer操作,rdd,dataframe等等杂七杂八的东西的(主要我也没太明白
俺会hello我的
·
2023-12-26 07:22
pycharm
ide
spark
:RDD编程(Python版)
RDD运行原理RDD设计背景许多选代目前的MapReduce框架都是把中间结果写入到稳定存储(比如磁盘)中带来了大量的数据复制、磁盘IO和序列化开销RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据架构,我们不必担心底层数据的分布式特性,只需将具体的应用逻辑表达为一系列转换处理,不同RDD之间的转换操作形成依赖关系,可以实现管道化,避免中间数据存储。RDD概念一个RDD就是一个分布式对象集
Mineba
·
2023-12-26 07:43
大数据技术
spark
python
SpringBoot 2 集成
Spark
3
*+
Spark
3.*,如果还未安装相关环境,请参考:
Spark
初始CentOS7安装Hadoop3单机版SpringBoot2集成
Spark
3pom.xmlSpringBootCaseorg.example1.0
在奋斗的大道
·
2023-12-26 06:12
Java架构专栏
深蓝计划
hadoop
spark
大数据
分布式
iceberg1.4.2 +minio通过
spark
创建表,插入数据
下层支持hadoop,s3,对象存储,上层支持hive,
spark
,flink等应用。实现在中间把两部分隔离开来,实现一种对接和数据管理的标准。有这个标准,不管是谁建的表,都可以操作和访问。
smileyboy2009
·
2023-12-26 06:39
spark
大数据
分布式
count distinct在
spark
中的运行机制
(*),SUM(items),COUNT(DISTINCTproduct),COUNT(DISTINCTcategory)FROMorders;假设源数据分布在两个1核的结点上,数据就8行Expand
spark
SLUMBER_PARTY_
·
2023-12-26 06:08
spark
大数据
【Linux系统基础】(6)在Linux上大数据NoSQL数据库HBase集群部署、分布式内存计算
Spark
环境及Flink环境部署详细教程
大数据NoSQL数据库HBase集群部署简介HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。和Redis一样,HBase是一款KeyValue型存储的数据库。不过和Redis设计方向不同Redis设计为少量数据,超快检索HBase设计为海量数据,快速检索HBase在大数据领域应用十分广泛,现在我们来在node1、node2、node3上部署HBase集群。安装HBase依赖Zo
老牛源码
·
2023-12-26 06:13
Linux教程
大数据
分布式
linux
Spark
Core
一、RDD详解1.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是
Spark
中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
weixin_50458070
·
2023-12-26 06:40
大数据
大数据
上一页
41
42
43
44
45
46
47
48
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他