E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark调优
数组索引越界异常
Causedby:org.apache.
spark
.
Spark
Exception:Jobabortedduetostagefailure:Task1instage0.0failed1times,mostrecentfailure
夺命大翻斗
·
2024-01-03 21:40
spark
学习大数据的第43天(python篇)——学习python第3天
Scipylibrary主要是积分运算,优化以及图形Matplotlib画图(二维图形)IPythonSympy用的不多pandas主要是数据分析,数据处理(比较重要)数据清洗,提供比较好的数据结构Dataframe(
spark
三岁清风
·
2024-01-03 21:18
maven
spring
mysql
python
JVM常用参数配置
jvm实际可配参数已经有1000多个了,其中GC和内存配置就多达600多个,你可以看出JVM问题排查和性能
调优
重点领域还是GC和内存。
程序无涯海
·
2024-01-03 21:08
Java
jvm
java
简述
spark
的架构与作业提交流程
1.首先
spark
在yarn下的作业提交分两种,一种是yarn-cluster模式,一种是yarn-client模式。
scott_alpha
·
2024-01-03 18:48
【
Spark
精讲】RDD缓存源码分析
面试题:cache后面能不能接其他算子,它是不是action操作?能,不是action算子。源码解析RDD调用cache或persist之后,会指定RDD的缓存级别,但只是在成员变量中记录了RDD的存储级别,并未真正地对RDD进行缓存。只有当RDD计算的时候才会对RDD进行缓存。以HadoopRDD为例overridedefcompute(split:Partition,context:TaskC
话数Science
·
2024-01-03 18:08
Spark
Spark精讲
大数据
spark
大数据
【
Spark
精讲】
Spark
SQL Join选择逻辑
Spark
SQLJoin选择逻辑先看JoinSelection的注释Ifitisanequi-join,wefirstlookatthejoinhintsw.r.t.thefollowingorder:
话数Science
·
2024-01-03 18:37
大数据
Spark
Spark精讲
spark
大数据
面试
Spark
Streaming + Flume
Push,指的是Flume主动push数据给
Spark
Streaming。Pull,指的是
Spark
Streaming主动从Flume拉取数据。
歌哥居士
·
2024-01-03 18:53
Spark
分区器HashPartitioner和RangePartitioner/全局排序
Spark
分区器 在
Spark
中分区器直接决定了RDD中分区的个数,RDD中每条数据经过Shuffle过程属于哪个分区以及Reduce的个数。
K. Bob
·
2024-01-03 18:34
Spark
【大数据面试知识点】分区器Partitioner:HashPartitioner、RangePartitioner
Spark
HashParitioner的弊端是什么?
话数Science
·
2024-01-03 18:02
大数据
Spark
面试
大数据
spark
面试
Scala - 反射动态创建方法
有时候我们想定义一个字符串的方法,然后通过scala的动态创建class,然后反射调用方法,在很多情景下是在学有用的,比较动态自定义
spark
的mapParations,当然了,每个人的需求都不一样,但是底层原理是一样的
kikiki2
·
2024-01-03 17:07
一文说清Elasticsearch的核心概念
核心概念集群(Cluster)分片(Shards)副本(Replicas)映射(Mapping)ES的基本使用安装使用集群健康状态ES机制原理写索引原理存储原理性能优化存储设备内部索引优化调整配置参数JVM
调优
本文小结概述本篇主要是做一个总结
wh柒八九
·
2024-01-03 16:51
核心知识点
Elastic
Search
elasticsearch
大数据系列之:读取parquet文件统计数据量
大数据系列之:读取parquet文件统计数据量一、
Spark
读取parquet文件统计数据量二、parquet-tools统计parquet文件数据量三、实际应用案例一、
Spark
读取parquet文件统计数据量首先
最笨的羊羊
·
2024-01-03 16:49
日常分享专栏
大数据系列
读取parquet文件
统计数据量
单机Nginx性能优化
静态文件的缓存优化了网页加载,超时机制会让Client与Server的响应不会长时间阻塞,GZIP压缩提升IO效率、减少我们发送的数据量,限流来预防DOS攻击,TCP参数
调优
提升传输效率。
JacksonY
·
2024-01-03 15:52
推荐一个小孩儿学编程的App
code
spark
嗯嗯,当然这个软件本质上还是一个游戏,但是和其他游戏的区别在于它可以把我们的编程思想放到小孩玩游戏的过程当中。
花生草
·
2024-01-03 14:03
linux参数
调优
查看文件句柄数ulimit-a临时修改文件句柄数(退出shell将重置)ulimit-n65535永久修改文件句柄数使用root账号vi/etc/security/limits.conf末尾新增以下内容*softnofile65535*hardnofile65535*softnproc65535*hardnproc65535修改用户可用最大进程数使用root账号vi/etc/security/li
芸尚非
·
2024-01-03 13:44
操作系统
部署运维
linux
bash
ssh
使用UDF扩展
Spark
SQL
Apache
Spark
是一个强大的分布式计算框架,
Spark
SQL是其一个核心模块,用于处理结构化数据。虽然
Spark
SQL内置了许多强大的函数和操作,但有时可能需要自定义函数来处理特定的数据需求。
晓之以理的喵~~
·
2024-01-03 12:08
Spark
spark
sql
大数据
性能优化:
Spark
SQL中的谓词下推和列式存储
Apache
Spark
是一个强大的分布式计算框架,
Spark
SQL是其一个核心模块,用于处理结构化数据。
晓之以理的喵~~
·
2024-01-03 12:02
Spark
性能优化
spark
sql
大数据实时项目必备技能二:kafka有话说
导读:Kafka是由LinkedIn开发并开源的分布式消息系统,因其分布式及高吞吐率而被广泛使用,现已与ClouderaHadoop,ApacheStorm,Apache
Spark
集成。
栀子花_ef39
·
2024-01-03 11:05
Spark
之Adaptive Query Execution
文章目录AdaptiveQueryExecutionCoalescingPostShufflePartitionsSplitingskewedshufflepartitionsConvertingsort-mergejointobroadcastjoinConvertingsort-mergejointoshuffledhashjoinOptimizingSkewJoin(forsore-merg
zincooo
·
2024-01-03 09:16
Spark
spark
大数据
分布式
【
Spark
精讲】
Spark
SQL的RBO与CBO
Spark
SQL核心:Catalyst
Spark
SQL的核心是Catalyst查询编译器,它将用户程序中的SQL/Dataset/DataFrame经过一系列操作,最终转化为
Spark
系统中执行的RDD
话数Science
·
2024-01-03 09:45
大数据
Spark
Spark精讲
spark
大数据
【
Spark
精讲】记一个
Spark
SQL引擎层面的优化:SortMergeJoinExec
Spark
SQL的Join执行流程如下图所示,在分析不同类型的Join具体执行之前,先介绍Join执行的基本框架,框架中的一些概念和定义是在不同的SQL场景中使用的。
话数Science
·
2024-01-03 09:44
Spark精讲
大数据
Spark
spark
大数据
Spark
大数据分析与实战笔记(第二章
Spark
基础-02)
文章目录每日一句正能量章节概要2.2搭建
Spark
开发环境2.2.1环境准备2.2.2
Spark
的部署方式2.2.3
Spark
集群安装部署一、
Spark
下载二、
Spark
安装三、环境变量配置2.2.4
Spark
HA
想你依然心痛
·
2024-01-03 09:14
#
Spark大数据分析与实战
spark
数据分析
笔记
MicroPython性能
调优
MicroPython开发高性能代码一般遵循以下阶段:设计时就要考虑性能优化代码及性能调试性能
调优
的步骤:确定代码中最慢的部分提高Python代码执行效率使用本机代码发射器使用viper代码发射器针对硬件进行优化在设计时就考虑性能问题性能问题应该一开始就应该考虑
原子星
·
2024-01-03 09:14
硬件
micropython
python
单片机
物联网
2024.1.2
Spark
简介,架构,环境部署,词频统计
目录一.
Spark
简介二.
Spark
框架模块三.环境准备3.1
Spark
Local模式搭建3.2通过Anaconda安装python3环境3.3Py
Spark
库安装四.
Spark
集群模式架构介绍五.pycharm
白白的wj
·
2024-01-03 09:41
spark
大数据
分布式
hadoop
数据仓库
python
Spark
一:
Spark
介绍、技术栈与运行模式
一、
Spark
简介
Spark
官网https://
spark
.apache.org/1.1
Spark
是什么
Spark
是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。
eight_Jessen
·
2024-01-03 09:11
spark
spark
大数据
分布式
Spark
导入报错:object security is not a member of package org.apache.kafka.common
引言 build
spark
里自带的示例项目时报了这样一个错:objectkafkaisnotamemberofpackageorg.apache,排查后发现是因为添加的jar依赖里没有kafka这一项,
夜半罟霖
·
2024-01-03 09:40
spark
apache
kafka
Spark
之Dynamic Resource Allocation
文章目录DynamicResourceAllocation请求策略移除策略移除存在的问题相关参数DynamicResourceAllocation
Spark
提供一种基于负载使用情况来动态调整application
zincooo
·
2024-01-03 09:39
Spark
spark
大数据
分布式
聊一下JVM
调优
闲聊一下:这个JVM相信大家都了解过但是很少用这个东西但是面试一些高级架构师又是必问的一些问题之前一直不了解这个东西感觉就是面试造火箭实际拧螺丝用于筛选人才毕业这么多年也是很少接触这些就大学的时候学过简单了解过一些底层,找工作面试倒是背过一些相关的甲骨文。项目背景:先简单说一下写这个的原因,我目前做的这个项目有一个备份还原的功能,备份就是把整个数据库备份一下还原就是执行一下这个sql文件,其实这个
Owen_Number_One
·
2024-01-03 08:10
jvm
Hive/
Spark
SQL中UDF/UDTF/UDAF的含义、区别、有哪些函数
Hive官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-Built-inTable-GeneratingFunctions(UDTF)1.UDF(User-DefinedFunction)含义即用户定义函数,UDF用于处理一行数据并返回一个标量值(单个值),这个值可以是
TRX1024
·
2024-01-03 08:39
hive
hadoop
数据仓库
Hive/
Spark
SQL中Map、Array的基本使用和转换
一、Map1.构建语法:map(key1,value1,key2,value2,…)说明:根据输入的key和value对构建map类型-->1.一般创建方法selectmap('key1_name','张三','key2_age',20)asmap_col--结果:{"key1_name":"张三","key2_age":"20"}-->2.根据SQL查询结果构建mapselectmap('k_n
TRX1024
·
2024-01-03 08:09
hive
hadoop
数据仓库
Spark
解决构建倒排索引问题的步骤
相比于MapReduce,采用
spark
解决问题则简单得多:用户无需受限于(MapReduce中的)Mapper、Combiner和Reducer等组件要求的固定表达方式,而只需将解决方案翻译成
Spark
皮皮杂谈
·
2024-01-03 08:26
【kettle】pdi/data-integration 集成kerberos认证连接hive或
spark
thriftserver
spark
thriftserver本质就是通过hivejdbc协议连接并运行
spark
sql任务。二、思路kettle中可以使用js调用java类的方法。
lisacumt
·
2024-01-03 08:37
hive
spark
hadoop
计算机毕业设计吊打导师hadoop+
spark
+hive知识图谱医生推荐系统 医生数据分析可视化大屏 医生爬虫 医疗可视化 医生大数据 机器学习 大数据毕业设计
,使用高德地图解析地理位置,并将结果转入.csv文件同时上传到hdfs文件系统;3.使用hive建库建表,导入.csv数据集;4.一半指标使用离线数仓hive_sql分析,一半指标使用实时数仓实时计算
Spark
计算机毕业设计大神
·
2024-01-03 07:53
独一无二的「MySQL
调优
金字塔」相信也许你拥有了它,你就很可能拥有了全世界。
开发俏皮话【让我996不算啥,我只怕测试也996给我提bug!】技术金字塔本篇文章会按照自上而下以及自下而上的两种方向去“游览”【MySQL技术金字塔】,两个方向分别是从成本出发的(潜台词就是便宜越好,照顾公司成本哦!),本章内容,可能有点多,希望大家慢慢消化,实在不行来片“吗丁啉”,哈哈,开玩笑了!技术梗概主要技术分布为6大部分,如下图金子图所示:image研发成本角度从软件的【研发成本】的角度
洛神灬殇
·
2024-01-03 06:25
虚拟机VMware
spark
的安装教程
1.创建一个空文件夹2.解压安装包到文件夹中3.进入目录4.重命名文件夹5.打开
spark
进行编译
爱打网球的小哥哥一枚吖
·
2024-01-03 05:40
hadoop
大数据
分布式
Azkaban+
Spark
资源调度
本文以利用Azkaban+
Spark
构建数仓的DWS层和ADS层为例!!!
孤城暮雨@
·
2024-01-03 04:46
spark
大数据
分布式
JVM的垃圾回收机制详解和
调优
JVM的垃圾回收机制详解和
调优
1.JVM的gc概述gc即垃圾收集机制是指jvm用于释放那些不再使用的对象所占用的内存。java语言并不要求jvm有gc,也没有规定gc如何工作。
裘马轻狂大帅
·
2024-01-03 03:20
Spark
之 Shuffle
Shuffle在
Spark
中Shuffle的目的是为了保证每一个key所对应的value都会汇聚到同一个分区上去聚合和处理。
zhixingheyi_tian
·
2024-01-03 02:31
Spark
Sql
spark
spark
大数据
big
data
Spark
Sql中join和shuffle知识点梳理
spark
sql中有一些容易混淆的概念,大家在面试时也会经常被问到join和shuffle相关的问题:说说join的几种实现说说shuffle的实现join操作一定发生shuffle吗?
小萝卜算子
·
2024-01-03 02:30
spark源码精读分析系列
spark
大数据
分布式
数据仓库
sql
Spark
源码分析之:Shuffle
这一篇我们来分析
Spark
2.1的Shuffle流程。
你说个der
·
2024-01-03 02:30
Spark
spark
大数据
Spark
源码——Shuffle过程
shuffle很重要,
调优
的重点、性能的杀手未优化的shuffle:(图片来源:北风网)未优化的shuffle有两个特点:
spark
早期版本中,shuffleMapTask将所有数据写入bucket缓存后
阿松0311
·
2024-01-03 02:59
Spark
spark
mapreduce
big
data
Shuffle Read Time
调优
先看第一张
Spark
任务执行时间轴的图:红色部分是任务反序列化时间,黄色部分是shuffleread时间,绿色是实际计算任务执行时间,这里我们先不讨论任务反序列化时间长,下一篇文章说任务反序列化时间长怎么解决
初心江湖路
·
2024-01-03 02:59
大数据
Spark
shuffle
read
time优化
spark调优
Spark
SQL Shuffle分区数目
运行程序时,查看WEBUI监控页面发现,某个Stage中有200个Task任务,也就是说RDD中200分区Partition可以设置在:配置文件:conf/
spark
-defaults.conf:
spark
.sql.shuffle.partitions100
飞Link
·
2024-01-03 02:29
大数据
大数据
spark
数据仓库
Spark
SQL的3种Join实现
Spark
SQL的3种Join实现引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。
章鱼哥TuNan&Z
·
2024-01-03 02:29
#
Spark
spark
shuffle流程入门
shuffle操作
Spark
中的某些操作会触发一个称为shuffle的事件。shuffle是
Spark
重新分发数据的机制,以便在分区之间以不同的方式分组。
鸭梨山大哎
·
2024-01-03 02:29
spark
spark
shuffle
[
spark
SQL] Shuffle
在
Spark
SQL中,Shuffle是指将数据重新分布到不同的节点上以进行处理的操作。
言之。
·
2024-01-03 02:58
spark
JVM老年代内存优化
参考:老年代持续增长,无法触发mixedgc的解决方案_java老年代一直增长-CSDN博客java老年代越来越大jvm老年代爆满_mob64ca13f63f2c的技术博客_51CTO博客【JVM
调优
】
jey_4
·
2024-01-03 00:51
jvm
Linux Page Cache
调优
在Kafka中的应用
本文首发于vivo互联网技术微信公众号链接:https://mp.weixin.qq.com/s/MaeXn-kmgLUah78brglFkg作者:YangYijun本文主要描述LinuxPageCache优化的背景、PageCache的基本概念、列举之前针对Kafka的IO性能瓶颈采取的一些解决方案、如何进行PageCache相关参数调整以及性能优化前后效果对比。一、优化背景当业务快速增长,每天
vivo互联网技术
·
2024-01-02 22:05
11-交叉验证与网格搜索对k-近邻算法
调优
交叉验证目的:为了让被评估的模型更加准确可信数据分类训练集和测试集,再将训练集分为训练和验证集。eg:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试(每次换一组作为验证集,将之前的验证当作之后的一个训练集),每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。从而,所有数据都即作为过训练集,也作为过验证集。交叉验证一般是和网格搜索一起使用的网格搜索也
jxvl假装
·
2024-01-02 21:33
地震去噪新探索(二)——无监督卷积神经网络
调优
实战
01屡败屡战的
调优
之旅卷积神经网络不是更能学习到特征细节,性能更好吗?为啥我做出来
科技州与数据州
·
2024-01-02 19:12
上一页
36
37
38
39
40
41
42
43
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他