E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark性能调优
解锁Redis Stream新境界:高级用法大揭秘【二】
欢迎来到我的博客,代码的世界里,每一行都是一个故事解锁RedisStream新境界:高级用法大揭秘前言Stream基础回顾ConsumerGroups消息过滤技巧延迟队列的实现持久化与备份分区与多节点支持流的优化和
性能调优
结语前言在
一只牛博
·
2023-12-23 12:02
#
redis
redis
数据库
缓存
Spark
Shell的简单使用
简介
Spark
shell是一个特别适合快速开发
Spark
原型程序的工具,可以帮助我们熟悉Scala语言。即使你对Scala不熟悉,仍然可以使用这个工具。
necessary653
·
2023-12-23 11:12
spark
大数据
分布式
Spark
Machine Learning进行数据挖掘的简单应用(兴趣预测问题)
数据挖掘的过程数据挖掘任务主要分为以下六个步骤:1.数据预处理2.特征转换3.特征选择4.训练模型5.模型预测6.评估预测结果数据准备这里准备了20条关于不同地区、不同性别、不同身高、体重…的人的兴趣数据集(命名为hobby.csv):id,hobby,sex,address,age,height,weight1,football,male,dalian,12,168,552,pingpang,f
冲鸭嘟嘟可
·
2023-12-23 10:28
spark
机器学习
数据挖掘
4. Mysql索引优化实战一
MySQL
性能调优
1.示例表`举一个大家不容易理解的综合例子`2.Mysql如何选择合适的索引3.常见sql深入优化3.1Orderby与Groupby优化`3.2优化总结:`3.3Usingfilesort
俺就是菜得很
·
2023-12-23 10:09
性能调优MySQL
mysql
数据库
java
Cassandra 配置详解
文章目录HintsBatchlog请求调度属性ThriftKey缓存与全局属性计数器缓存
性能调优
CommitLogCompactionMemtable缓存与索引磁盘设置网络超时设置节点间的设置本地传输(
开发实习生
·
2023-12-23 09:17
大数据运维监控
大数据技术栈
cassandra
多臂老虎机算法步骤
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据Py
Spark
数据科学知识库
·
2023-12-23 08:57
算法
多臂老虎机
MAB
Apache Flink 进阶教程(七):网络流控及反压剖析
目录前言网络流控的概念与背景为什么需要网络流控网络流控的实现:静态限速网络流控的实现:动态反馈/自动反压案例一:Storm反压实现案例二:
Spark
Streaming反压实现疑问:为什么Flink(beforeV1.5
话数Science
·
2023-12-23 08:10
Flink
大数据
flink
大数据
Spark
Streaming学习记录
版本:
Spark
2.4.01.Overview
Spark
ingStreaming是对
Spark
API的一种扩展,用于处理实时数据流。
Jorvi
·
2023-12-23 08:49
CVE-2023-49898 Apache incubator-streampark 远程命令执行漏洞
项目介绍ApacheFlink和Apache
Spark
被广泛用作下一代大数据流计算引擎。基于大量优秀经验结合最佳实践,我们将任务部署和运行时参数提取到配置文件中。
棱镜七彩
·
2023-12-23 07:51
apache
PID算法
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据Py
Spark
数据科学知识库
·
2023-12-23 07:21
算法
【hadoop|报错】Cannot modify tez.queue.name at runtime. It is not in list of params that are allowed ...
*|
spark
.*|tez*hive.security.authorization.sqlstd.confwhitelist.appe
维运
·
2023-12-23 06:10
大数据Hadoop
hadoop
大数据
分布式
真正解决
spark
local模式的日志级别输出问题
真正解决
spark
local模式的日志级别输出问题在IDEA中开发
Spark
程序,程序一执行密密麻麻的Info日志一大堆,这让人很恶心,如下图:image很早以前就解决过一次,不过谷歌百度都没有真正的解决这个问题
小狼星I
·
2023-12-23 05:14
【
Spark
源码分析】
Spark
的RPC通信二-初稿
Spark
的RPC通信二-初稿
Spark
RPC的传输层传输层主要还是借助netty框架进行实现。
顧棟
·
2023-12-23 05:25
spark
rpc
【
Spark
源码分析】
Spark
的RPC通信一-初稿
Spark
的RPC通信一-初稿文章目录
Spark
的RPC通信一-初稿
Spark
的RPC顶层设计核心类`NettyRpcEnv`核心类`RpcEndpoint`核心类`RpcEndpointRef`
Spark
RPC
顧棟
·
2023-12-23 05:53
Spark
spark
rpc
Py
Spark
日志治理方法
无论是Py
Spark
程序、还是Scala编写的
Spark
程序,对于运行中的日志写入与查看的现状都是类似的,大体有两点痛点:1.特别是一直在线运行的Streaming项目,通过print打印的日志直接进入了
AGERA_0429
·
2023-12-23 03:37
毕业设计项目:基于Django2.2+MySQL+
spark
的在线电影智能推荐系统的设计与实现
项目源码地址:https://download.csdn.net/download/lijunhcn/88463157本项目实现在线电影推荐系统的前后端开发,使用Django2.2+MySQL+
spark
辣椒种子
·
2023-12-23 02:44
计算机课程毕设源码
课程设计
mysql
spark
Spark
(二十二)Shuffle调优之调节Map端内存缓冲与Reduce端内存占比
一、背景
spark
.shuffle.file.buffer,默认32k
spark
.shuffle.memoryFraction,0.2Map端内存缓冲,Reduce端内存占比;很多资料、网上视频,都会说
文子轩
·
2023-12-22 17:57
Learning
Spark
——client mode和cluster mode的区别
在使用
spark
-submit提交
Spark
任务一般有以下参数:./bin/
spark
-submit\--class\--master\--deploy-mode\--conf=\...
达微
·
2023-12-22 16:48
Spark
性能优化:资源分配
性能调优
的王道是分配更多的资源,当目前资源够用的情况下,分配的资源越充分,在性能和速度上的提升越明显。当资源无法分配更多时候才会去考虑后续的一些调优手段。一,分配的资源有哪些?
stone_zhu
·
2023-12-22 16:00
Spark
中使用scala完成数据抽取任务 -- 总结
如题任务二:离线数据处理,校赛题目需要使用
spark
框架将mysql数据库中ds_db01数据库的user_info表的内容抽取到Hive库的user_info表中,并且添加一个字段设置字段的格式第二个任务和第一个的内容几乎一样
冲鸭嘟嘟可
·
2023-12-22 12:23
spark
scala
大数据
工具系列:PyCaret介绍_Fugue 集成_
Spark
、Dask分布式训练
工具系列:PyCaret介绍_Fugue集成_
Spark
、Dask分布式训练Fugue是一个低代码的统一接口,用于不同的计算框架,如
Spark
、Dask。
愤斗的橘子
·
2023-12-22 12:22
数据挖掘
分布式
大数据
数据挖掘
[
Spark
] 读取项目下resources/的文件
背景这个
spark
程序要读取项目下的一些文件,当我把这个项目打成jar包后,
spark
-submit到集群后执行将文件作为资源文件打包到JAR中可以通过Maven或sbt这样的构建工具完成。
言之。
·
2023-12-22 12:22
spark
大数据
分布式
Spark
系列之:使用
spark
合并hive数据库多个分区的数据到一个分区中
Spark
系列之:使用
spark
合并hive数据库多个分区的数据到一个分区中把两个分区的数据合并到同一个分区下把其中一个分区的数据通过append方式添加到另一个分区即可%
spark
valdf=
spark
.sql
最笨的羊羊
·
2023-12-22 11:37
大数据
Spark系列
合并hive数据库
多个分区的数据到一个分区中
SQL---数据抽样
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据Py
Spark
数据科学知识库
·
2023-12-22 11:01
大数据
SQL
sql
数据库
抽样
RAND
Pulsar详解6—Pulsar的
性能调优
(示例:Go语言)
Pulsar详解-索引目录一、Broker优化1、Broker优化1.1内存管理通过优化内存管理,可以提高PulsarBroker的性能和稳定性。1.JVM堆内存设置PulsarBroker是基于Java开发的,因此可以通过调整JVM的堆内存来优化性能。主要的JVM堆内存参数有:-Xms:初始堆大小-Xmx:最大堆大小示例:在启动PulsarBroker时,可以通过以下命令设置初始堆大小为4GB,
风不归Alkaid
·
2023-12-22 10:48
Pulsar
golang
开发语言
后端
中间件
Apache
Spark
的基本概念和在大数据分析中的应用。
个人主页:SHOW科技,公众号:SHOW科技♂️作者简介:2020参加工作,专注于前端各领域技术,共同学习共同进步,一起加油呀!优质专栏:前端主流技术分享资料领取:前端进阶资料可以找我免费领取摸鱼学习交流:我们的宗旨是在「工作中摸鱼,摸鱼中进步」,期待大佬一起来摸鱼!————————————————版权声明:本文为CSDN博主「SHOW科技」的原创文章,遵循CC4.0BY-SA版权协议,转载请附
SHOW科技
·
2023-12-22 10:41
spark
数据分析
大数据
Spark
SQL 教程
一、什么是
Spark
SQL
Spark
SQL是
Spark
用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。
数据萌新
·
2023-12-22 10:06
最新国内AI绘画Midjourney绘画提示词Prompt分享
一、Midjourney绘画工具
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-22 08:17
人工智能
AIGC
教程
AI作画
midjourney
prompt
centos
spark
单机版伪分布式模式
Spark
的部署方式包括Standalone、YARN、Mesos,在我们学习
Spark
编程的过程中,往往机器资源有限,于是可以采用伪分布式部署。
数据萌新
·
2023-12-22 07:17
spark
-thrift-server 报错 Wrong FS
文章目录@[toc]具体报错实际原因查看hive元数据修改
spark
-thrift-server配置修改hive元数据具体报错
spark
-thrift-server执行删表语句,出现如下报错Error:
月巴左耳东
·
2023-12-22 07:47
bigdata
spark
大数据
hive报metadata.HiveException: Hive Runtime Error while processing row (tag=0)错误
个人觉得报出这样的异常是由于
spark
sql转化成物理计划时会
weixin_42412645
·
2023-12-22 07:45
hive
hive
tag=0
org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create
Spark
client for
Spark
session
问题描述Logginginitializedusingconfigurationinjar:file:/opt/module/hive/lib/hive-common-3.1.2.jar!/hive-log4j2.propertiesAsync:trueHiveSessionID=0c953008-3c72-4e36-bcaf-47e92a5b9759FAILED:SemanticExceptio
qq_41504585
·
2023-12-22 07:13
大数据分享
hive
Spark
在云原生时代的发展
在这个云原生的时代拥抱云变成了不二之选,那么对于
Spark
[1]来说它是如何在云原生时代积极拥抱云的呢?背景1
Apache Spark中国社区
·
2023-12-22 07:18
SQL---Zeppeline前驱记录与后驱记录查询
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据Py
Spark
数据科学知识库
·
2023-12-22 07:17
大数据
SQL
sql
数据库
presto
zeppeline
spark
广播变量,累加器和
Spark
Shuffle
文章目录广播变量累加器
Spark
shuffle
spark
shuffle演进的历史1、未经优化的HashShuffleManager2、优化后的HashShuffleManager3、SortShuffle4
落幕7
·
2023-12-22 07:16
#
spark
spark累加器
spark广播变量
spark
shuffle
LAS
Spark
+云原生:数据分析全新解决方案
文章主要介绍了火山引擎湖仓一体分析服务LAS(下文以LAS指代)基于
Spark
的云原生湖仓分析实践,利用Spar
字节数据平台
·
2023-12-22 07:15
云原生
数据分析
大数据
数据库
火山引擎
字节跳动
Spark
Shuffle 大规模云原生化演进实践
Spark
是字节跳动内部使用广泛的计算引擎,已广泛应用于各种大规模数据处理、机器学习和大数据场景。目前中国区域内每天的任务数已经超过150万,每天的Shuffle读写数据量超过500PB。
字节跳动云原生计算
·
2023-12-22 07:09
spark
云原生
大数据
深度学习库 SynapseML for .NET 发布0.1 版本
2021年11月微软开源一款简单的、多语言的、大规模并行的机器学习库SynapseML(以前称为MML
Spark
),以帮助开发人员简化机器学习管道的创建。
dotNET跨平台
·
2023-12-22 06:08
c#
python
java
深度学习
人工智能
Spark
的stage源码解析
https://zhuanlan.zhihu.com/p/535000671?utm_id=0stage创建划分的过程就是一个深度优先遍历rdd依赖树的过程,通过不断的循环递归形式,最早的stage被首先创建出来。然后顺序创建后续stage,stage创建完毕后会注册stage到shuffleToMapStage,这是一个map,key为shuffleId,value为stage。每一个stage
Logan_addoil
·
2023-12-22 05:19
大数据学习之旅
spark
大数据
分布式
MapReduce 的 shuffle 与
spark
的 shuffle 有什么区别?
MapReduce的shuffle在Map端的shuffle过程是对Map的结果进行分区、排序、分割,然后将属于同一划分(分区)的输出合并在一起并写在磁盘上,最终得到一个分区有序的文件。主要是:Partition、Collector、Sort、Spill、Merge几个阶段。在Reduce端,shuffle主要分为复制Map输出、排序合并两个阶段。主要是:Copy、Merge、Reduce几个阶段
Logan_addoil
·
2023-12-22 05:18
大数据学习之旅
mapreduce
spark
大数据
JVM(二)---JVM调优
1.利用工具分析JVM运行情况要想合理地分配内存、优化GC,通过前一篇的
性能调优
过程可以发现,我们至少需要知道如下的一些信息:新生代对象增长的速率,YoungGC的触发频率,YoungGC的耗时,每次YoungGC
兢兢业业的子牙
·
2023-12-22 05:33
面试突进
JVM
JVM中
性能调优
工具功能详解(下)--jmap、jinfo、jstack、jcmd
JVM中
性能调优
工具功能详解(下)文章目录JVM中
性能调优
工具功能详解(下)前言一、jmap二、jinfo三、jstack四、jcmd前言前面介绍了jps、jstat命令,下面面我们将继续介绍jmap、
林罔顾
·
2023-12-22 05:30
深入jvm
java
jvm
linux
JVM
性能调优
监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解
现实企业级Java应用开发、维护中,有时候我们会碰到下面这些问题:OutOfMemoryError,内存不足内存泄露线程死锁锁争用(LockContention)Java进程消耗CPU过高......这些问题在日常开发、维护中可能被很多人忽视(比如有的人遇到上面的问题只是重启服务器或者调大内存,而不会深究问题根源),但能够理解并解决这些问题是Java程序员进阶的必备要求。本文将对一些常用的JVM性
石猴M
·
2023-12-22 05:30
jvm
Iceberg基于
Spark
MergeInto语法实现数据的增量写入
SPARK
SQL基本语法示例SQL如下MERGEINTOtarget_tabletUSINGsource_tablesONs.id=t.id//这里是JOIN的关联条件WHENMATCHEDANDs.opType
Dreammmming Time
·
2023-12-22 04:31
数据湖
数据存储
spark
3.3
iceberg
1.0.x
MERGE
INTO
UPSERT
JVM知识总结,一定要记住它。
1、知识点汇总JVM是Java运行基础,面试时一定会遇到JVM的有关问题,内容相对集中,但对只是深度要求较高其中内存模型,类加载机制,GC是重点方面.
性能调优
部分更偏向应用,重点突出实践能力.编译器优化和执行模式部分偏向于理论基础
小小码农>>>>
·
2023-12-22 03:09
Java面试题
jvm
Elasticsearch
性能调优
基础知识
ElasticStack已成为监控任何环境或应用程序的实际解决方案。从日志、指标和正常运行时间到性能监控甚至安全,ElasticStack已成为满足几乎所有监控需求的一体化解决方案。Elasticsearch通过提供强大的分析引擎来处理任何类型的数据,成为这方面的基石。Elasticsearch旨在处理TB级的数据。然而,这并不意味着Elasticsearch或ELK可以开箱即用地完美处理任何工作
Elastic 中国社区官方博客
·
2023-12-22 02:32
Elasticsearch
Elastic
elasticsearch
大数据
搜索引擎
人工智能
全文检索
数据库
spark
架构
一、基本概念RDD(ResilientDistributedDatasets):弹性分布式数据集,只读分区记录的集合,
Spark
对所处理数据的基本抽象。RDD是
Spark
分发数据和计算的基础抽象类。
allin8116
·
2023-12-22 01:47
大数据处理与分析
掌握分布式并行编程框架MapReduce掌握基于内存的分布式计算框架
Spark
理解MapReduce的工作流程、
Spark
运行原理熟悉机器学习概念一.MapReduceHadoopMapReduce是一个软件框架
僖僖cc
·
2023-12-21 22:34
大数据
大数据处理与分析-
Spark
导论(基于Hadoop的MapReduce的优缺点)MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它将数据处理过程分为两个主要阶段:Map阶段和Reduce阶段。在Map阶段,数据被分割为多个小块,并由多个并行运行的Mapper进行处理。在Reduce阶段,Mapper的输出
僖僖cc
·
2023-12-21 22:03
spark
大数据
分布式
AI创作系统ChatGPT商业运营网站系统源码,支持AI绘画,GPT语音对话+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-21 21:48
人工智能
软件源码
ChatGPT
人工智能
chatgpt
语音识别
midjourney
AI作画
上一页
31
32
33
34
35
36
37
38
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他