E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark性能调优
基于
spark
的淘宝用户行为数据分析及其可视化研究
数据准备1、数据来源:淘宝用户购物行为数据集数据的相关介绍:数据的一条记录包括:用户id,商品id,商品类目id,行为类型(行为类型:pv——点击,buy——购买,cart——加入购物车,fav——收藏),时间戳数据包含了2017年11月25日至2017年12月3日之间淘宝用户的数据行为用户数量:987994商品数量:4162024用户数量:987994商品类目数量:9439所有行为数量:1001
简单的小呆瓜
·
2024-01-17 02:14
spark
spark
数据分析
大数据
基于
SPARK
的淘宝用户购物行为可视化分析
基于
SPARK
的淘宝用户购物行为可视化分析这篇文章旨在练习大数据
Spark
操作,做一些简单的分析。后续阶段将基于三台虚拟机情况下进行调优,以期实现性能最优化。
番茄薯仔
·
2024-01-17 02:14
spark
spark
大数据
hadoop
【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、
Spark
计算机程序开发
注意:该项目只展示部分功能,如需了解,评论区咨询即可。本文目录1设计背景2设计意义3系统展示3.1页面展示3.2视频展示4更多推荐5部分功能代码1设计背景在当今数字化时代,电商行业成为全球商业生态系统的关键组成部分,电商平台已经深入各行各业,影响了人们的购物方式和消费习惯。随着互联网技术的不断发展,电商平台产生了大量的用户数据,包括点击、购买、搜索、浏览历史等行为数据。这些数据蕴含着宝贵的商业洞察
Q2643365023
·
2024-01-17 02:43
项目
大数据
hadoop
大数据
hive
大数据实战(hadoop+
spark
+python):淘宝电商数据分析
一,运行环境与所需资源:虚拟机:Ubuntu20.04.6LTSdocker容器hadoop-3.3.4
spark
-3.3.2-bin-hadoop3python,py
spark
,pandas,matplotlibmysql
linpaomian
·
2024-01-17 02:13
大数据
hadoop
spark
docker
数据分析
spark
Failed to get main class in JAR with error null . Please specify one with --class.
运行
spark
-submit命令示例bin/
spark
-submit\--classorg.apache.
spark
.examples.
Spark
Pi\--masteryarn\--deploy-modecluster
linpaomian
·
2024-01-17 02:13
spark
大数据
scala
HBase集群写入出现大量毛刺排查
大家好,我是K&D,一名10年以上大数据架构&研发经验从业者,目前主要从事云原生大数据方向设计,擅长云原生技术、数据架构、数据平台构建、大数据组件
性能调优
问题现象查看监控,业务请求量正常,但是server
KubeData
·
2024-01-17 02:12
大数据技术
大数据
架构
hbase
一文了解数据库vs数据仓库vs数据湖
大家好,我是K&D,一名10年以上大数据架构&研发经验从业者,目前主要从事云原生大数据方向设计,擅长云原生技术、数据架构、数据平台构建、大数据组件
性能调优
以下是本文目录:什么是数据库?
KubeData
·
2024-01-17 02:11
云原生大数据
大数据技术
数据库
数据仓库
大数据
数据库架构
程序员如何构建自己的「护城河」
大家好,我是K&D,一名10年以上大数据架构&研发经验从业者,目前主要从事云原生大数据方向设计,擅长云原生技术、数据架构、数据平台构建、大数据组件
性能调优
关注我,持续分享更多技术干货0.何为「护城河」前段时间
KubeData
·
2024-01-17 02:41
个人成长
职场和发展
一文搞懂Go语言单元测试
基准测试函数需要注意的点(2)基准测试代码2.组测试与子测试(1).组测试结果分析及命令:(2).子测试结果分析及命令:三、pprof调试工具1.对主函数进行传参(1)os.Args(2)flag.Args2.pprof
性能调优
总结
酷尔。
·
2024-01-17 01:30
Go语言从入门到精通
单元测试
golang
开发语言
深入理解Nginx:网络性能的极致优化
目录引言Nginx的基本架构配置文件解析静态内容的处理反向代理和负载均衡SSL/TLS与HTTP/2支持动态内容的处理高级特性和模块
性能调优
Nginx与云计算和容器化安全性结论参考资源引言介绍Nginx
白嫖一茶
·
2024-01-17 00:15
运维服务
nginx
网络
运维
Spark
Core源码精读计划#25:UnifiedMemoryManager——统一内存管理机制
借用存储内存申请/借用执行内存总结前言在前文的末尾,我们分析了静态内存管理器StaticMemoryManager的优缺点,并指出统一内存管理器UnifiedMemoryManager能够弥补它的缺点,同时也是目前
Spark
LittleMagic
·
2024-01-16 23:51
Spark
详解
Spark
概念
Spark
提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。
武昌库里写JAVA
·
2024-01-16 21:15
高手面试
spark
大数据
分布式
IDEA-scala:java.lang.NoClassDefFoundError:org / apache / commons / csv / CSVFormat and Static met...
在IDEA构建了一个
spark
+smile的maven项目,用起来还是有各种bug。
bensonrachel
·
2024-01-16 21:08
Hudi0.14.0最新编译(修订版)
1编译环境Java1.8maven3.9.3hadoop3.3.4hive3.1.3
spark
3.2.1flink1.16.0hudi0.14.02hudi准备2.1源码$gitclonehttps:/
跟着大数据和AI去旅行
·
2024-01-16 20:40
大数据企业级实战
hudi
【js】
spark
-md5来计算文件的MD5值
在React中,可以使用开源的JavaScript库
spark
-md5来计算文件的MD5值。该库可以在浏览器中计算文件的MD5值,而不需要上传文件到服务器。
bulucc
·
2024-01-16 19:21
前端
javascript
开发语言
结构化流的介绍
目录有界数据和无界数据有界数据无界数据结构化流基本介绍入门案例结构化流的编程模型数据结构数据源(Source)FileSourceKafkaSource(
Spark
和Kafka整合)整合Kafka准备工作从
Sisi525693
·
2024-01-16 19:58
python
大数据
spark
kafka
结构化流
大数据学习入门到实战教程,精心整理万字长文入门,老奶奶看了都说学会了
换个角度说,大数据是:1、有海量的数据2、有对海量数据进行挖掘的需求3、有对海量数据进行挖掘的软件工具(hadoop、
spark
、storm、flink、tez
悦悦学Python
·
2024-01-16 18:10
10.从架构师角度理解MySQL性能优化和索引合并
MySQL
性能调优
1.查询性能优化1.1什么是慢查询1.2慢查询的配置1.3慢查询解读分析1.3.1日志模式1.3.2慢查询分析mysqldumpshow1.4优化SQL查询方法论1.4.1业务层--请求了不需要的数据
俺就是菜得很
·
2024-01-16 17:48
性能调优MySQL
mysql
性能优化
数据库
hive:创建自定义python UDF
addfilehdfs://home/user/py3_script/;set
spark
.yarn.dist.archives=hdfs://home/user/py3.tar.gz;set
spark
.shuffle.hdfs.enabled
青盏
·
2024-01-16 16:35
other
hive
hadoop
数据仓库
Spark
-RDD算子大全
Spark
RDD(弹性分布式数据集)是
Spark
中的核心抽象,它代表一个不可变、分区的分布式数据集合。
Young_IT
·
2024-01-16 15:17
大数据开发
spark
大数据
分布式
78、
Spark
SQL之延伸知识之Hive On
Spark
Spark
SQL与HiveOn
Spark
区别Hive是目前大数据领域,事实上的SQL标准。
ZFH__ZJ
·
2024-01-16 15:10
记录学习
Spark
+Kafka构建实时分析Dashboard案例中遇到的问题(一)安装
目录推荐环境系统和软件安装安装Ubuntu分辨率问题虚拟机桥接模式连不上网Hadoop安装Ubuntu16.04下用aria2下载百度网盘大文件其他在安装hadoop时遇到的问题hadoop用法小结单机模式伪分布式
Spark
白令屿
·
2024-01-16 13:53
大数据处理
spark
kafka
python
大数据
最佳实践分享:SQL
性能调优
SQL
性能调优
是一个需要不断探索和实践的过程,旨在确保数据库查询的高效运行。本文将分享一些SQL
性能调优
的最佳实践,帮助您提升数据库性能,减少查询响应时间。一、索引优化索引是提高查询性能的关键。
白日梦批发商
·
2024-01-16 13:33
sql
oracle
数据库
Python 与 Py
Spark
数据分析实战指南:解锁数据洞见
Python和Py
Spark
作为强大的工具,提供了丰富的库和功能,使得数据分析变得更加高效和灵活。在这篇文章中,我们将深入探讨如何使用Python和Py
Spark
进行数据分析,包
库库的里昂
·
2024-01-16 12:27
杂谈
人工智能
chatgpt
信息可视化
开发语言
数据挖掘
Spark
r
https://
spark
.rstudio.com/index.html如何使用
spark
在上述这个链接有详细文档。下一个问题,如搭建一个
spark
平台!
Liam_ml
·
2024-01-16 12:57
最新智能AI系统ChatGPT网站程序源码+详细图文搭建部署教程,Midjourney绘画,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-16 09:57
人工智能
软件源码
程序源码
人工智能
chatgpt
语音识别
midjourney
AI作画
【JVM】
性能调优
一、前言
性能调优
,顾名思义,就是对系统或软件的性能进行优化,以提高其运行效率和响应速度。在计算机科学中,
性能调优
通常涉及到硬件、操作系统、数据库、网络等多个方面。
hope笔记
·
2024-01-16 08:57
JVM
Java
jvm
java
【Flink-1.17-教程】-【一】Flink概述、Flink快速入门
【Flink-1.17-教程】-【一】Flink概述、Flink快速入门1)Flink是什么1.1.有界流和无界流1.2.Flink的发展史2)Flink特点3)Flinkvs
Spark
Streaming4
bmyyyyyy
·
2024-01-16 08:16
Flink
flink
java
大数据
#flink概述
#flink快速入门
#wordcount
MongoDB系统
性能调优
(持续更新)
cache_size指定WT存储引擎内部cache的内存用量上限。需要注意的是,仅作用于WiredTigercache,而非mongod进程的内存用量上限。MongoDB同时使用WTcache和文件系统cache,往往mongod进程的内存用量高于该值。cache_size相对于物理内存总量不要设置的太满,需要留有一定内存为操作系统所用,否则有OOM潜在风险。默认情况下,cache_used超过8
豆奶快攻
·
2024-01-16 07:30
MongoDB
数据库
运维
mongodb
数据库
Spark
Structured Streaming + Kafka +Json
org.apache.
spark
spark
-sql-kafka-0-10_2.11 2.1.1 org.apache.
spark
spark
-sql_2.11 2.1.1importorg.apache.
spark
.sql.
Spark
SessionobjectMyTest
zhangxl-jc
·
2024-01-16 07:00
kafka
spark
spark
kafka
json
StructStreaming整合Kafka操作
StructStreaming整合Kafka操作Maven依赖org.apache.
spark
spark
-sql-kafka-0-10_2.123.3.1实时数据ETL准备数据/***模拟产生基站日志数据
健鑫.
·
2024-01-16 07:29
spark
kafka
scala
spark
Spark
SQL和Hive语法差异
Spark
SQL和Hive语法差异1、仅支持Hive
Spark
SQL关联条件on不支持函数rand()创建零时表时,
Spark
不支持直接赋值null
Spark
无法读取字段类型为void的表
Spark
SQL
中长跑路上crush
·
2024-01-16 07:28
Spark阶段
hive
hadoop
数据仓库
spark
分布式
Structured Streaming 整合 Kafka指南
从kafka读取数据//Subscribeto1topicvaldf=
spark
.readStream.format("kafka").option("kafka.bootstrap.servers",
鸭梨山大哎
·
2024-01-16 07:27
kafka
kafka
Py
Spark
Structured Streaming kafka示例
Py
Spark
StructuredStreamingkafka示例直接上代码:#!
张行之
·
2024-01-16 07:52
大数据
pyspark
structured
streaming
kafka
python
Structured Streaming配置Kafka参数
overridedefstream():DataFrame={valkafkaConf=newKafkaConfigurationval
spark
=Gx
Spark
Session().session()valdf
sunyang098
·
2024-01-16 07:18
spark
spark
streaming
kafka
配置
Structured_Streaming和Kafka整合
结构化编程模型输出终端/位置默认情况下,
Spark
的结构化流支持多种输出方案:1-consolesink:将结果数据输出到控制台。
小希 fighting
·
2024-01-16 06:14
kafka
分布式
spark
大数据
seatunnel 消费kafka数据写入clickhouse
SeaTunnel是一个非常易用、高性能、支持实时流式和离线批处理的海量数据集成平台,架构于Apache
Spark
和ApacheFlink之上,支持海量数据的实时同步与转换。
冰帆<
·
2024-01-16 05:41
seatunel
大数据
大数据
大数据技术原理与应用 第三版 林子雨 期末复习(五) 第十章
SPARK
大数据技术原理与应用第三版林子雨期末复习(五)第十章
SPARK
简介
spark
特点
spark
与Hadoop对比Hadoop缺点
spark
优点RDDRDD概念RDD间存在依赖关系分为宽依赖与窄依赖RDD的两种常用操作简介
头发多多,肆意生长
·
2024-01-16 05:22
大数据技术
spark
big
data
hadoop
Spark
- 资源动态释放
>通过
spark
-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,yarn新版本默认已经支持了,我们使用的是HDP。##版本如下!
kikiki4
·
2024-01-16 03:58
Spark
MLlib ----- ALS算法
补充在谈ALS(AlternatingLeastSquares)之前首先来谈谈LS,即最小二乘法。LS算法是ALS的基础,是一种数优化技术,也是一种常用的机器学习算法,他通过最小化误差平方和寻找数据的最佳匹配,利用最小二乘法寻找最优的未知数据,保证求的数据与已知的数据误差最小。LS也被用于拟合曲线,比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y
创作者mateo
·
2024-01-16 02:54
spark
spark
MLlib
ALS
spark-ml
算法
ClickHouse - 01
与其特性在大数据处理场景中,流处理和批处理使用到的技术大致如下:大数据处理场景流程.png批处理会将源业务系统中的数据通过数据抽取工具(例如Sqoop)将数据抽取到HDFS中,这个过程可以使用MapReduce、
Spark
ArthurHC
·
2024-01-16 02:17
Python语法进阶学习--进程和线程
后续很快就要进入
Spark
的学习,在学习之前也是要铺垫一个知识点:进程是什么?线程是什么?两者有什么区别?又有什么关系?
Yan_bigdata
·
2024-01-15 23:34
python
学习
开发语言
并发和并行
进程和线程
互斥锁
守护进程
JVM
性能调优
工具
JVM
性能调优
工具1什么是
性能调优
性能调优
就是对计算机硬件、操作系统和应用有相当深入的了解,调节三者之间的关系,实现整个系统(包括硬件、操作系统、应用)的性能最大化,并能不断的满足现有的业务需求。
efzy
·
2024-01-15 20:10
工具
jvm
java
spring
【
Spark
】
Spark
原理简述
发现一篇很好的文章,适合对
Spark
有一定了解的小伙伴阅读主要介绍下自己在学习
spark
当中的一些理解和学习过程中踩到的坑,对
spark
时间效率优化的点做个总结,各位大佬轻拍。
turboSniper
·
2024-01-15 14:57
大数据
spark
大数据
分布式
streaming 101
看之前就知道这是两篇能够提升你对流处理理解的文章,不是一般的提升,可以说是一种升华,因为他谈的不是一个具体的工具(
spark
streaming,flink等),而是谈流处理应该是怎么样的,流处理要打败批处理一统天下的话需要有什么特性
Bitson
·
2024-01-15 12:31
Spark
原理——Shuffle 过程
Shuffle过程Shuffle过程的组件结构从整体视角上来看,Shuffle发生在两个Stage之间,一个Stage把数据计算好,整理好,等待另外一个Stage来拉取放大视角,会发现,其实Shuffle发生在Task之间,一个Task把数据整理好,等待Reducer端的Task来拉取如果更细化一下,Task之间如何进行数据拷贝的呢?其实就是一方Task把文件生成好,然后另一方Task来拉取现在是
我像影子一样
·
2024-01-15 09:47
Spark
大数据
spark
大数据
Spark
高级特性 (难)
Spark
高级特性(难)闭包/**编写一个高阶函数,在这个函数要有一个变量,返回一个函数,通过这个变量完成一个计算**/@Testdeftest():Unit={//valf:Int=>Double=closure
我像影子一样
·
2024-01-15 09:11
Spark
大数据
spark
大数据
【MySQL】mysql集群
这些日志对于故障排除、
性能调优
、备份恢复以及复制等方面都非常重要。查看mysql中与日志相关的系统变量的配置
星河万里᭄ꦿ࿐
·
2024-01-15 07:30
MySQL
mysql
数据库
运维
spark
Streaming 连接kafka的方式
spark
Streaming消费kafak有两种方式1:receiver方式2:direct方式receiver方式:1:
spark
Streaming将kafka之中的数据读取到
spark
内存之中,然后对
流砂月歌
·
2024-01-15 06:59
大数据问答汇总
Apache
Spark
有哪些常见的稳定版本,
Spark
1.6.0的数字分别代表什么意思?
Sql强
·
2024-01-15 03:28
上一页
17
18
19
20
21
22
23
24
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他