E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark性能调优
CentOS服务器搭建Miniconda环境
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据Py
Spark
数据科学知识库
·
2023-12-18 11:34
Linux环境
安装教程
服务器
centos
linux
面试题---推荐系统
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据Py
Spark
数据科学知识库
·
2023-12-18 11:04
牛客面试题
推荐系统
面试题
推荐系统
推荐算法
数据科学
Spark
中广播变量和累加器
一、前述
Spark
中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。累机器相当于统筹大变量,常用于计数,统计。
printf200
·
2023-12-18 10:06
机器学习算法---时间序列
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据Py
Spark
数据科学知识库
·
2023-12-18 08:23
Python
机器学习
python
时间序列
机器学习
sklearn
ARIMA
机器学习算法---聚类
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据Py
Spark
数据科学知识库
·
2023-12-18 08:23
机器学习
Python
python
机器学习
聚类分析
sklearn
kmeans
DBSCAN
Cluster
py
spark
Exception: Java gateway process exited before sending its port number(2021年10月29日版)
前奏为了实现一个
spark
的客户端访问服务端的python访问,折腾了好几天,现在终于解决了,查了网上的很多人写的文章,都没解决,跟着他们说的改,也没解决问题。
明天,今天,此时
·
2023-12-18 07:05
安装
spark
pyspark
spark客户端
【
Spark
面试】
Spark
面试题&答案
目录1、
spark
的有几种部署模式,每种模式特点?(☆☆☆☆☆)2、
Spark
为什么比MapReduce块?(☆☆☆☆☆)3、简单说一下hadoop和
spark
的shuffle相同和差异?
话数Science
·
2023-12-18 06:52
面试
Spark
大数据
spark
面试
大数据
Hudi 在 vivo 湖仓一体的落地实践
一、Hudi基础能力及相关概念介绍1.1流批同源能力与Hive不同,Hudi数据在
Spark
/Flink写入后,下游可以继续使用
Spark
/Flink引擎以流读的形式实时读取数据。
vivo互联网技术
·
2023-12-18 03:15
数据湖
大数据计算与存储
效率提升
spark
_shuffle相关参数整理
1、
spark
.shuffle.file.buffer默认值:32k参数说明:该参数用于设置shufflewritetask的BufferedOutputStream的buffer缓冲大小。
耗子背刀PK猫
·
2023-12-18 02:23
spark
吸血鬼日记第1季第5集台词
,Ihavelivedinsecretuntilnow.一个多世纪以来我都秘密地活着IknowtheriskbutIhavetoknowher.我知道很冒险但我必须要认识她Howcouldyounot
spark
le
英美剧台词
·
2023-12-18 01:32
提交Application的两种方式
一.提交Application的两种方式分别是client方式和cluster方式1.client方式这种方式,Driver进程是在client端启动启动代码样例
spark
-submit--master
spark
0_9f3a
·
2023-12-17 23:54
备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2:离线数据处理
//www.mysql.com/软件名称版本ubuntu18.0464位Hadoop:hadoop-3.1.3.tar.gz3.1.3Jdk:jdk-8u212-linux-x64.tar.gz1.8
Spark
Stitch .
·
2023-12-17 22:18
我的大学笔记
MySQL
笔记
大数据
mysql
scala
Spark
基础入门
spark
基础入门环境搭建localstandlone
spark
ha
spark
code
spark
core
spark
sql
spark
streaming环境搭建准备工作创建安装目录mkdir/opt/softcd
李昊哲小课
·
2023-12-17 21:04
大数据
人工智能
数据分析
大数据
数据分析
机器学习
Spark
课程大纲
Spark
环境搭建Centos
Spark
单机版伪分布式模式
Spark
单机版intelij开发(maven)
Spark
完全分布式集群搭建
Spark
historyserver配置使用二种方法实现
Spark
计算
小猪Harry
·
2023-12-17 19:11
91、
Spark
Streaming之transform以及广告计费日志实时黑名单过滤案例实战
transform以及实时黑名单过滤案例实战transform操作,应用在DStream上时,可以用于执行任意的RDD到RDD的转换操作。它可以用于实现,DStreamAPI中所没有提供的操作。比如说,DStreamAPI中,并没有提供将一个DStream中的每个batch,与一个特定的RDD进行join的操作。但是我们自己就可以使用transform操作来实现该功能。DStream.join()
ZFH__ZJ
·
2023-12-17 19:31
Spark
SQL中coalesce()函数
在
Spark
SQL中,`coalesce()`函数用于从给定列中选择非空值。它接受一个或多个列作为参数,并返回第一个非空值。
小辉懂编程
·
2023-12-17 18:16
Spark
SQL
ajax
javascript
ecmascript
Spark
SQL 写入hive表 字段名称或者类型不一致
解决方案:valtargetTableSchemaArray=
spark
.catalog.listColumns(dbName,tableName).select("name","dataType","
团团饱饱
·
2023-12-17 17:12
大数据存储技术(3)—— HBase分布式数据库
)概念(二)特点(三)HBase架构二、HBase原理(一)读流程(二)写流程(三)数据flush过程(四)数据合并过程三、HBase安装与配置(一)解压并安装HBase(二)配置HBase(三)配置
Spark
Francek Chen
·
2023-12-17 17:44
Spark编程基础
大数据技术基础
分布式
hbase
数据库
大数据
Linux Ubuntu环境下使用docker构建
spark
运行环境(超级详细)
LinuxUbuntu环境下使用docker构建
spark
运行环境(超级详细)这篇文章深入研究了在LinuxUbuntu环境下使用Docker构建
Spark
运行环境的详细步骤。
星川皆无恙
·
2023-12-17 15:39
Linux
Spark
Docker
docker
spark
容器
云计算
大数据
hadoop
运维
流批一体神器 Flink 之 Flink State 架构原理解析
身为大数据工程师,你还在苦学
Spark
、Hadoop、Storm,却还没搞过Flink?醒醒吧!
zhisheng_blog
·
2023-12-17 14:32
分布式
大数据
编程语言
flink
hadoop
大规模异常滥用检测:基于局部敏感哈希算法——来自Uber Engineering的实践
为了解决我们和其他系统中的类似挑战,UberEngineering和Databricks共同向Apache
Spark
2.1开发了局部敏感哈希(LSH)。LSH是大规模
djph26741
·
2023-12-17 14:49
数据结构与算法
大数据
数据库
SQL SERVER性能优化综述 - TravyLee的专栏 - 博客频道 - CSDN.NET
我始终认为,一个系统的性能的提高,不单单是试运行或者维护阶段的
性能调优
的任务,也不单单是开发阶段的事情,而
weixin_33778778
·
2023-12-17 14:30
在 idea 中以 yarn-client 远程提交
Spark
作业
示例代码RemoteSubmitApp主类packagecom.clouderaimportorg.apache.kafka.clients.consumer.ConsumerConfigimportorg.apache.kafka.common.serialization.StringDeserializerimportorg.apache.log4j.Loggerimportorg.apach
lei_charles
·
2023-12-17 13:41
JVM
性能调优
及监控诊断工具 jps、jstack、jmap、jhat、jstat、hprof 使用详解
一.前言工欲善其事,必先利其器。在日常的企业级Java应用开发、维护中,我们可能会碰到下面这些问题:OutOfMemoryError,内存不足;内存泄露;线程死锁;锁争用(LockContention);Java进程消耗CPU过高等。那么如何快速找出问题根本原因及如何解决成了我们需要掌握的基本技能,而这种技能的掌握除了自身的经验之外,更重要的是能够熟练地使用各种工具。很多问题在日常开发、维护中可能
懒鸟一枚
·
2023-12-17 10:34
高并发
服务性能排查
jvm
Flink 简介
Flink简介#一、Flink简介#1.Flink发展这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的
Spark
,他们都有着各自专注的应用场景。
lz_matlab
·
2023-12-17 09:09
Flink
flink
大数据
图解
Spark
Graphx实现顶点关联邻接顶点的collectNeighbors函数原理
在用
Spark
graphx中,通过函数collectNeighbors便可以获取到源顶点邻接顶点的数据。下面以一个例子来说明,首先,先基于顶点集和边来创建一个Graph图。
朱季谦
·
2023-12-17 09:31
大数据
spark
数据库
大数据
Spark
sql 写分区表,设置format报错
spark
sqldataset写入表的时候,我写的是一个用ymd分区的表,我想设置输出格式format("hive"),然后报错了代码如下ds.write().partitionBy(partitionsStr
南修子
·
2023-12-17 07:25
JVM
性能调优
及监控诊断工具 jps、jstack、jmap、jhat、jstat、hprof 使用详解
目录一.前言二.jps(JavaVirtualMachineProcessStatusTool)三.jstack四.jmap(MemoryMap)和jhat(JavaHeapAnalysisTool)五.jstat(JVM统计监测工具)六.hprof(Heap/CPUProfilingTool)七.总结一.前言工欲善其事,必先利其器。在日常的企业级Java应用开发、维护中,我们可能会碰到下面这些问
流华追梦^_^
·
2023-12-17 07:33
Java
性能调优
监控诊断
jps
jstack
jmap
jstat
hprof
Hadoop,Hive和
Spark
大数据框架的联系和区别
Hadoop,Hive和
Spark
是大数据相关工作中最常用的三种框架。1Hadoophadoop是一个分布式计算框架,是大数据处理的基石,大多其他框架都是以hadoop为基础。
Weiyaner
·
2023-12-17 06:00
数据库
大数据
hadoop
mapreduce
spark
Win10下安装大数据开发环境
spark
+hadoop+hive(实测可用)
Win10下安装大数据开发环境
spark
+hadoop+hive(实测可用)基础环境安装
spark
安装Hadoop安装hive安装总结参考博客基础环境安装首先,我们需要搭建软件的运行环境,本文中所使用的软件均需要运行在
YannAdams
·
2023-12-17 06:30
Spark
Hadoop
Hive
大数据环境
Windows
spark
hadoop
hive
大数据生态中‘Hadoop’、‘Hive’、‘
Spark
’、‘Mapreduce’、‘HDFS’、‘Yarn’是什么关系
以上都是大数据相关的系统和技术,大数据又属于数据管理系统的范畴数据管理系统无非就两个问题:1.数据怎么存2.数据怎么算再进入信息爆炸时代后,数据的容量越来越大,导致一台服务器存不下,所以要用集群来存储、处理信息,但是管理一台服务器容易,怎么去统一管理集群的信息成了问题。所以用到了Hadoop生态来管理信息。Hadoop生态中HDFS:处理存储,管理信息的分布式存储、提供接口,让用户感觉集群中的信息
小书生啊
·
2023-12-17 06:29
大数据
hadoop
hive
大数据 | Hadoop、Hive、
Spark
的关系
文章总括图数据存储单机数据库时代所有数据在单机都能存的下,数据处理的任务都是IO密集型,更谈不上分布式系统一个典型的2U服务器可以插6块硬盘,每块硬盘4T,共24T原始容量,再加上一些数据包的可用冗余,再加上一些格式化的损失,保守估计一台服务器至少可以有10T以上的可用容量,再加上128G内存和两颗CPU,装入DBMS,稍微调优,单表处理10e条数据问题不大多机数据库时代当数据量变多时,单台机器无
xyzhang2018
·
2023-12-17 06:58
数据库
hadoop
大数据
spark
[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和
Spark
:Java大师的大数据研究之旅
在这个充满机遇和挑战的领域中,我深入研究了Hadoop、HDFS、Hive和
Spark
等关键技术。本篇博客将从"是什么"、"为什么"和"怎么办"三个角度,系统地介绍这些技术。文章目录是什么?
程序员三木
·
2023-12-17 06:55
AI
大数据
hadoop
AIGC
Spark
报错处理系列之:Caused by: java.lang.StackOverflowError
Spark
报错处理系列之:Causedby:java.lang.StackOverflowError一、完整报错二、错误原因三、解决方法一、完整报错INFOApplicationMaster:UnregisteringApplicationMasterwithFAILED
最笨的羊羊
·
2023-12-17 06:38
大数据
spark
java
ajax
Spark
-Streaming+HDFS+Hive实战
文章目录前言一、简介1.
Spark
-Streaming简介2.HDFS简介3.Hive简介二、需求说明1.目标:2.数据源:3.数据处理流程:4.HDFS文件保存:5.Hive外部表映射:三、实战示例演练
大数据魔法师
·
2023-12-17 06:38
大数据
spark
hdfs
hive
《Py
Spark
大数据分析实战》-11.
Spark
on YARN模式安装Hadoop
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2023-12-17 05:16
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
《Py
Spark
大数据分析实战》-12.
Spark
on YARN配置
Spark
运行在YARN上
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2023-12-17 05:10
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
175、
Spark
运维管理进阶之作业资源调度standalone模式下使用动态资源分配
/sbin/.start-shuffle-service.sh启动
spark
-shell,启用动态资源分配添加如下配置--conf
spark
.shuffle.service.enabled=true\-
ZFH__ZJ
·
2023-12-17 04:18
Spark
SQL之读取复杂的json数据
text":"Nicedayouttoday"}{"user":{"name":"Matei","location":"Berkeley"},"text":"Evennicerhere:)"}2、直接使用
spark
kun2736
·
2023-12-17 03:41
Spark
数据倾斜(一):描述及定位
1、数据倾斜的原理在执行shuffle操作的时候,是按照key,来进行values的数据的输出、拉取和聚合的。同一个key的values,一定是分配到一个reducetask进行处理的。假如现在有多个key对应的values,总共是90万,但是问题是,可能某个key对应了88万数据,key-values(88万数据)分配到一个task上去面去执行,另外两个task,可能各分配到了1万数据,可能是数
雪飘千里
·
2023-12-17 02:04
spark
-常用算子
一,Transformation变换/转换算子:这种变换并不触发提交作业,这种算子是延迟执行的,也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行,需要等到有Action操作的时候才会真正触发。1.Value数据类型的Transformation算子这种变换并不触发提交作业,针对处理的数据项是Value型的数据(1)输入分区与输出分区一对一型:1.map算子处理数据是一对一的关系,进入
Logan_addoil
·
2023-12-17 02:04
大数据学习之旅
spark
Flink 有状态流式处理
传统批次处理方法【1】持续收取数据(kafka等),以window时间作为划分,划分一个一个的批次档案(按照时间或者大小等);【2】周期性执行批次运算(
Spark
/Stom等);传统批次处理方法存在的问题
程序猿进阶
·
2023-12-17 00:30
Flink
flink
大数据
服务器
运维
java
后端
前端
spark
在standalone模式下提交任务流程
1、application(自己编写的应用程序),拷贝到用来提交
spark
应用的机器上,用
spark
-summit来提交这个application,在standalone模式下,会在本机客户端直接启动一个
程序媛啊
·
2023-12-16 23:22
Spark
- 直接操作数据源 MySQL
答案就是使用
spark
的计算能力的,我们可以将mysql数据源接入到
spark
中。
kikiki4
·
2023-12-16 23:31
Spark
(一): 基本架构及原理
Spark
提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求官方资料介绍
Spark
可以将Hadoop集群中的应用在内存中的运行速度提升
hedgehog1112
·
2023-12-16 22:33
Linux 的
性能调优
的思路
Linux操作系统是一个开源产品,也是一个开源软件的实践和应用平台,在这个平台下有无数的开源软件支撑,我们常见的apache、tomcat、mysql等。开源软件的最大理念是自由、开放,那么Linux作为一个开源平台,最终要实现的是通过这些开源软件的支持,以最低廉的成本,达到应用最优的性能。因此,谈到性能问题,主要实现的是Linux操作系统和应用程序的最佳结合。01性能问题综述系统的性能是指操作系
测试界的世清
·
2023-12-16 21:39
自动化测试
软件测试
技术分享
linux
运维
服务器
【Scala】Scala中的一些基本数据类型的特性 列表、元组、构造器、单例对象、伴生类、伴生对象、抽象类与特质
列表使用List(“”,“”,“”)去声明sliding和groued表示迭代器valiter=List("Hadoop","
Spark
","Scala")sliding2//sliding和groued
冲鸭嘟嘟可
·
2023-12-16 20:17
scala
开发语言
后端
Weblogic 中间件
性能调优
主要讨论WeblogicServer
性能调优
方法和经验,供技术人员参考。处理过程WebLogicServer的核心组件由监听线程,套接字复用器和可执行线程的执行队列组成。
it技术分享just_free
·
2023-12-16 20:27
中间件
运维
服务器
Spark
1.请解释
Spark
中的RDD是什么?
编织幻境的妖
·
2023-12-16 20:22
spark
hbase
数据库
数据仓库
大数据
Spark
1.请简要介绍一下Apache
Spark
的基本架构和组件。
编织幻境的妖
·
2023-12-16 20:21
spark
大数据
分布式
上一页
34
35
36
37
38
39
40
41
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他