E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark调优
生产环境_
Spark
找出两DataFrame之间的差集(技巧)
在生产作业中,经常在工作流中遇到前后两DataFrame的数据缺失,比如df1为410条,下一个节点的df2就变成409条了,用眼睛看很费劲,因此不得不做一个差集。代码:/假设df1和df2是你的两个DataFramevaldf1=xxxvaldf2=ccc//使用except操作找出df1中存在但df2中不存在的数据valonlyInDf1=df1.except(df2)//使用except操作
Matrix70
·
2024-02-02 13:10
轨迹大数据智能处理
Spark开发_工作
spark
大数据
分布式
浅谈
Spark
Livy
Spark
Livy什么是LivyLivy的特点Livy的运作流程阐述Livy的安装、启动、访问Livy的使用1.什么是Livylivy是cloudera开发的通过REST来连接、管理
spark
的解决方案
浅汐yt
·
2024-02-02 13:40
spark
大数据
spark
大数据
【
Spark
实践6】特征转换FeatureTransformers实践Scala版--补充算子
本节介绍了用于处理特征的算法,大致可以分为以下几组:提取(Extraction):从“原始”数据中提取特征。转换(Transformation):缩放、转换或修改特征。选择(Selection):从更大的特征集中选择一个子集。局部敏感哈希(LocalitySensitiveHashing,LSH):这类算法结合了特征转换的方面与其他算法。FeatureTransformersIndexToStri
周润发的弟弟
·
2024-02-02 13:39
Spark机器学习
spark
scala
大数据
spark
相关面试题总结
1.
spark
中的RDD是什么,有哪些特性?
专注于大数据技术栈
·
2024-02-02 13:39
spark
[Scala学习笔记]
Spark
开发小笔记
Spark
开发小笔记:从0开始的
Spark
建图生活持续更新中……0.开发平台Zeppelin支持多种语言,默认是scala(背后是
spark
shell),
Spark
SQL,Markdown和Shell。
Rinnki
·
2024-02-02 13:39
Scala笔记
学习笔记
Scala
Spark
图
Scala 与
spark
7.23
例如:@transientval
spark
Context:
Spark
Context,Scala多行字符串之stripMargin方法https://www.jianshu.com/
qq_34872215
·
2024-02-02 13:09
spark
生产环境踩坑系列::Hive on
Spark
的connection timeout 问题
起因7/16凌晨,钉钉突然收到了一条告警,一个公司所有业务部门的组织架构表的ETL过程中,数据推送到DIM层的过程中出现异常,导致任务失败。因为这个数据会影响到第二天所有大数据组对外的应用服务中组织架构基础数据,当然,我们的Pla-nB也不是吃素的,一旦出现错误,后面的权限管理模块与网关会自动配合切换前一天的最后一次成功处理到DIM中的组织架构数据,只会影响到在前一天做过组织架构变化的同事在系统上
dclar_
·
2024-02-02 13:08
Spark
Hive
spark
hive
【
Spark
ML实践5】特征转换FeatureTransformers实战scala版
本节介绍了用于处理特征的算法,大致可以分为以下几组:提取(Extraction):从“原始”数据中提取特征。转换(Transformation):缩放、转换或修改特征。选择(Selection):从更大的特征集中选择一个子集。局部敏感哈希(LocalitySensitiveHashing,LSH):这类算法结合了特征转换的方面与其他算法。本章节主要讲转换1FeatureTransformersTo
周润发的弟弟
·
2024-02-02 13:08
Spark机器学习
spark-ml
scala
开发语言
spark
livy hue
1.下载livylivy为
Spark
提供了REST接口,有如下特性:*提供交互式shell*批量提交*多用户使用用一个服务(用户模拟)*可以从任何地方使用REST的方式提交*无需对代码进行任何修改wgethttp
bigdataf
·
2024-02-02 13:08
livy-spark
hue
Py
Spark
(二)RDD基础、RDD常见算子
目录RDDRDD五大特性RDD创建RDD算子常见的Transformation算子mapflatMapmapValuesreduceByKeygroupByfilterdistinctunionjoinintersectionglomgroupByKeygroupByKey和reduceByKey的区别?sortBysortByKey常见的action算子countByKeycollectredu
独憩
·
2024-02-02 13:07
PySpark
python
分布式
大数据
spark
【livy】
Spark
Livy深究
什么是livyLivy的特点Livycloudera开发通过REST来连接、管理
spark
的解决方案从任何地方提交job使用交互式的Scala、Python语言与远程的
spark
集群进行通信无需更改代码
小赵要加油
·
2024-02-02 13:07
livy
大数据
分布式
Python之Py
Spark
简单应用
文章目录一、介绍1.准备工作2.创建
Spark
Session对象:3.读取数据:4.数据处理与分析:5.停止
Spark
Session:二、示例1.读取解析csv数据2.解析计算序列数据map\flatmap
陈年小趴菜
·
2024-02-02 13:37
python
python
开发语言
大数据
【
Spark
ML实践4】Pipeline实战scala版
DataFrame:这个机器学习API使用来自
Spark
SQL的DataFrame作为机器学习数据集,它可以包含多种数据类型。例如,一个DataFrame可以有不同的列存
周润发的弟弟
·
2024-02-02 13:36
Spark机器学习
spark-ml
scala
开发语言
生产环境_
Spark
接收传入的sql并替换sql中的表名与解析_非常NB
背景开发时遇到一个较为复杂的周期需求,为了适配读取各种数据库中的数据并将数据库数据转换为DataFrame并进行后续的开发分析工作,做了如下代码。在爷们开发这段生产中的代码,可适配mysql,hive,hbase,gbase等等等等,基本涉及到数据库的情况基本可以进行。可以说是非常之NB!!!!!了数据流程:由于该代码片段主要关注数据处理流程,而非实际数据内容,,当然,我也不能把特殊数据给大家展示
Matrix70
·
2024-02-02 13:06
Spark开发_工作
轨迹大数据智能处理
spark
sql
ajax
Iceberg从入门到精通系列之二十四:
Spark
Structured Streaming
Iceberg从入门到精通系列之二十四:
Spark
StructuredStreaming一、StreamingReads二、StreamingWrites三、Partitionedtable四、流表的维护
最笨的羊羊
·
2024-02-02 12:52
日常分享专栏
Iceberg
从入门到精通系列之二十四
Spark
Structured
Streaming
Iceberg从入门到精通系列之二十三:
Spark
查询
Iceberg从入门到精通系列之二十三:
Spark
查询一、使用SQL查询二、使用DataFrame进行查询三、Timetravel四.Incrementalread五、检查表六、History七、元数据日志条目八
最笨的羊羊
·
2024-02-02 12:51
日常分享专栏
Iceberg
从入门到精通系列之二十三
Spark查询
Iceberg从入门到精通系列之二十一:
Spark
集成Iceberg
Iceberg从入门到精通系列之二十一:
Spark
集成Iceberg一、在
Spark
3中使用Iceberg二、添加目录三、创建表四、写五、读六、Catalogs七、目录配置八、使用目录九、替换会话目录十
最笨的羊羊
·
2024-02-02 12:20
日常分享专栏
Iceberg
从入门到精通系列之二十一
Spark集成Iceberg
实时数据湖:Flink CDC流式写入Hudi
点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜1.环境准备•Flink1.12.2_2.11•Hudi0.9.0-SNAPSHOT(master分支)•
Spark
2.4.5、Hadoop3.1.3
王知无(import_bigdata)
·
2024-02-02 12:01
spark
hadoop
hive
大数据
mysql
使用 Flink Hudi 构建流式数据湖
通过MR/
Spark
的
浪尖聊大数据-浪尖
·
2024-02-02 12:30
大数据
spark
hadoop
java
数据库
Iceberg从入门到精通系列之二十二:
Spark
DDL
Iceberg从入门到精通系列之二十二:
Spark
DDL一、
Spark
DDL二、
Spark
DDL-创建表三、
Spark
DDL-PARTITIONEDBY四、
Spark
DDL-CREATETABLE...
最笨的羊羊
·
2024-02-02 12:47
日常分享专栏
Iceberg
从入门到精通系列之二十二
Spark
DDL
py
spark
的安装及使用
jdk安装必须要求为jdk1.8版本JDK下载后环境变量配置新增系统变量JAVA_HOMEPath新增测试是否安装成功:javac-version
spark
安装官网下载,遇到加载不了选项框的情况可以尝试用手机打开网址获取下载链接后下载直接解压
a013067506e4
·
2024-02-02 11:56
调优
IntelliJ IDEA的JVM参数
古人说得好,工欲善其事,必先利其器,这篇小随笔其实很久之前就该写了(因为是很久之前做的事情了)。现在为了写它,还得手动复现当时的场景,真麻烦呐。笔者的机器配置和环境如下:IntelCorei7-4870HQ,4C/
[email protected]
~3.7GHz16GBDDR3L1600MHzRAM512GBPCIeSSDmacOSMojave10.14.4IntelliJIDEA2018.2.7调整IDEA的JVM参
LittleMagic
·
2024-02-02 11:16
网站性能
调优
实战-学相伴KuangStudy
面对并发我们是如何优化KuangStudy网站性能的?每个项目都会随着用户和数据的增长调整架构,来面对未来的问题,我们也不例外,在1月5号我们平台正式公测后,引起了很多观众的热烈反响,仅仅4天,注册用户便破万。随之而来的就是平台开始变得卡顿,所以我们开始了我们的问题排查和优化,下面就和大家聊聊我们是如何处理的吧。Nginx一个网站,核心会分为几部分:前端、后台服务、数据库,服务器。我们最开始项目是
KuangStudy
·
2024-02-02 10:22
linux服务器springboot或tomcat项目启动,进行jvm参数
调优
设置
,但是项目启动占用的jvm内存默认值基本上都是很大的,800m到2G都有,这样很容易将服务器的内存吃垮,从而导致系统强制oom(内存泄露),不留任何情面;所以,我们在部署项目的时候需要进行jvm参数的
调优
设置
liaozk_c
·
2024-02-02 10:39
日常工作总结
服务器
linux
spring
boot
spark
题06
6.列举
Spark
中常见的端口,分别有什么功能?8.
Spark
官网中,你常用哪几个模块?11.yarn的原理?14.看过源码?你熟悉哪几个部分的源码?
博弈史密斯
·
2024-02-02 09:59
Flink实现高斯朴素贝叶斯
Flink实现高斯朴素贝叶斯在之前的文章中提到了多项式的朴素贝叶斯,在
spark
的ML里也实现了多项式的朴素贝叶斯和伯努利朴素贝叶斯,在实际情况当中我们处理的变量除了离散型,还有连续型。
k_wzzc
·
2024-02-02 08:49
记录一下我们最近在压测过程中
调优
的过程
一、项目背景先说下项目背景,我们要为某个项目组开发一个联机交易平台,联机交易在金融业是比较常见的概念,实际上就是分布式系统调度,只是对每一个微服务是有规范的。作为联机交易平台,所有交易都会走我们的系统,因此对性能、可用性等都有严格的要求。由于我之前接触了很多公司的实际生产事故复盘(之前也发了一篇复盘相关的文章,感兴趣的可以查阅),所以我也要求我们所有项目组成员都要注意自己平时的代码开发,我也会不定
hbnn111
·
2024-02-02 08:12
高并发
压测
数据库
jvm
缓存
压力测试
JVM中一次完整的GC回收流程
还有经常说的JVM
调优
,也是对堆进行参数优化配置,达到最接近理想状态。结构详情新生代大部分刚创建的对象首先都是放在年轻代,新生代内存按
创作小达人
·
2024-02-02 07:21
jvm
【JVM
调优
及常见的JVM
调优
参数以及作用】
JVM
调优
及常见的JVM
调优
参数以及作用JVM
调优
通常涉及以下几个方面:1.堆内存
调优
:2.垃圾回收
调优
:3.线程
调优
:4.类加载
调优
:JVM的优化配置可以通过设置JVM的启动参数来实现。
数据科学与艺术的贺公子
·
2024-02-02 07:49
jvm
Hadoop-生产
调优
(更新中)
第1章HDFS-核心参数1.1NameNode内存生产配置1)NameNode内存计算每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢?128*1024*1024*1024/150byte≈9.1亿GMBKBByte2)Hadoop2.x系列,配置NameNode内存NameNode内存默认2000m,如果内存服务器内存4G,NameNode内存可以配置3g。在ha
OnePandas
·
2024-02-02 07:47
Hadoop
hadoop
大数据
分布式
机器学习——泰坦尼克号乘客生存预测
在使用机器学习相关知识去处理某个实际的问题的时候首先就是从需求理解和问题预处理开始,通过异常数据收集、数据整合、数据分析探索,到模型训练和
调优
,最后进行模型验证评估。
是dream
·
2024-02-02 07:03
数据库
前端
linux
超全的 Elasticsearch 性能
调优
技巧,值的收藏!
原文:http://elasticsearch.cn/article/6202因为总是看到很多同学在说elasticsearch性能不够好,集群不够稳定,询问关于elasticsearch的
调优
,但是每次都是一个个点的单独讲
小霸戈
·
2024-02-02 06:18
后端开发
分布式
elasticsearch
Flink 实时写入数据到 ElasticSearch 性能
调优
本着复现问题进行优化就能解决的思路进行
调优
测试。测试环境elasticsearch2.3.3flink1.6.3flink-connector-
zhisheng_blog
·
2024-02-02 06:45
ElasticSearch性能
调优
ES性能
调优
ES的默认配置,是综合了数据可靠性、写入速度、搜索实时性等因素。实际使用时,我们需要根据公司要求,进行偏向性的优化。
会飞的鹅_
·
2024-02-02 06:42
elasticsearch
elasticsearch
数据库
大数据
运维
服务器
【Elasticsearch】Elasticsearch性能
调优
1.概述转载:Elasticsearch性能
调优
因为总是看到很多同学在说elasticsearch性能不够好,集群不够稳定,询问关于elasticsearch的
调优
,但是每次都是一个个点的单独讲,很多时候都是
九师兄
·
2024-02-02 06:42
elasticsearch
性能调优
Elasticsearch性能
调优
背景项目上是用ES做数据库,存储的告警数据,量级在千万级别左右。测试在压测之后,系统频繁出现告警记录查询报错,系统不可用。基于此排查分析项目上Elasticsearch的使用是否合理。版本及硬件环境:10.xx.xxx.xxjdk:1.8.0elasticsearch:6.5.4es集群:1个client(预处理节点),1个data(即做主节点,又做数据节点)os:centos764核128G垃圾
Hyatt1024
·
2024-02-02 06:37
经验总结
elasticsearch
大数据
搜索引擎
池化技术
通过优化资源分配的效率,达到性能的
调优
。java中常见的池化技术有对象池,复用对象;连接池,复用连接;线程池,复用线程。对象池java中,万物皆对象,如果硬是要说连接池、线程池都是对象池看似也没问题。
ludan110
·
2024-02-02 05:00
技术分享 | 灭霸与普罗米修斯之无限存储的高可用方案
作者:王继顺宝尊电商DBA,主要负责数据库监控告警以及自动化平台的设计开发工作,擅长数据库性能
调优
、故障诊断。
爱可生开源社区
·
2024-02-02 04:58
微服务技术选型之路
微服务模式的项目从初建到上线部署应用,每一个环节都会涉及到相当多的技术细节(上线后的性能
调优
更需要)。
java菜
·
2024-02-02 04:39
Spark
GraphX原理介绍
背景现实应用中,数据内部可能存在较高的关联度,如图模型应用。在对这样的数据进行处理时,并行计算框架就会面临较大的挑战,会引入大量的数据连接(join)和聚合(aggregation)操作,带来大量的计算和数据迁移,严重消耗集群资源,因此对此类算法的优化就显得极为重要。互联网上网页权值计算的PageRank算法是一个典型的图模型问题,它依据网页之间的链接指向关系来判断网页的重要性,指向一个网页的链接
tanglizhe1105
·
2024-02-02 01:38
Spark
spark
GraphX
图计算
阿里巴巴Java性能
调优
实战:网络通信优化之序列化:避免使用Java序列化
网络通信优化之序列化:避免使用Java序列化当前大部分后端服务都是基于微服务架构实现的。服务按照业务划分被拆分,实现了服务的解偶,但同时也带来了新的问题,不同业务之间通信需要通过接口实现调用。两个服务之间要共享一个数据对象,就需要从对象转换成二进制流,通过网络传输,传送到对方服务,再转换回对象,供服务方法调用。这个编码和解码过程我们称之为序列化与反序列化。在大量并发请求的情况下,如果序列化的速度慢
Charles__LUO
·
2024-02-02 01:57
网络
编程语言
python
java
大数据
Java
Spark
Config
我们可以自己实现一个
Spark
Config默认配置工具以便统一管理packagecom.yzy.
spark
;importorg.apache.
spark
.
Spark
Conf;publicclass
Spark
Config
憨人Zoe
·
2024-02-02 00:43
基于RF算法的侧信道攻击方法研究
文章提出一种基于RF算法的侧信道攻击方法,分别从输入数据处理和参数控制两方面进行模型优化,在特征点选择和RF算法参数
调优
两方面进行改进。
罗伯特之技术屋
·
2024-02-01 21:18
综合技术探讨及方案专栏
计算机科学及电子科技技术专栏
人工智能
Elasticsearch高性能优化实践
Elasticsearch高性能优化实践_es批量导入数据多少为最优-CSDN博客ES性能
调优
ES的默认配置,是综合了数据可靠性、写入速度、搜索实时性等因素。
大叶子不小
·
2024-02-01 21:39
elasticsearch
大数据
搜索引擎
介绍 Apache
Spark
的基本概念和在大数据分析中的应用
Apache
Spark
是一个开源的大数据处理框架,旨在提供高速、易用和通用的大数据分析平台。它所提供的一系列工具和库可以帮助用户处理大规模数据集,并支持复杂的数据分析任务。
做一个AC梦
·
2024-02-01 21:07
apache
spark
开发语言
性能超
Spark
100倍,算立方补上邦盛科技实时智能技术体系的关键拼图丨爱分析访谈
随着互联网和物联网的逐渐普及,各行业都开始源源不断产生单源或多源数据,这些高并发的数据具有高度的实时性和明显的时间序列,数据越热的时候处理,获得的业务价值越高。随着数字化转型的深入,企业都在积极建设数据能力,开发数据应用,以实现数据驱动业务。邦盛科技是一家专注于大数据实时智能领域的人工智能厂商,提出“时序中间态”技术体系,针对高并发的热数据可毫秒间完成计算。其核心技术之一是能够实时快速、高并发处理
ifenxi爱分析
·
2024-02-01 20:10
spark
科技
大数据
[Python] 什么是网格搜索以及scikit-learn中GridSearch类的介绍和使用案例?
网格搜索是一种参数
调优
的方法,它可以帮助找到最佳的模型参数。在网格搜索中,我们先指定参数的候选值范围,然后枚举所有可能的参数组合,计算每个模型的性能指标(比如准确率、精确率等)。
老狼IT工作室
·
2024-02-01 20:39
python
机器学习
scikit-learn
python
网格搜索
交叉验证
Spark
基础
Spark
基础几个重要的概念:RDD:是弹性分布式数据集(ResilientDistributedDataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型;DAG:是DirectedAcyclicGraph
cjyang
·
2024-02-01 19:23
LoaRunner性能测试系统学习教程:Apache
调优
(4)
上期我们讲到LoaRunner性能测试Apachetop监控,这期我们讲LoaRunner性能测试Apache
调优
。
川石教育
·
2024-02-01 18:48
【yarn】 kill 一个
spark
任务
要关闭一个正在运行的
Spark
任务,你可以使用以下命令来终止执行:yarnapplication-kill将替换为你要关闭的
Spark
应用程序的ID。
言之。
·
2024-02-01 17:54
spark
大数据
分布式
上一页
12
13
14
15
16
17
18
19
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他