E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark调优
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制`TableInputFormat`来实现我们的需求了,我们还可以采用Flink的`DataSet`的方式读取,另外下面还有`
Spark
kikiki5
·
2023-12-16 04:13
py
spark
on yarn
背景描述py
spark
相当于python版的
spark
-shell,介于scala的诡异语法,使用py
spark
onyarn做一些调试工作还是很方便的。配置获取大数据集群配置文件。
骑着蜗牛向前跑
·
2023-12-16 03:34
大数据
pyspark
on
yarn
python
大数据
NetBIOS
作者:
spark
dev出处:http://www.cnblogs.com/
spark
dev/利用NetBIOS名称与其他计算机通信网络中的计算机之间必须知道IP地址后才能相互通信。
明月清风~~
·
2023-12-16 03:44
服务器
网络
运维
JVM 性能
调优
如何对垃圾回收器的性能进行
调优
?生产环境CPU负载飙高该如何处理?生产环境应该给应用分配多少线程合适?不加log,如何确定请求是否执行了某一行代码?不加log,如何实时查看某个方法的入参与返回值?
Please Sit Down
·
2023-12-16 02:30
JVM
Java
jvm
性能测试 —— 认识 jmeter (性能测试流程 && 性能测试通过标准)
具体的技能树如下:2性能测试成功与失败要素性能测试几大难点:(1)需求分析(2)场景设计(3)性能诊断
调优
(4)环境搭
测试界媛姐
·
2023-12-16 01:04
技术分享
软件测试
自动化测试
jmeter
基于
spark
的音乐数据分析系统的设计与实现
收藏关注不迷路文章目录前言一、项目介绍二、开发环境三、功能介绍四、核心代码五、效果图六、文章目录前言本文主要对音乐数据,进行分析,系统技术主要使用,1.对原始数据集进行预处理;3.使用python语言编写
Spark
QQ2743785109
·
2023-12-16 01:05
spark
python
spark
大数据
分布式
年度评选揭晓:Apache SeaTunnel荣获年度优秀开源技术团队殊荣
ApacheSeaTunnel,作为一个高性能、易用的海量数据集成平台,其在Apache
Spark
和ApacheFl
SeaTunnel
·
2023-12-16 00:34
大数据
记录hive/
spark
取最新且不为null的方法
听标题可能听不懂我想表达的意思,我来描述一下我要做的事:比如采集同学对某一网站进行数据采集,同一个用户每天会有很多条记录,所以我们要取一条这个用户最新的状态,比如用户改了N次昵称,我们只想得到最后一次修改的结果,但是用窗口函数row_number按时间排序的话,可能最后一条某些字段没采集到,但是之前是有采集到的,所以应该在按时间倒序排的基础上,遇到null值,再往前取,直到所有字段尽可能取到最新的
wxl_winston
·
2023-12-16 00:26
hive
hadoop
数据仓库
kafka学习笔记--生产者消息发送及原理
如有侵权、联系速删视频教程链接:【尚硅谷】Kafka3.x教程(从入门到
调优
,深入全面)发送的目的就一个,将消息发到kafka集群里,整体流程如下:如上图,首先要有一个发送消息的主线程,也就是main线程
向着百万年薪努力的小赵
·
2023-12-15 23:59
#
Kafka学习--入门到调优
kafka
学习
笔记
PHP-FPM
调优
:使用 ‘pm static’ 来最大化你的服务器负载能力
image.png让我们来迅速了解一下怎样设置PHP-FPM,以便达到高吞吐,低延迟以及稳定的使用CPU和内存的完美状态。在默认的情况下,大多数设置都将PHP-FPMPM(进程管理器)设置为dynamic,或者当你有可用内存的问题时常建议你使用ondemand。接下来,让我们根据php.net的官方文档来比较一下这两个管理选项和我最常用的设置——static之间的区别:pm=dynamic:子进程
summerbluet
·
2023-12-15 23:43
Spark
+Kafka构建实时分析Dashboard案例
目录一、环境准备Ubuntu安装Hadoop安装
Spark
安装Kafka安装Python安装Python依赖库安装vscode安装Python工程目录结构二、数据处理和Python操作Kafka数据集数据预处理运行三
Hay Ha!
·
2023-12-15 22:40
python
大数据
分布式
kafka
spark
Spark
Streaming对接Kafka
4、
Spark
Streaming对接Kafka4.1对接数据的两种方式在前面的案例中,我们监听了来自网络端口的数据,实现了WordCount,但是在实际开发中并不是这样。
Echo-Niu
·
2023-12-15 22:09
人工智能
kafka
spark
大数据
mapreduce
分布式
Spark
Streaming整合Kafka实战二
Spark
Streaming整合Kafka实战二
Spark
Streaming整合kafka的第二种方式1.DirectApproach(NoReceivers)优点:缺点:2.偏移量解决方案自动提交偏移量
怒上王者
·
2023-12-15 22:38
Spark
Streaming
kafka
spark
大数据
spark
Streaming与kafka整合案例
pom文件4.0.0com.cllday011.0-SNAPSHOTaliyunhttp://maven.aliyun.com/nexus/content/groups/public/clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/jbosshttp://repository.jboss.com/nexus/co
古城的风cll
·
2023-12-15 22:08
大数据
深度学习进阶篇-国内预训练模型[5]:ERINE、ERNIE 3.0、ERNIE-的设计思路、模型结构、应用场景等详解
【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型
调优
、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等专栏详细介绍:【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数
汀、人工智能
·
2023-12-15 22:07
#
深度学习入门到进阶
深度学习
人工智能
自然语言处理
transformer
ERNIE
Kafka(十六)连接
Spark
Streaming的两种方式
可以简化并行读取:
spark
会创建跟kafkapartition一样多的RDDpartition,并且会并行从k
高个子男孩
·
2023-12-15 22:05
Kafka
kafka
spark
大数据
spark
Streaming+kafka简单例子
flume采集(安装flume,这块就不多做赘述了,安装也只是测试,没用,提供一个下载链接)首先自定义source[sink->kafka->
spark
streaming]#启动kafka服务后台永久启动
小曹男孩
·
2023-12-15 22:03
spark
Spark
Streaming与Kafka整合及相关案例
目录1、
Spark
Streaming与Kafka-0-8整合1.1、Receiver-basedApproach(不推荐使用)1.2、DirectApproach(NoReceivers)1.3、
Spark
Streaming
fengge18306
·
2023-12-15 22:58
Spark
-Streaming+Kafka+mysql实战示例
文章目录前言一、简介1.
Spark
-Streaming简介2.Kafka简介二、实战演练1.MySQL数据库部分2.导入依赖3.编写实体类代码4.编写kafka主题管理代码5.编写kafka生产者代码6
大数据魔法师
·
2023-12-15 22:25
大数据
大数据
kafka
spark
kafka学习笔记--安装部署、简单操作
如有侵权、联系速删视频教程链接:【尚硅谷】Kafka3.x教程(从入门到
调优
,深入全面)文章目录1安装部署1.1集群规划1.2集群部署2命令行操作2.1主题2.2生产者2.3消费者2.4消费者组1安装部署
向着百万年薪努力的小赵
·
2023-12-15 22:54
#
Kafka学习--入门到调优
kafka
学习
笔记
大数据学习(一)-------- HDFS
已经有了很多框架方便使用,常用的有hadoop,storm,
spark
,flink等,辅助框架hive,kafka,es,sqoop,flume等。常见应用推荐系统,用户画像等。
大数据流动
·
2023-12-15 21:01
Hadoop和
Spark
的区别
Spark
Spark
模型是对Mapreduce模型的改进,可以说没有HDFS、Mapreduce就没有
Spark
。
Spark
可以使用Yarn作为他的资源管理器,并且可以处理HDFS数据。
旅僧
·
2023-12-15 20:12
hadoop
spark
大数据
【NLP】RAG 应用中的
调优
策略
检索增强生成应用程序的
调优
策略没有一种放之四海而皆准的算法能够最好地解决所有问题。本文通过数据科学家的视角审视检索增强生成(RAG)管道。它讨论了您可以尝试提高RAG管道性能的潜在“超参数”。
Sonhhxg_柒
·
2023-12-15 19:31
自然语言处理(NLP)
人工智能(AI)
LLMs(大型语言模型)
easyui
前端
javascript
spark
java 决策树_决策树与随机森林及其在
Spark
Mllib中的使用
一.概念决策树和随机森林:决策树和随机森林都是非线性有监督的分类模型。决策树是一种树形结构,树内部每个节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶子节点代表一个分类类别。通过训练数据构建决策树,可以对未知数据进行分类。根节点:最顶层的分类条件叶节点:代表每一个类别号中间节点:中间分类条件分支:代表每一个条件的输出随机森林是由多个决策树组成,随机森林中每一棵决策树之间没有关联,在得到一
胡说先森
·
2023-12-15 19:27
spark
java
决策树
kmeans设置中心_
Spark
分布式机器学习源码分析:Kmeans族聚类
Spark
是一个极为优秀的大数据框架,在大数据批处理上基本无人能敌,流处理上也有一席之地,机器学习则是当前正火热AI人工智能的驱动引擎,在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。
weixin_39699121
·
2023-12-15 19:27
kmeans设置中心
spark
kmeans打印质心
Windows平台搭建
Spark
开发环境(Intellij idea 2020.1社区版+Maven 3.6.3+Scala 2.11.8)
在开始之前,需要说明的是要跑通基本的wordcount程序,是不需要在windows上安装hadoop和
spark
的,因为idea在跑程序的时候,会按照pom.xml配置文件,从指定的repository
阳泉酒家小当家
·
2023-12-15 19:56
大数据
hadoop
spark
scala
spark
intellij-idea
spark
常见面试题
spark
面试题1.
spark
的RDD是什么,有哪些特性RDD(ResilientDistributedDataset)叫做分布式数据集,是
spark
中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合
YY_pdd
·
2023-12-15 19:24
面试
大数据运算
软件管理
分布式
大数据
spark
面试
Spark
Spark
一、RDD(1)定义:RDD又称弹性分布式数据集,是
Spark
中最基本的数据抽象。它代表的是一个不可变的、可分区的、里面的元素可以并行计算的集合。
跟浩哥学大数据
·
2023-12-15 19:23
Spark
sql
hive
big
data
spark
Spark
随机森林算法原理、源码分析及案例实战
图1.
Spark
与其它大数据处理工具的活跃程度比较回页首环境要求操作系统:Linux,本文采用的Ubuntu10.04,大家可以根据自己的喜好使用自己擅长的Linux发行版Java与Scala版本:Scala2.10.4
黑谷子
·
2023-12-15 19:51
spark
scala
源码
spark
学习之旅(2)之之RDD常用方法
RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是
Spark
中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。
浩哥的技术博客
·
2023-12-15 19:51
spark
spark
大数据
spark
从表中采样(随机选取)一定数量的行
在
Spark
SQL中,你可以使用TABLESAMPLE来按行数对表进行采样。
不负长风
·
2023-12-15 19:46
数据分析
spark
IntelliJ IDEA创建一个
spark
的项目
在开始之前,需要说明的是要跑通基本的wordcount程序,是不需要在windows上安装hadoop和
spark
的,因为idea在跑程序的时候,会按照pom.xml配置文件,从指定的repository
刘文钊1
·
2023-12-15 19:45
intellij-idea
spark
java
Elasticsearch学习
一、设计阶段
调优
1、根据因为增量需求,采取基于日期末班创建索引,通过rolloverAPI滚动索引2、使用别名进行索引管理3、每天凌晨定时对索引做force_merge操作,以释放空间4、采取冷热分离机制
CopyLower
·
2023-12-15 19:07
学习
elasticsearch
学习
大数据
spark
链接hive时踩的坑
使用
spark
操作hive,使用metastore连接hive,获取hive的数据库时,当我们在
spark
中创建数据库的时候,创建成功。
YuPangZa
·
2023-12-15 18:00
大数据中踩过的坑
spark
hive
大数据
spark
写入 mysql 报错
报错信息如下:"C:\ProgramFiles\Java\jdk1.8.0_291\bin\java.exe""-javaagent:D:\Hadoopruanjian\IDEA\IntelliJIDEA2021.3.2\lib\idea_rt.jar=60971:D:\Hadoopruanjian\IDEA\IntelliJIDEA2021.3.2\bin"-Dfile.encoding=UTF
南城守护
·
2023-12-15 18:17
spark
mysql
android
物联网、大数据、云计算的区别与联系
Hadoop、
Spark
海量数据云计算将计算资源虚拟化并按需卖给用户。方便计算资源的管理提高计算资源利用率。openstack、docker虚拟化二、相互关系粗略地看,可以认为物联网产生
weixin_30455067
·
2023-12-15 18:46
Py
Spark
大数据处理详细教程
今天,我很高兴与您分享我的最新博客,专注于探索Py
Spark
DataFrame的强大功能。无论您是刚入门的数据分析师,还是寻求深入了解大数据技术的专业人士,这里都有丰富的知识和实用的技巧等着您。
数据科学知识库
·
2023-12-15 18:35
大数据
Python
Pyspark
python
Pyspark
大数据
spark
DataFrame
什么是神经网络的非线性
最近在写《计算机视觉入门与
调优
》(右键,在新窗口中打开链接)的小册,其中一部分说到激活函数的时候,谈到了神经网络的非线性问题。
董董灿是个攻城狮
·
2023-12-15 17:17
图像识别
and
Resnet
网络拆解
神经网络
人工智能
深度学习
大数据分析与应用实验任务十一
大数据分析与应用实验任务十一实验目的通过实验掌握
spark
Streaming相关对象的创建方法;熟悉
spark
Streaming对文件流、套接字流和RDD队列流的数据接收处理方法;熟悉
spark
Streaming
陈希瑞
·
2023-12-15 17:49
数据分析
spark
大数据基础知识
为了一场紧急考试,没有正经系统学习过大数据知识的我开始恶补概念涉及Hadoop、Hbase、
Spark
、Flink、Flume、Kafka、Sqoop、HDFS、Hive、Mapreduce、Impala
偶余杭
·
2023-12-15 17:22
【Docker实战】基于Dockerfile搭建LNMP+wordpress
然后对此服务进行相关的性能
调优
和管理工作二、架构:nginx172.111.0.10docker-nginxmysql172.111.0.20docker-mysqlPHP172.111.0.30docker-PHP
koeda1(粉丝冲刺一个亿)
·
2023-12-15 17:45
docker
运维
容器
docker
大数据分析与应用实验任务十二
大数据分析与应用实验任务十二实验目的:通过实验掌握
spark
机器学习库本地向量、本地矩阵的创建方法;熟悉
spark
机器学习库特征提取、转换、选择方法;实验任务:一、逐行理解并参考编写运行教材8.3.1、
陈希瑞
·
2023-12-15 17:41
数据分析
数据挖掘
Java面试题(每天10题)-------连载(49)
6、内存
调优
7、垃圾回收策略
调优
8、共享session处理9、添加JMS远程监控10、专业点的分析工具有哪些?Tomcat篇1、Tomcat的缺省端口
秃头的Tomcat
·
2023-12-15 16:16
java
firefox
开发语言
国内外农村经济借鉴
土地.jpeg国内外农村循环经济发展对发展我农村循环经济发展的借鉴经验实现政府的引导和市场推进想结合在这方面我们可以从欧盟中学到丰富的经验循环经济的核心在于实现资源与经济社会的协
调优
化达到资源的最大化最优化的利用从而解决资源的浪费以及滥用现象市场是具有滞后性和自发性的缺陷所以我们不能单靠市场来自发的调节还需要市场的干预以弥补市场的缺陷如德国
李大大拿
·
2023-12-15 16:31
给祖传系统做了点 GC
调优
,暂停时间降低了 90%
一、问题描述公司某规则引擎系统,在每次发版启动会手动预热,预热完成当流量切进来之后会偶发的出现一次长达1-2秒的YoungGC(流量并不大,并且LB下的每个节点都会出现该情况)。在这次长暂停之后,每一次的年轻代GC暂停时间又都恢复在20-100ms以内。2秒虽然看起来不算长吧,但规则引擎每次执行也才几毫秒,这谁能忍?而且这玩意一旦超时,出单可能也跟着超时失败!二、问题分析在分析该系统GC日志后发现
京东云开发者
·
2023-12-15 16:03
给祖传系统做了点 GC
调优
,暂停时间降低了 90% | 京东云技术团队
问题描述公司某规则引擎系统,在每次发版启动会手动预热,预热完成当流量切进来之后会偶发的出现一次长达1-2秒的YoungGC(流量并不大,并且LB下的每个节点都会出现该情况)在这次长暂停之后,每一次的年轻代GC暂停时间又都恢复在20-100ms以内2秒虽然看起来不算长吧,但规则引擎每次执行也才几毫秒,这谁能忍?而且这玩意一旦超时,出单可能也跟着超时失败!问题分析在分析该系统GC日志后发现,2s暂停发
京东云开发者
·
2023-12-15 16:33
上手实操
京东云
GC
JVM调优
Java
后端
spark
源码阅读——shuffle写
groupByKey这个操作一般会产生两个RDD:(map操作)MapPartitionsRDD(隐式转换之后聚合)ShuffledRDDdefgroupBy[K](f:T=>K,p:Partitioner)(implicitkt:ClassTag[K],ord:Ordering[K]=null):RDD[(K,Iterable[T])]=withScope{valcleanF=sc.clean(
WJL3333
·
2023-12-15 15:14
hive/
spark
用法记录
1.cast()更改数据类型cast(column_nameastype)2.get_dt_date()自定义日期操作函数(返回不带横线的日期)selectget_dt_date();–获取当前日期,返回20170209selectget_dt_date(get_date(-2));–获取当前日期偏移,转为不带横杆的格式selectget_dt_date(‘2017-02-02’,-2);–201
eight_Jessen
·
2023-12-15 14:17
sql
编程基础
hive
spark
hadoop
Hbase性能
调优
client端HTable.setAutoFlush(false)关闭客户端自动刷新HTable.setWriteBufferSize(writeBufferSize)设置HTable客户端的写buffer大小,与上面的参数配合使用。当达到设置的writeBufferSize时,才会触发提交到服务端的请求。(不适合实时读写业务)Put.setWriteToWAL(false)关闭WAL日志客户端向
onwingsofsong
·
2023-12-15 14:51
spark
四种运行模式
1.
spark
的核心组件1.1Driver
Spark
驱动器节点,用于执行
Spark
任务中的main方法,负责实际代码的执行工作。
坨坨的大数据
·
2023-12-15 14:44
上一页
50
51
52
53
54
55
56
57
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他