E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark性能调优
RDD是什么
RDD是
Spark
的基础,是对大数据的抽象,所以先破解
Spark
,首先从RDD开始。*RDD是什么?有什么特点?*RDD包含什么?*RDD能做什么?
猿界零零七
·
2023-12-16 20:18
知识总结
spark
RDD
Spark
RDD、DataFrame、DataSet比较
在
Spark
的学习当中,RDD、DataFrame、DataSet可以说都是需要着重理解的专业名词概念。尤其是在涉及到数据结构的部分,理解清楚这三者的共性与区别,非常有必要。
猿界零零七
·
2023-12-16 20:17
spark
大数据
Spark
1.请解释
Spark
的工作原理。
Spark
是一种通用的大数据计算框架,其设计目标是提供快速、通用和易于使用的数据处理平台。
编织幻境的妖
·
2023-12-16 20:16
spark
大数据
分布式
Spark
RDD的转换
按颜色区分转换:绿色是单RDD窄依赖转换黑色是多RDD窄依赖转换紫色是KV洗牌型转换黄色是重分区转换蓝色是特例的转换单RDD窄依赖转换MapPartitionRDD这个RDD在第一次分析中已经分析过。简单复述一下:依赖列表:一个窄依赖,依赖上游RDD分区列表:上游RDD的分区列表计算流程:映射关系(输入一个分区,返回一个迭代器)分区器:上游RDD的分区器存储位置:上游RDD的优先位置可见除了计算流
猿界零零七
·
2023-12-16 20:45
知识总结
spark
大数据
RDD
Spark
性能优化总结(建议收藏)
近期优化了一个
spark
流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。
PHP9年架构师
·
2023-12-16 18:23
Spark
源码之Worker
Spark
源码之Worker介绍篇Worker介绍Worker作为工作节点,一般Driver以及Executor都会在这Worker上分布;Worker代码概览Worker继承了ThreadSafeRpcEndpoint
小狼星I
·
2023-12-16 18:40
Spark
的“血液” --
Spark
RPC(一)简述
一.
Spark
rpc概述首先说明RPC,引用百度百科:RPC(RemoteProcedureCall)—远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。
大数据_zzzzMing
·
2023-12-16 18:46
面试看的东西
:UIKit
性能调优
实战讲解,同时我还仔细研究了sunnyxx大神的优化UITableViewCell高度计算的那些事iOS自定义转场动画实战讲解《剑指Offer》字符串【3】最长回文子串【3】最长无重复子串
紫色冰雨
·
2023-12-16 16:31
《Py
Spark
大数据分析实战》-10.独立集群模式的代码运行
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2023-12-16 14:49
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
《Py
Spark
大数据分析实战》-08.宽窄依赖和阶段划分
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2023-12-16 14:19
PySpark大数据分析实战
数据分析
数据挖掘
《Py
Spark
大数据分析实战》-09.
Spark
独立集群安装
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2023-12-16 14:49
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
《Py
Spark
大数据分析实战》-05.Py
Spark
库介绍
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2023-12-16 14:05
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
spark
内核源码剖析十四:Checkpoint原理
Checkpoint,是
Spark
提供的一个比较高级的功能。
雪飘千里
·
2023-12-16 12:27
php启用Opcache进行
性能调优
php5.5以上版本已经内置了zendOpCache。通过配置zendopCache模块,将预编译的php字节码加载到共存内存中,省去了每次加载php文件和编译php代码的开销,可以极大提高php性能。opcache模块常用配置如下#配置响应时间sed-i's/max_execution_time=30/max_execution_time=0/'/usr/local/php/lib/php.in
MSNULL
·
2023-12-16 11:08
spark
的键值对的行动操作
先上图frompy
spark
import
Spark
Contextif__name__=="__main__":master="local"iflen(sys.argv)==2:master=sys.argv
yanghedada
·
2023-12-16 10:03
容器中的JVM资源该如何被安全的限制?
欢迎工作一到五年的Java工程师朋友们加入Java架构开发:277763288群内提供免费的Java架构学习资料(里面有高可用、高并发、高性能及分布式、Jvm
性能调优
、Spring源码,MyBatis,
风平浪静如码
·
2023-12-16 08:49
Hbase BulkLoad用法
要导入大量数据,Hbase的BulkLoad是必不可少的,在导入历史数据的时候,我们一般会选择使用BulkLoad方式,我们还可以借助
Spark
的计算能力将数据快速地导入。
kikiki1
·
2023-12-16 07:59
AI创作系统ChatGPT网站源码+搭建部署教程文档,AI绘画,支持TSS GPT语音对话功能
一、AI创作系统
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-16 07:50
人工智能
ChatGPT
软件源码
人工智能
chatgpt
AI作画
AIGC
最新AI绘画Midjourney绘画提示词Prompt教程
一、Midjourney绘画工具
Spark
Ai【无需魔法使用】:
spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI
白云如幻
·
2023-12-16 07:10
人工智能
教程
AI作画
midjourney
prompt
Kafka快速实战与基本原理详解
)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、Storm/
Spark
Memory_2020
·
2023-12-16 06:08
中间件
kafka
分布式
华为大数据开发者教程知识点提纲
一、线下处理1.离线处理方案数据支持:HDFS调度:YARN收入:Flume,sqoop,loader处理:Mapreduce,
Spark
Sql,
spark
,hive(,Flink)2.HadoopNamenode
qq_1418269732
·
2023-12-16 06:08
大数据
生产环境_使用Scala语言_
Spark
编写灵活的SQL查询生成器
//判断id是否为空validEmpty=id.isEmpty//判断other是否为空valotherEmpty=other.isEmpty//根据不同情况拼接SQL语句valsql=if(idEmpty){//如果id为空if(otherEmpty){//如果other也为空s"""select*from`$table1`where`$time`between'$startTime'and'$
Matrix70
·
2023-12-16 05:35
SQL
数据分析与处理
Spark
scala
spark
sql
生产环境_
Spark
处理轨迹中跨越本初子午线的经度列
使用
spark
处理数据集,解决gis轨迹点在地图上跨本初子午线的问题,这个问题很复杂,先补充一版我写的importorg.apache.
spark
.
Matrix70
·
2023-12-16 05:26
数据分析与处理
Spark
spark
大数据
分布式
【
Spark
精讲】
Spark
RDD弹性体现在哪些方面?
什么是“弹性”?一般对于分布式系统,“弹性”指的是可以根据计算规模进行动态伸缩的特性。当计算量增长时,可以动态增加资源来满足计算需求,而当计算量减少时,又可以降低资源配置来节约成本。参考:什么是弹性伸缩ess_弹性伸缩(ESS)-阿里云帮助中心我们在看一下RDD定义:ResilientDistributedDatasets,译为弹性分布式数据集,是一种基于集群内存计算的一种抽象。所以从定义上看,R
话数Science
·
2023-12-16 05:14
Spark精讲
Spark
大数据
spark
大数据
【
Spark
精讲】
Spark
与MapReduce对比
目录对比总结MapReduce流程编辑MapTask流程ReduceTask流程MapReduce原理阶段划分MapshufflePartitionCollectorSortSpillMergeReduceshuffleCopyMergeSort对比总结Map端读取文件:都是需要通过split概念来进行逻辑切片,概念相同,底层具体实现和参数略有差异;业务逻辑实现方式:MapReduce引擎是通过用
话数Science
·
2023-12-16 04:04
Spark精讲
Spark
大数据
spark
mapreduce
大数据
Spark
编程实验一:
Spark
和Hadoop的安装使用
一、目的与要求1、掌握在Linux虚拟机中安装Hadoop和
Spark
的方法;2、熟悉HDFS的基本使用方法;3、掌握使用
Spark
访问本地文件和HDFS文件的方法。
Francek Chen
·
2023-12-16 04:32
Spark编程基础
spark
hadoop
大数据
java全栈体系结构-架构师之路(持续更新中)
Java全栈体系结构数据结构与算法实战(已更)微服务解决方案数据结构模型(openresty/tengine)实战高并发JVM虚拟机实战
性能调优
并发编程实战微服务框架源码解读集合框架源码解读分布式架构解决方案分布式消息中间件原理设计模式
云策数据
·
2023-12-16 04:24
Java架构师p5-p7
java
开发语言
Java全栈架构师
Java架构师
Java全栈
Java互联网架构师
Java知识体系
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制`TableInputFormat`来实现我们的需求了,我们还可以采用Flink的`DataSet`的方式读取,另外下面还有`
Spark
kikiki5
·
2023-12-16 04:13
py
spark
on yarn
背景描述py
spark
相当于python版的
spark
-shell,介于scala的诡异语法,使用py
spark
onyarn做一些调试工作还是很方便的。配置获取大数据集群配置文件。
骑着蜗牛向前跑
·
2023-12-16 03:34
大数据
pyspark
on
yarn
python
大数据
NetBIOS
作者:
spark
dev出处:http://www.cnblogs.com/
spark
dev/利用NetBIOS名称与其他计算机通信网络中的计算机之间必须知道IP地址后才能相互通信。
明月清风~~
·
2023-12-16 03:44
服务器
网络
运维
JVM
性能调优
概述篇面试题讲讲你理解的性能评价及测试指标?(瓜子)生产环境中的问题生产环境发生了内存溢出该如何处理?生产环境应该给服务器分配多少内存合适?如何对垃圾回收器的性能进行调优?生产环境CPU负载飙高该如何处理?生产环境应该给应用分配多少线程合适?不加log,如何确定请求是否执行了某一行代码?不加log,如何实时查看某个方法的入参与返回值?调优基本问题1-为什么要调优?防止出现OOM,进行VM规划和预调
Please Sit Down
·
2023-12-16 02:30
JVM
Java
jvm
基于
spark
的音乐数据分析系统的设计与实现
收藏关注不迷路文章目录前言一、项目介绍二、开发环境三、功能介绍四、核心代码五、效果图六、文章目录前言本文主要对音乐数据,进行分析,系统技术主要使用,1.对原始数据集进行预处理;3.使用python语言编写
Spark
QQ2743785109
·
2023-12-16 01:05
spark
python
spark
大数据
分布式
年度评选揭晓:Apache SeaTunnel荣获年度优秀开源技术团队殊荣
ApacheSeaTunnel,作为一个高性能、易用的海量数据集成平台,其在Apache
Spark
和ApacheFl
SeaTunnel
·
2023-12-16 00:34
大数据
记录hive/
spark
取最新且不为null的方法
听标题可能听不懂我想表达的意思,我来描述一下我要做的事:比如采集同学对某一网站进行数据采集,同一个用户每天会有很多条记录,所以我们要取一条这个用户最新的状态,比如用户改了N次昵称,我们只想得到最后一次修改的结果,但是用窗口函数row_number按时间排序的话,可能最后一条某些字段没采集到,但是之前是有采集到的,所以应该在按时间倒序排的基础上,遇到null值,再往前取,直到所有字段尽可能取到最新的
wxl_winston
·
2023-12-16 00:26
hive
hadoop
数据仓库
Spark
+Kafka构建实时分析Dashboard案例
目录一、环境准备Ubuntu安装Hadoop安装
Spark
安装Kafka安装Python安装Python依赖库安装vscode安装Python工程目录结构二、数据处理和Python操作Kafka数据集数据预处理运行三
Hay Ha!
·
2023-12-15 22:40
python
大数据
分布式
kafka
spark
Spark
Streaming对接Kafka
4、
Spark
Streaming对接Kafka4.1对接数据的两种方式在前面的案例中,我们监听了来自网络端口的数据,实现了WordCount,但是在实际开发中并不是这样。
Echo-Niu
·
2023-12-15 22:09
人工智能
kafka
spark
大数据
mapreduce
分布式
Spark
Streaming整合Kafka实战二
Spark
Streaming整合Kafka实战二
Spark
Streaming整合kafka的第二种方式1.DirectApproach(NoReceivers)优点:缺点:2.偏移量解决方案自动提交偏移量
怒上王者
·
2023-12-15 22:38
Spark
Streaming
kafka
spark
大数据
spark
Streaming与kafka整合案例
pom文件4.0.0com.cllday011.0-SNAPSHOTaliyunhttp://maven.aliyun.com/nexus/content/groups/public/clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/jbosshttp://repository.jboss.com/nexus/co
古城的风cll
·
2023-12-15 22:08
大数据
Kafka(十六)连接
Spark
Streaming的两种方式
可以简化并行读取:
spark
会创建跟kafkapartition一样多的RDDpartition,并且会并行从k
高个子男孩
·
2023-12-15 22:05
Kafka
kafka
spark
大数据
spark
Streaming+kafka简单例子
flume采集(安装flume,这块就不多做赘述了,安装也只是测试,没用,提供一个下载链接)首先自定义source[sink->kafka->
spark
streaming]#启动kafka服务后台永久启动
小曹男孩
·
2023-12-15 22:03
spark
Spark
Streaming与Kafka整合及相关案例
目录1、
Spark
Streaming与Kafka-0-8整合1.1、Receiver-basedApproach(不推荐使用)1.2、DirectApproach(NoReceivers)1.3、
Spark
Streaming
fengge18306
·
2023-12-15 22:58
Spark
-Streaming+Kafka+mysql实战示例
文章目录前言一、简介1.
Spark
-Streaming简介2.Kafka简介二、实战演练1.MySQL数据库部分2.导入依赖3.编写实体类代码4.编写kafka主题管理代码5.编写kafka生产者代码6
大数据魔法师
·
2023-12-15 22:25
大数据
大数据
kafka
spark
大数据学习(一)-------- HDFS
已经有了很多框架方便使用,常用的有hadoop,storm,
spark
,flink等,辅助框架hive,kafka,es,sqoop,flume等。常见应用推荐系统,用户画像等。
大数据流动
·
2023-12-15 21:01
Hadoop和
Spark
的区别
Spark
Spark
模型是对Mapreduce模型的改进,可以说没有HDFS、Mapreduce就没有
Spark
。
Spark
可以使用Yarn作为他的资源管理器,并且可以处理HDFS数据。
旅僧
·
2023-12-15 20:12
hadoop
spark
大数据
spark
java 决策树_决策树与随机森林及其在
Spark
Mllib中的使用
一.概念决策树和随机森林:决策树和随机森林都是非线性有监督的分类模型。决策树是一种树形结构,树内部每个节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶子节点代表一个分类类别。通过训练数据构建决策树,可以对未知数据进行分类。根节点:最顶层的分类条件叶节点:代表每一个类别号中间节点:中间分类条件分支:代表每一个条件的输出随机森林是由多个决策树组成,随机森林中每一棵决策树之间没有关联,在得到一
胡说先森
·
2023-12-15 19:27
spark
java
决策树
kmeans设置中心_
Spark
分布式机器学习源码分析:Kmeans族聚类
Spark
是一个极为优秀的大数据框架,在大数据批处理上基本无人能敌,流处理上也有一席之地,机器学习则是当前正火热AI人工智能的驱动引擎,在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。
weixin_39699121
·
2023-12-15 19:27
kmeans设置中心
spark
kmeans打印质心
Windows平台搭建
Spark
开发环境(Intellij idea 2020.1社区版+Maven 3.6.3+Scala 2.11.8)
在开始之前,需要说明的是要跑通基本的wordcount程序,是不需要在windows上安装hadoop和
spark
的,因为idea在跑程序的时候,会按照pom.xml配置文件,从指定的repository
阳泉酒家小当家
·
2023-12-15 19:56
大数据
hadoop
spark
scala
spark
intellij-idea
spark
常见面试题
spark
面试题1.
spark
的RDD是什么,有哪些特性RDD(ResilientDistributedDataset)叫做分布式数据集,是
spark
中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合
YY_pdd
·
2023-12-15 19:24
面试
大数据运算
软件管理
分布式
大数据
spark
面试
Spark
Spark
一、RDD(1)定义:RDD又称弹性分布式数据集,是
Spark
中最基本的数据抽象。它代表的是一个不可变的、可分区的、里面的元素可以并行计算的集合。
跟浩哥学大数据
·
2023-12-15 19:23
Spark
sql
hive
big
data
spark
Spark
随机森林算法原理、源码分析及案例实战
图1.
Spark
与其它大数据处理工具的活跃程度比较回页首环境要求操作系统:Linux,本文采用的Ubuntu10.04,大家可以根据自己的喜好使用自己擅长的Linux发行版Java与Scala版本:Scala2.10.4
黑谷子
·
2023-12-15 19:51
spark
scala
源码
上一页
35
36
37
38
39
40
41
42
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他