E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark学习之路
大数据分析与应用实验任务十二
大数据分析与应用实验任务十二实验目的:通过实验掌握
spark
机器学习库本地向量、本地矩阵的创建方法;熟悉
spark
机器学习库特征提取、转换、选择方法;实验任务:一、逐行理解并参考编写运行教材8.3.1、
陈希瑞
·
2023-12-15 17:41
数据分析
数据挖掘
spark
源码阅读——shuffle写
groupByKey这个操作一般会产生两个RDD:(map操作)MapPartitionsRDD(隐式转换之后聚合)ShuffledRDDdefgroupBy[K](f:T=>K,p:Partitioner)(implicitkt:ClassTag[K],ord:Ordering[K]=null):RDD[(K,Iterable[T])]=withScope{valcleanF=sc.clean(
WJL3333
·
2023-12-15 15:14
2022-08-14
我走过的
学习之路
(4)【学以致用,去当辽化安装大会战的空调技术员】1976年5月,我这个土生土长的空调工出身的技术员,没见过大世面,要去承担辽宁省的辽化大工程的空调安装项目(8套空调系统、32套排风组织
房老师391215
·
2023-12-15 14:46
hive/
spark
用法记录
1.cast()更改数据类型cast(column_nameastype)2.get_dt_date()自定义日期操作函数(返回不带横线的日期)selectget_dt_date();–获取当前日期,返回20170209selectget_dt_date(get_date(-2));–获取当前日期偏移,转为不带横杆的格式selectget_dt_date(‘2017-02-02’,-2);–201
eight_Jessen
·
2023-12-15 14:17
sql
编程基础
hive
spark
hadoop
spark
四种运行模式
1.
spark
的核心组件1.1Driver
Spark
驱动器节点,用于执行
Spark
任务中的main方法,负责实际代码的执行工作。
坨坨的大数据
·
2023-12-15 14:44
计算机毕业设计Python+
Spark
知识图谱微博舆情预警系统 微博舆情分析 微博推荐系统 微博可视化 微博数据分析 微博大数据 微博爬虫 微博预测系统 大数据毕业设计 大数据毕业设计 机器学习
开发框架前端:vue.jselement-ui后端:springbootmybatis中间件:
spark
hadoophiveflink数据库:mysql关系型数据库neo4j图数据库算法:协同过滤推荐算法
计算机毕业设计大神
·
2023-12-15 12:19
【基础知识】大数据概述
发展历程中国开源生态图谱2023参考内容中国开源生态图谱2023.pdf技术组件说明数据集成sqoop、dataX、flume数据存储hdfs、kafka数据处理mapreduce、hive、impala、
spark
偏振万花筒
·
2023-12-15 12:39
大数据
高效压缩位图RoaringBitmap的原理与应用
目录位图法简述RoaringBitmap的思路Container原理ArrayContainerBitmapContainerRunContainer时空分析Container的创建与转换RBM的应用Lucene
Spark
GreenplumRedisTheEnd
zxfBdd
·
2023-12-15 08:23
数据结构和算法
RoaringBitMap在ClickHouse和
Spark
之间的实践-解决数据仓库预计算多维分析问题
前面在
Spark
多维分析去重计数场景优化案例中说了一下
Spark
计算在多维分析场景中的弊端,多维度分析会导致数据量指数级膨胀,搭配上去重计算字段越多,膨胀倍数也是线性增长,通过BitMap这个案例也更加让我们明白了
小满锅lock
·
2023-12-15 08:23
clickhouse
spark
数据仓库
大数据
Spark
SQL & ClickHouse RoaringBitmap64格式支持
ClickHouse新版使用roaring64map(https://github.com/RoaringBitmap/CRoaring/blob/af9fafb72edcfb88f7adc781eaea4e7e95f68d01/cpp/roaring64map.hh)来支持64位Int计算,采用了和之前不同的序列化和反序列化方式(https://github.com/ClickHouse/Cli
fz1989
·
2023-12-15 08:47
《Py
Spark
大数据分析实战》-07.
Spark
本地模式安装
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2023-12-15 07:31
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
【
Spark
精讲】
Spark
存储原理
目录类比HDFS的存储架构
Spark
的存储架构存储级别RDD的持久化机制RDD缓存的过程Block淘汰和落盘类比HDFS的存储架构 HDFS集群有两类节点以管理节点-工作节点模式运行,即一个NameNode
话数Science
·
2023-12-15 07:29
Spark精讲
Spark
大数据
spark
大数据
【
Spark
精讲】RDD特性之数据本地化
通过RDD的首选运行位置可以让RDD的某个分区的计算任务直接在指定的主机上运行,从而实现了移动计算而不是移动数据的目的,减少了网络传输的开销,如
Spark
中HadoopRDD能够
话数Science
·
2023-12-15 07:58
Spark精讲
Spark
大数据
spark
大数据
【
Spark
精讲】
Spark
任务运行流程
目录
Spark
任务执行流程编辑Client模式Cluster模式Yarn任务运行流程YARN-CLIENT模式YARN-CLUSTER模式编辑故障排查YARN-CLIENT模式导致的网卡流量激增问题YARN-CLUSTER
话数Science
·
2023-12-15 07:58
Spark精讲
Spark
大数据
spark
大数据
【
Spark
精讲】
Spark
作业执行原理
目录基本流程主要组件Driver端Executor端Job提交执行流程Task提交Task执行基本流程用户编写的
Spark
应用程序最开始都要初始化
Spark
Context。
话数Science
·
2023-12-15 07:58
Spark精讲
Spark
大数据
spark
大数据
【硬刚大数据】我们在学习
Spark
的时候,到底在学习什么?
很多小伙伴在群里或者私信留言问我关于
Spark
的学习路径问题。
Spark
发展至今,应该说已经
王知无(import_bigdata)
·
2023-12-15 07:27
硬刚大数据系统性专栏
hbase
spark
big
data
Spark
安装
本文搭建环境为:Mac+ParallelDesktop+CentOS7+JDK7+Hadoop2.6+Scala2.10.4+IDEA14.0.5——————————————————————————————————————————————————一、CentOS安装■安装完成后记得保存快照。■环境准备CentOS7下载:http://mirrors.163.com/centos/7/isos/x8
weixin_30755393
·
2023-12-15 07:27
大数据
scala
java
新手入门:
Spark
部署实战入门
Spark
简介整体认识Apache
Spark
是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
weixin_34256074
·
2023-12-15 07:27
scala
java
开发工具
Spark
Paimon 中为什么我指定的分区没有下推
目前使用的版本信息如下:
Spark
3.5.0Paimon0.6.0paimon的建表语句如下:CREATETABLE`table_demo`(`user_id`stringCOMMENT'fromdeserializer
鸿乃江边鸟
·
2023-12-15 07:51
spark
Paimon
spark
大数据
Paimon
关于新手入门:
Spark
部署实战入门
Spark
简介整体认识Apache
Spark
是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
IT资讯科技
·
2023-12-15 07:18
大数据
IT资讯
互联网科技
人工智能
大数据
程序员
编程语言
hadoop
Spark
on Yarn 安装配置实验(3.1.1)
子任务二:
Spark
onYarn安装配置本任务需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体要求如下:1、从宿主机/opt目录下将文件
spark
-3.1.1-bin-hadoop3.2
芝士小熊饼干
·
2023-12-15 07:44
spark
大数据
分布式
hadoop
【
Spark
精讲】
Spark
Shuffle详解
目录Shuffle概述Shuffle执行流程总体流程中间文件ShuffledRDD生成Stage划分Task划分Map端写入(ShuffleWrite)Reduce端读取(ShuffleRead)
Spark
Shuffle
话数Science
·
2023-12-15 07:14
Spark精讲
Spark
大数据
spark
大数据
Spark
单机搭建实战指南
摘要:本文将详细介绍如何在单台机器上搭建
Spark
分布式计算框架,涵盖环境准备、安装配置、运行测试等多个方面,帮助读者轻松上手
Spark
开发。
wcuuchina
·
2023-12-15 07:13
spark
spark
大数据
分布式
《Py
Spark
大数据分析实战》-03.了解Hive
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2023-12-15 06:42
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
每日一读 11.27
spark
2:
Spark
Session思考与总结1http:/
Vicor
·
2023-12-15 06:12
顶级算法大神都在看的算法小抄,⼿把⼿教你学算法、刷 LeetCode
前言《算法小抄》作者是⼀名饱受算法之苦的硬核朋克,于是总结自己的
学习之路
以及工作经验形成了这份算法小抄,目前它可以手把手带你解决110道LeetCode算法问题,而且在不断更新,内容全部基于LeetCode
啊码
·
2023-12-15 06:44
算法
GoLong的
学习之路
,进阶,微服务之序列化协议,Protocol Buffers V3
这章是接上一章,使用RPC包,序列化中没有详细去讲,因为这一块需要看的和学习的地方很多。并且这一块是RPC中可以说是最重要的一块,也是性能的重要影响因子。今天这篇主要会讲其使用方式。文章目录ProtocolBuffersV3背景以及概念如何使用?分配字段编号指定字段规则数据类型`标量类型``复合类型`枚举其他消息类型嵌套类型更新消息类型未知字段Anyoneofoneof特性向后兼容性问题MapsJ
红蒲公英
·
2023-12-15 06:11
GoLong
学习
微服务
架构
golang
云原生
后端
json
Scala教程
1.1.4Scala语言特点1.2Scala环境搭建1.3IDEA中Scala插件安装1.4HelloWorld案例1.4.1创建IDEA项目工程第一章Scala入门1.1概述1.1.1为什么学习Scala
Spark
Tanzhiyong97
·
2023-12-15 05:34
scala
spark
intellij-idea
Hive增强的聚合、多维数据集、分组和汇总
大家注意防寒保暖进入正题,本文主要对照Hive介绍Hive、
Spark
、Presto查询
对许
·
2023-12-15 04:17
#
数据湖仓
#
Hive
#
Spark
hive
数据仓库
spark
Spark
读写Hive
Spark
读写Hive文章目录
Spark
读写Hive(一)配置本地域名映射(二)创建Hive表(三)IDEA中编写
Spark
代码读取Hive数据(四)IDEA中编写
Spark
代码写入数据到Hive(一)
叶子上的考拉
·
2023-12-15 02:25
大数据
spark
hive
大数据
intellij-idea
spark
内核源码剖析五:Master主备切换机制原理
Spark
高可用HA,是可以配置两个Master的,一个AcitveMaster,一个StandByMaster,当ActiveMaster节点挂掉的时候,可以将StandByMaster切换为ActiveMaster
雪飘千里
·
2023-12-14 23:08
Spark
spark
-submit提交Job流程 解读
Spark
-
spark
-submit提交Job流程解读
spark
-submit
spark
-classload-
spark
-env.shorg.apache.
spark
.launcher.Main
Spark
SubmitCommandBuilderclass
姜上清风
·
2023-12-14 22:38
Spark
源码
spark
spark-submit
scala
bigdata
Spark
config配置项 一览
Spark
config配置项一览env配置序列化配置Rpc.Nettyyarnlib中的jar和用户自己的高版本jar处理加载先后顺序(
spark
程序jar与
spark
libjar冲突,加载顺序)广播内存划分
姜上清风
·
2023-12-14 22:07
Spark
源码
spark
Spark
-BlockManager、BlockManagerSlaveEndpoint、DiskStore、MemoryStore、BlockInfoManager、BlockInfo 源码解析
Spark
-BlockManager、DiskStore、MemoryStore、BlockInfoManager、BlockInfo源码解析classBlockInfo&ObjectBlockInfoclassBlockInfoManagerclassMemoryStore
姜上清风
·
2023-12-14 22:07
Spark
源码
大数据
spark
Spark
-
Spark
Session.Builder 源码解析
Spark
-
Spark
Session.Builder源码解析classBuilder
Spark
SessionExtensionsclassBuilder这个类主要用来builder
Spark
Session
姜上清风
·
2023-12-14 22:36
Spark
源码
spark
scala
修改jvm对象的属性值(私有)
修改jvm对象的属性值(私有)这个想法的来源一个
spark
job在启动之后,就会确定executor的数量。
姜上清风
·
2023-12-14 22:59
jvm
hadoop
spark
大数据
java
【LINUX计算机大白平凡学习linux之路】
@计算机大白平凡
学习之路
千里之行,始于足上。只有基础扎实+思路清析,写脚本才没有问题。多看一些牛人大咖写的脚本。看人家的思路与结构,会收益良多,一起努力学习吧!
皮肤科大白
·
2023-12-14 22:27
Linux
linux
一起走的
学习之路
(164)
下午,利用听讲座的时间,和旁边的同事聊了会天,大致的内容是我们对某个专业问题的认识和看法。整个聊天的过程非常愉快,我们各自谈了一些看法,然后就某一问题探讨了一下,最后我还分享了一下最近利用喜马拉雅FM学习法律专业知识的心得,得到了同事的共鸣,并约定一起利用开车的空闲时间学习法律专业知识。聊天结束之后就像是找到同伴一样,你的一些观点和做法得到他人的认同,同时,她也会提供一些她的观点和做法。并且互相可
小米雨路
·
2023-12-14 20:47
spark
参数配置及内存模型
1
spark
提交主要参数1.1num-executors此数量代表
spark
的executors数量,所有的task在executor中运行。
peidezhi
·
2023-12-14 20:38
spark
spark
大数据
hadoop
Py
spark
中的滞后移位函数
在Py
Spark
中,没有您预期的shift函数,并且您在使用lag时的方向是正确的。但是这里有一个小技巧,当你必须在lag_1的基础上进行lag_2等等。
小赵要加油
·
2023-12-14 19:24
数学建模
pyspark
spark
汽车火花塞行业分析:全球市场需求量约为26.3亿个
火花塞(
spark
plug),俗称火咀,它的作用是把高压导线(火嘴线)送来的脉冲高压电放电,击穿火花塞两电极间空气,产生电火花以此引燃气缸内的混合气体。
QY调研所
·
2023-12-14 19:20
汽车
大数据
Spark
Structured Streaming使用教程
文章目录1、输入数据源2、输出模式3、sink输出结果4、时间窗口4.1、时间窗口4.2、时间水印(Watermarking)5、使用例子StructuredStreaming是一个基于
Spark
SQL
penngo
·
2023-12-14 19:17
java
大数据
spark
大数据
Spark
SQL(八):UDF和UDAF
用户自定义函数,其实更多的是针对单行输入,返回一个输出;UDAF:UserDefinedAggregateFunction,用户自定义聚合函数,可以针对多行输入,进行聚合计算,返回一个输出,功能更加强大;是从
Spark
1.5
雪飘千里
·
2023-12-14 19:09
Spark
环境搭建和使用方法
目录一、安装
Spark
(一)基础环境(二)安装Python3版本(三)下载安装
Spark
(四)配置相关文件二、在py
spark
中运行代码(一)py
spark
命令(二)启动py
spark
三、开发
Spark
Francek Chen
·
2023-12-14 19:08
Spark编程基础
spark
大数据
分布式
【python】多任务编程
多任务编程有哪些编程提速的方法单线程串行:不加改造的程序多线程并发:利用CPU和IO可以同时执行的原理,让CPU不会干巴巴等待IO完成多CPU并行/多进程:利用多核CPU的能力,真正的并行执行任务多机器并行:hadoop/hive/
spark
小赵要加油
·
2023-12-14 19:33
python
python
开发语言
openEuler JDK21 部署 Zookeeper 集群
zookeeper-jdk21操作系统:openEulerJDK:21主机名IP地址
spark
01192.168.171.101
spark
02192.168.171.102
spark
03192.168.171.103
李昊哲小课
·
2023-12-14 19:14
大数据
Java
云计算
zookeeper
debian
大数据
centos
java
linux
数据分析
【Python百宝箱】数据巨轮启航:Python大数据处理库全攻略,引领数据科学新浪潮
往期相关链接:【Python百宝箱】构建强大分布式系统:探索PythonDask、Ray、Dask-ML、Py
Spark
和
friklogff
·
2023-12-14 18:22
python
开发语言
系统架构
数据库
AI创作系统ChatGPT网站源码,AI绘画,支持GPT联网提问/即将支持TSS语音对话功能
一、AI创作系统
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-14 15:11
人工智能
ChatGPT
软件源码
chatgpt
人工智能
midjourney
AI作画
GoLong的
学习之路
,进阶,微服务之使用,RPC包(包括源码分析)
今天这篇是接上上篇RPC原理之后这篇是讲如何使用go本身自带的标准库RPC。这篇篇幅会比较短。重点在于上一章对的补充。文章目录RPC包的概念使用RPC包服务器代码分析如何实现的?总结Server还提供了两个注册服务的方法客户端代码分析如何实现的?如何异步编程同步?总结codec/序列化框架使用JSON协议的RPCRPC包的概念回顾RPC原理看完回顾后其实就可以继续需了解并使用go中所提供的包。Go
红蒲公英
·
2023-12-14 15:50
GoLong
学习
微服务
rpc
分布式
架构
源代码管理
golang
【
Spark
精讲】
Spark
内存管理
目录前言Java内存管理Java运行时数据区Java堆垃圾回收机制Executor内存管理内存类型堆内内存堆外内存内存管理模式静态内存管理统一内存管理编辑执行内存管理多任务间内存分配Shuffle的内存占用MemoryOverHead详解任务内存调节错误类型及调整方案1.ExecutorOOM类错误(错误代码137、143等)方式一:增加单个task的内存使用量方式二:降低单个Task的内存消耗量
话数Science
·
2023-12-14 13:52
Spark精讲
Spark
大数据
spark
大数据
分布式
上一页
41
42
43
44
45
46
47
48
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他