E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据技术-spark
ClickHouse - 01
与其特性在大数据处理场景中,流处理和批处理使用到的技术大致如下:大数据处理场景流程.png批处理会将源业务系统中的数据通过数据抽取工具(例如Sqoop)将数据抽取到HDFS中,这个过程可以使用MapReduce、
Spark
ArthurHC
·
2024-01-16 02:17
Python语法进阶学习--进程和线程
后续很快就要进入
Spark
的学习,在学习之前也是要铺垫一个知识点:进程是什么?线程是什么?两者有什么区别?又有什么关系?
Yan_bigdata
·
2024-01-15 23:34
python
学习
开发语言
并发和并行
进程和线程
互斥锁
守护进程
第一代线上招聘巨头吃的是阶段盈利
“引进人才”一路从
大数据技术
打进推广营销。一旦大伙
要吃火锅吗
·
2024-01-15 18:50
【
Spark
】
Spark
原理简述
发现一篇很好的文章,适合对
Spark
有一定了解的小伙伴阅读主要介绍下自己在学习
spark
当中的一些理解和学习过程中踩到的坑,对
spark
时间效率优化的点做个总结,各位大佬轻拍。
turboSniper
·
2024-01-15 14:57
大数据
spark
大数据
分布式
streaming 101
看之前就知道这是两篇能够提升你对流处理理解的文章,不是一般的提升,可以说是一种升华,因为他谈的不是一个具体的工具(
spark
streaming,flink等),而是谈流处理应该是怎么样的,流处理要打败批处理一统天下的话需要有什么特性
Bitson
·
2024-01-15 12:31
大数据正在改变电子商务行业的三种方式
在线支付领域的大数据应用近年来,越来越多的支付提供商开始采用
大数据技术
。DeZyre公司发布了一个很好的信息图,显示大数据已经改变了PayPal公司的服务模式。
kuntoria
·
2024-01-15 10:17
Spark
原理——Shuffle 过程
Shuffle过程Shuffle过程的组件结构从整体视角上来看,Shuffle发生在两个Stage之间,一个Stage把数据计算好,整理好,等待另外一个Stage来拉取放大视角,会发现,其实Shuffle发生在Task之间,一个Task把数据整理好,等待Reducer端的Task来拉取如果更细化一下,Task之间如何进行数据拷贝的呢?其实就是一方Task把文件生成好,然后另一方Task来拉取现在是
我像影子一样
·
2024-01-15 09:47
Spark
大数据
spark
大数据
Spark
高级特性 (难)
Spark
高级特性(难)闭包/**编写一个高阶函数,在这个函数要有一个变量,返回一个函数,通过这个变量完成一个计算**/@Testdeftest():Unit={//valf:Int=>Double=closure
我像影子一样
·
2024-01-15 09:11
Spark
大数据
spark
大数据
spark
Streaming 连接kafka的方式
spark
Streaming消费kafak有两种方式1:receiver方式2:direct方式receiver方式:1:
spark
Streaming将kafka之中的数据读取到
spark
内存之中,然后对
流砂月歌
·
2024-01-15 06:59
react实现数据可视化大屏解决方案简介
对于很多企业而言,想要利用好
大数据技术
,首先需要对自身的企业架构和业务模式进行梳理,从而搭建起一个适合自身发展的数据体系。可视
前端布道人
·
2024-01-15 06:55
前端杂货铺
react.js
信息可视化
echarts
数据分析
项目实战-知行教育大数据分析平台-01
3、事实表与维度表的分类4、维度建模的三种模型5、缓慢渐变维七、本项目数仓架构八、HUE的使用九、自动化调度工具介绍十、通过HUE操作oozie本文将利用前面所学的Linux,Hadoop,Hive等
大数据技术
吆喝的翅膀
·
2024-01-15 04:22
python+大数据学习
数据仓库
教育电商
hive
hadoop
cloudera
大数据问答汇总
Apache
Spark
有哪些常见的稳定版本,
Spark
1.6.0的数字分别代表什么意思?
Sql强
·
2024-01-15 03:28
【倒计时4天】第六届金猿季&魔方论坛——大数据产业发展论坛丨上海·1月17日...
大数据产业创新服务媒体——聚焦数据·改变商业在这样一个时代,
大数据技术
和产业本身也处在快速的发展过程中。从数据的采集、传输、存储、处理到数据的分析、应用等各个环节,都不断有全新的技术涌现。
数据猿
·
2024-01-15 03:03
大数据
【金猿人物展】DataPipelineCEO陈诚:赋能数据应用,发挥未来生产力
在过去的20年间,我们见证了
大数据技术
快速发展所带来的巨大改变。如今我们看到,以大数据为基础的智能时代已然来临,这将为全球信息技术带来前所未有的机遇和挑战,促成未来生产力的爆发。但从行业实
数据猿
·
2024-01-15 03:02
Java 与 Scala 使用Maven混合编译打包
在SpringBoot上使用
spark
的时候会遇到的混合编译问题,在java代码中打包会找不到scala定义的包,即可参考使用如下配置。
kikiki4
·
2024-01-15 02:07
未来学校图景(三)学习笔记
一、技术带来学习的革命性变化移动技术、云技术、
大数据技术
、web2.0技术的整合开辟了移动网络网环境下泛在学习的新环境,丰富了教学情景构建,开辟了互动、体验和探究学习的新方向。
建一所小而美学校
·
2024-01-15 01:44
centos
spark
单机版伪分布式模式
Spark
的部署方式包括Standalone、YARN、Mesos,在我们学习
Spark
编程的过程中,往往机器资源有限,于是可以采用伪分布式部署。
piziyang12138
·
2024-01-15 00:05
FLINK学习笔记(一)-- Word Count
defmain(args:Array[String]):Unit={/***flink的运行模型*1.DataSource*2.Transformation*3.DataSink*///获取环境,类似于
spark
contextvalenv
k_wzzc
·
2024-01-14 22:15
Building online HBase cluster of Zhihu based on Kubernetes
utm_campaign=profiletracking&utm_medium=sssite&utm_source=ssslideview同样对
spark
或者yarnr
mtj66
·
2024-01-14 21:24
spark
hbase
CDH
深入理解
Spark
(二)
Spark
Application 提交和运行源码分析
spark
核心流程yarn-clientyarn-cluster
spark
任务调度
spark
stage级别调度
spark
task级别调度失败重试和白名单对于运行失败的Task,TaskSetManager
我很ruo
·
2024-01-14 21:19
大数据
服务器
servlet
运维
深入理解
Spark
(三)
Spark
Task 执行与 shuffle 详解
Spark
Task的分发部署与启动流程分析
Spark
Action算子触发job提交
Spark
当中Stage切分源码详解Task的提交与执行
Spark
Shuffle机制详解MapReduceShuffle全流程深度剖析
我很ruo
·
2024-01-14 21:19
大数据
spark
大数据
hadoop
分布式
java
深入理解
Spark
(四)
Spark
内存管理模型
Spark
中的内存管理和资源管理模型Executor进程作为一个JVM进程,其内存管理建立在JVM的内存管理之上,整个大致包含两种方式:堆内内存和堆外内存。
我很ruo
·
2024-01-14 21:16
大数据
spark
大数据
分布式
Spark
SQL函数定义——UDF函数,窗口函数
目录1定义UDF函数1.1返回值是数组类型的UDF定义1.2返回字典类型的UDF定义2窗口函数1定义UDF函数目前python仅支持UDF两种定义方式:1.
spark
session.udf.register
油豆皮
·
2024-01-14 20:03
数据库
大数据
spark
spark
| scala | 线性代数库Breeze学习
最近在学习
spark
,对线性代数库Breeze做了学习,介绍下常用的函数前提,使用Breeze库,必须导入相关的包importbreeze.linalg._importbreeze.numerics.
茁壮小草
·
2024-01-14 18:55
spark
scala
Breeze
Spark
线性代数,绘图工具入门;scala, java下的Breeze线性代数以及数据绘图工具breeze-viz入门
//官方地址,https://github.com/scalanlp/breeze/wiki/Quickstar//由于编辑器的格式原因,自行拷贝到集成开发环境中调试格式,代码都可以正确运行defbreezeTest:Unit={//Vector支持访问和更新,DenseVector是列向量valx=DenseVector.zeros[Double](5);//构建一个5维的稠密向量SparseV
stableMusic
·
2024-01-14 18:23
Breeze
Scala
Spark
Breeze
scala
spark
java
数据
利用 Azure Data Bricks的免费资源学习云上大数据
AzureDatabricks是一个基于Apache
Spark
的分析平台,专为大数据处理和机器学习而设计。它结合了Data
AI普惠大师
·
2024-01-14 16:42
azure
学习
microsoft
科大讯飞星火大模型接入API js 部分 接口 安装注意事项
下载以下链接例子运行程序https://xfyun-doc.xfyun.cn/static%2F16968175055332330%2F
spark
_js_demo.zip官网给的说明准备1.在demo中填写
guoruijun_2012_4
·
2024-01-14 15:37
javascript
开发语言
ecmascript
RDD转换为DataFrame
Spark
SQL它支持两种不同的方式转换已经存在的RDD到DataFrame1.反射(Java中的概念,scala是隐式转换)2.运行编程接口用反射去推倒出来RDD里面的schema。
起个什么呢称呢
·
2024-01-14 14:42
2022-03-01 回春的三月——交学期费
昨天2月的最后一天,也是交学期票的最后一天,超期的话要多付费,可我的
SPARK
ASSE卡长时间没使用,账户被锁了。
keivenbear
·
2024-01-14 11:40
深入理解
Spark
(一)
spark
运行模式简介与启动流程源码分析
spark
的运行模式standalone模式以standalone-client为例,运行过程如下:
Spark
Context连接到Master,向Master注册并申请资源(CPUCore和Memory
我很ruo
·
2024-01-14 10:56
大数据
spark
大数据
分布式
py
spark
py
spark
version输出
spark
的版本print("py
spark
version"+str(sc.version))mapsc=
spark
context,parallelizecreatesanRDDfromthepassedobjectx
Tim在路上
·
2024-01-14 10:43
计算机毕业设计吊炸天
spark
+hive+nlp慕课在线教育课程数据分析可视化大屏 知识图谱课程推荐系统 课程爬虫 文本分类 LSTM情感分析 大数据毕业设计
将.csv上传到hdfs中,并使用hive建表后导入.csv数据;9个指标,一半使用
spark
/scala去做实时计算分析。一半使用hive_sql进行分层离线处
计算机毕业设计大神
·
2024-01-14 09:48
使用
spark
-submit 部署应用、自定义分区器、checkpoint、共享变量
文章目录
spark
-submit部署应用附加的参数:
spark
-env.sh具体的属性配置信息配置资源分配参数调优案例分析自定义分区器检查点checkpoint
Spark
共享变量
spark
-submit
Geek白先生
·
2024-01-14 09:31
Spark
spark-submit
spark
--累加器-★★★
累加器现象比较难理解,但是代码很简单packagecn.hanjiaxiaozhi.coreimportorg.apache.
spark
.rdd.RDDimportorg.apache.
spark
.util.LongAccumulatorimportorg.apache.
spark
韩家小志
·
2024-01-14 09:01
Spark
spark
Spark
-之自定义wordCount累加器
Spark
-之自定义wordCount累加器
Spark
Core中的3种数据类型:累加器(只写)RDD广播变量(只读)累加器在多个action算子触发的job中重复累加,且需要action算子才能触发累加器操作
稳哥的哥
·
2024-01-14 09:01
Spark
spark
scala
big
data
Spark
-累加器
Spark
-累加器第一张图和java中的引用传递,和值传递很像你能改变内容,内存地址无法改变.你传你的,我传我的,没有把值给返回去双端对列当发送错误的时候要放回到要来头部对列一般是先进先出,要是发送错误
疯子@123
·
2024-01-14 09:00
大数据
Java操作
spark
-自定义累加器
Java操作
spark
-自定义累加器
spark
的累加器自定义累加器实现wordCount
spark
的累加器背景:如果我们在Driver端定义一个变量,然后将该变量发送Executor端进行累加赋值操作,
卡卡东~
·
2024-01-14 09:00
spark
spark
java
big
data
Spark
-自定义分区器以及累加器
自定义分区器:valrdd=sc.makeRDD(List(("nba","xxxx"),("cba","xxxx"),("cba","xxxx"),("cba","xxxx"),("nba","xxxx"),("wnba","xxxx"),),3)valrdd1:RDD[(String,String)]=rdd.partitionBy(newMyPartitioner())rdd1.saveAs
_Ordinary丶
·
2024-01-14 09:00
spark
spark
-submit 与
spark
-shell 介绍
一、
spark
-submit介绍1、
spark
-submit介绍程序一旦打包好,就可以使用bin/
spark
-submit脚本启动应用了。
火成哥哥
·
2024-01-14 09:59
spark
hadoop
spark
java
大数据
linux
Spark
入门-累加器和广播变量
累加器
Spark
中累加器用来解决一些特殊的需求。
汪巡
·
2024-01-14 09:59
Spark系列
spark
scala
big
data
Spark
--累加器
累加器累加器1.实现原理2.系统累加器3.自定义累加器累加器
Spark
计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。
小陈菜奈-
·
2024-01-14 09:59
Scala&Spark
spark
scala
big
data
Spark
-core----累加器
一、原理累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回Driver端进行merge。二、基础编程2.1系统累加器valrdd=sc.makeRDD(List(1,2,3,4,5))//声明累加器varsum=sc.longAccumulator("su
梦痕长情
·
2024-01-14 09:28
spark
Spark
-- 累加器和广播变量
Spark
–累加器和广播变量文章目录
Spark
--累加器和广播变量一.累加器1.系统累加器2.自定义累加器二.广播变量
spark
有三大数据结构:RDD:分布式弹性数据集累加器:分布式只写数据集广播变量:
Keep hunger
·
2024-01-14 09:58
Spark
spark
Spark
---累加器
//建立与
Spark
框架的连接valwordCount=new
Spark
Conf().setMaster("local").setAppName("WordC
肥大毛
·
2024-01-14 09:27
大数据
scala
spark
spark
大数据
scala
记csv、parquet数据预览一个bug的解决
文章目录一、概述二、实现过程1.业务流程如图:2.业务逻辑3.运行结果三、bug现象1.单元测试2.运行结果三、流程梳理1.方向一2.方向二一、概述工作中遇到通过
spark
session解析csv、parquet
爱码少年
·
2024-01-14 08:49
雕虫小技
Java
java
spark
数据结构
物理机本地和集群部署
Spark
一、单机本地部署1)官网地址:http://
spark
.apache.org/2)文档查看地址:https://
spark
.apache.org/docs/3.1.3/3)下载地址:https://
spark
.apache.org
DIY……
·
2024-01-14 07:43
spark
大数据
分布式
一款国内研发的PCB设计软件-立创EDA
我们先来看下官方的一些样板工程和原理图PCB布好线的效果3D预览效果原理图简单的聊聊PCB设计软件:像当前免费的PCB设计软件还有KiCAD、Design
Spark
(发烧友网)也是不错的,当然我们绝大部分人在学校接触最多的要属
想啥做啥
·
2024-01-14 05:38
SPARK
--cache(缓存)和checkpoint检查点机制
SPARK
–cache(缓存)和checkpoint检查点机制rdd的特性缓存和checkpoint作用都是进行容错rdd在计算是会有多个依赖,为了避免计算错误是从头开始计算,可以将中间*依赖rdd进行缓存或
中长跑路上crush
·
2024-01-14 04:58
Spark阶段
spark
缓存
大数据
Spark
-RDD的依赖
RDD的依赖rdd之间是有依赖关系窄依赖每个父RDD的一个Partition最多被子RDD的一个Partition所使用父rdd和子rdd的分区是一对一mapflatMapfliter宽依赖父RDD的Partition会被多个子RDD的Partition所使用父rdd和子rdd的分区是一对多grouBy()grouByKey()sortBy()sortByKey()reduceBykey()dis
中长跑路上crush
·
2024-01-14 04:58
spark
大数据
分布式
Spark
算子(RDD)超细致讲解
SPARK
算子(RDD)超细致讲解map,flatmap,sortBykey,reduceBykey,groupBykey,Mapvalues,filter,distinct,sortBy,groupBy
中长跑路上crush
·
2024-01-14 04:57
Spark阶段
spark
大数据
分布式
上一页
18
19
20
21
22
23
24
25
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他