E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark私房菜
Spark
-- 累加器和广播变量
Spark
–累加器和广播变量文章目录
Spark
--累加器和广播变量一.累加器1.系统累加器2.自定义累加器二.广播变量
spark
有三大数据结构:RDD:分布式弹性数据集累加器:分布式只写数据集广播变量:
Keep hunger
·
2024-01-14 09:58
Spark
spark
Spark
---累加器
//建立与
Spark
框架的连接valwordCount=new
Spark
Conf().setMaster("local").setAppName("WordC
肥大毛
·
2024-01-14 09:27
大数据
scala
spark
spark
大数据
scala
记csv、parquet数据预览一个bug的解决
文章目录一、概述二、实现过程1.业务流程如图:2.业务逻辑3.运行结果三、bug现象1.单元测试2.运行结果三、流程梳理1.方向一2.方向二一、概述工作中遇到通过
spark
session解析csv、parquet
爱码少年
·
2024-01-14 08:49
雕虫小技
Java
java
spark
数据结构
物理机本地和集群部署
Spark
一、单机本地部署1)官网地址:http://
spark
.apache.org/2)文档查看地址:https://
spark
.apache.org/docs/3.1.3/3)下载地址:https://
spark
.apache.org
DIY……
·
2024-01-14 07:43
spark
大数据
分布式
一款国内研发的PCB设计软件-立创EDA
我们先来看下官方的一些样板工程和原理图PCB布好线的效果3D预览效果原理图简单的聊聊PCB设计软件:像当前免费的PCB设计软件还有KiCAD、Design
Spark
(发烧友网)也是不错的,当然我们绝大部分人在学校接触最多的要属
想啥做啥
·
2024-01-14 05:38
SPARK
--cache(缓存)和checkpoint检查点机制
SPARK
–cache(缓存)和checkpoint检查点机制rdd的特性缓存和checkpoint作用都是进行容错rdd在计算是会有多个依赖,为了避免计算错误是从头开始计算,可以将中间*依赖rdd进行缓存或
中长跑路上crush
·
2024-01-14 04:58
Spark阶段
spark
缓存
大数据
Spark
-RDD的依赖
RDD的依赖rdd之间是有依赖关系窄依赖每个父RDD的一个Partition最多被子RDD的一个Partition所使用父rdd和子rdd的分区是一对一mapflatMapfliter宽依赖父RDD的Partition会被多个子RDD的Partition所使用父rdd和子rdd的分区是一对多grouBy()grouByKey()sortBy()sortByKey()reduceBykey()dis
中长跑路上crush
·
2024-01-14 04:58
spark
大数据
分布式
Spark
算子(RDD)超细致讲解
SPARK
算子(RDD)超细致讲解map,flatmap,sortBykey,reduceBykey,groupBykey,Mapvalues,filter,distinct,sortBy,groupBy
中长跑路上crush
·
2024-01-14 04:57
Spark阶段
spark
大数据
分布式
spark
入门教程(3)--
Spark
核心API开发
本教程源于2016年3月出版书籍《
Spark
原理、机制及应用》,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍。
xwc35047
·
2024-01-14 04:45
Spark入门教程
spark
分布式
大数据
教程
应用
基于
Spark
2.x新闻网大数据实时分析可视化系统项目
课程大纲第一章:案例需求分析与设计1.全套课程内容概述2.案例需求分析3.系统架构设计4.系统数据流程设计5.集群资源规划设计第二章:linux环境准备与设置1.Linux系统常规设置2.克隆虚拟机并进行相关的配置3.对集群中的机器进行基本配置第三章:Hadoop2.X分布式集群部署1.Hadoop2.X版本下载及安装2.Hadoop2.X分布式集群配置3.分发到其他各个机器节点4.HDFS启动集
飞雪雪团队
·
2024-01-13 23:30
spark
中Rdd依赖和
Spark
SQL介绍--学习笔记
1,RDD的依赖1.1概念rdd的特性之一相邻rdd之间存在依赖关系(因果关系)窄依赖每个父RDD的一个Partition最多被子RDD的一个Partition所使用父rdd和子rdd的分区是一对一(多对一)触发窄依赖的算子map(),flatMap(),filter()宽依赖父RDD的一个partition会被子rdd的多个Partition所使用父rdd和子rdd的分区是一对多触发宽依赖的算子
祈愿lucky
·
2024-01-13 23:17
大数据
spark
学习
笔记
寒冬将至,这个光棍节,送大家一波福利!
领取方式如下:扫描下方二维码关注我的公众号『程序员
私房菜
』,在公众号内回复:架构,即可免费领取架构师成长和进阶视频教程。另外,公众号内还有
武哥聊编程
·
2024-01-13 21:29
------【程序人生】
python字典转数据框,将标准python键值字典列表转换为py
spark
数据框
Considerihavealistofpythondictionarykeyvaluepairs,wherekeycorrespondtocolumnnameofatable,soforbelowlisthowtoconvertitintoapy
spark
dataframewithtwocolsarg1arg2
恶少恶言
·
2024-01-13 13:45
python字典转数据框
Spark
调试
编写代码//pom.xml4.0.0org.learn.example
spark
-example1.0-SNAPSHOTorg.apache.
spark
spark
-core_2.112.2.0providedorg.apache.
spark
spark
-sql
Jorvi
·
2024-01-13 12:51
Hbase BulkLoad用法
要导入大量数据,Hbase的BulkLoad是必不可少的,在导入历史数据的时候,我们一般会选择使用BulkLoad方式,我们还可以借助
Spark
的计算能力将数据快速地导入。
kikiki1
·
2024-01-13 12:43
新书速览|鸟哥的Linux
私房菜
:第三版修订. 服务器架设篇
探索Linux服务器的无限潜力!第三版修订说明感谢各位读者对第三版的支持与反馈,这极大地促进了本书的持续完善和改进。在第三版的基础上,我们针对Linux系统版本的变化进行了内容更新,包括替换过时的参考网站和链接,整合部分内容,并对语言表述进行优化处理。此外,我们还对部分章节进行了删减和增补,以更好地满足当前读者的需求。修订的主要内容如下:(1)使本书的内容适应更新的操作系统版本,例如更高版本的Ce
全栈开发圈
·
2024-01-13 11:35
服务器
linux
运维
Spark
读excel报错,scala.MatchError
Spark
3详细报错:scala.MatchError:Map(treatemptyvaluesasnulls->true,location->viewfs://path.xlsx,inferschema
CoderOnly
·
2024-01-13 10:35
Spark
spark
scala
大数据系列 | CDH6.3.2(Cloudera Distribution Hadoop)部署、原理和使用介绍
大数据系列|CDH6.3.2(ClouderaDistributionHadoop)部署、原理和使用介绍1.大数据技术生态中Hadoop、Hive、
Spark
的关系介绍2.CDN(ClouderaDistributionHadoop
降世神童
·
2024-01-13 10:50
高级IT运维技术专栏
大数据
cloudera
hadoop
Spark
原理——逻辑执行图
逻辑执行图明确逻辑计划的边界在Action调用之前,会生成一系列的RDD,这些RDD之间的关系,其实就是整个逻辑计划valconf=new
Spark
Conf().setMaster("local[6]"
我像影子一样
·
2024-01-13 09:17
Spark
大数据
spark
大数据
Spark
原理——物理执行图
物理执行图物理图的作用是什么?问题一:物理图的意义是什么?物理图解决的其实就是RDD流程生成以后,如何计算和运行的问题,也就是如何把RDD放在集群中执行的问题问题二:如果要确定如何运行的问题,则需要先确定集群中有什么组件首先集群中物理元件就是一台一台的机器其次这些机器上跑的守护进程有两种:Master,Worker每个守护进程其实就代表了一台机器,代表这台机器的角色,代表这台机器和外界通信例如我们
我像影子一样
·
2024-01-13 09:17
Spark
大数据
spark
大数据
Spark
原理——总体介绍
总体介绍编写小案例(wordcount)@TestdefwordCount():Unit={//1.创建sc对象valconf=new
Spark
Conf().setMaster("local[6]").
我像影子一样
·
2024-01-13 09:17
Spark
大数据
spark
大数据
RDD算子——转换操作(Transformations )【map、flatMap、reduceByKey】
一、mapmap算子#
spark
-shellsc.parallelize(Seq(1,2,3)).map(num=>num*10).collect()#IDEA@TestdefmapTest():Unit
我像影子一样
·
2024-01-13 09:47
Spark
大数据
spark
大数据
Spark
原理——运行过程
运行过程逻辑图是什么怎么生成具体怎么生成valtextRDD=sc.parallelize(Seq("Hadoop
Spark
","HadoopFlume","
Spark
Sqoop"))valsplitRDD
我像影子一样
·
2024-01-13 09:44
Spark
大数据
spark
大数据
时政新闻学英语之22:孙杨与361°的你来我往
本文选自chinadaily,文章链接见Sun'ssuit
spark
scontroversy。
小书童札记
·
2024-01-13 09:12
使用
spark
将MongoDB数据导入hive
使用
spark
将MongoDB数据导入hive一、py
spark
1.1pymongo+
spark
代码importjson,sysimportdatetime,timeimportpymongoimporturllib.parsefrompy
spark
.sqlimport
Spark
Sessionfrompy
spark
.sql.typesimportStructType
awsless
·
2024-01-13 09:16
spark
mongodb
hive
Spark
---RDD持久化
文章目录1.RDD持久化1.1RDDCache缓存1.2RDDCheckPoint检查点1.3缓存和检查点区别1.RDD持久化在
Spark
中,持久化是将RDD存储在内存中,以便在多次计算之间重复使用。
肥大毛
·
2024-01-13 07:40
scala
spark
大数据
spark
ajax
大数据
Spark
---RDD依赖关系
文章目录1.1RDD依赖关系1.2血缘关系1.3依赖关系分类1.3.1窄依赖1.3.2宽依赖1.4RDD阶段划分和任务划分1.4.1RDD阶段划分1.4.2RDD任务划分1.1RDD依赖关系在
Spark
肥大毛
·
2024-01-13 07:09
大数据
scala
spark
spark
ajax
javascript
Spark
-RDD详解
SPARK
–RDD1、RDD的介绍RDD弹性分布式数据集合是
Spark
中的一种数据类型,管理
spark
的内存数据[1,2,3,4]
spark
中还有dataframe,dataset类型拓展:开发中可以通过类的形式自定以数据类型同时还提供各种计算方法弹性可以对海量数据根据需求分成多份
中长跑路上crush
·
2024-01-13 07:09
Spark阶段
spark
大数据
分布式
Spark
Doris Connector 可以支持通过
Spark
读取 Doris 数据类型不兼容报错解决
1、版本介绍:doris版本:1.2.8
Spark
ConnectorforApacheDoris版本:
spark
-doris-connector-3.3_2.12-1.3.0.jar:1.3.0-SNAPSHOT
spark
Data_IT_Farmer
·
2024-01-13 07:57
Doris
实时数仓
spark-sql
spark
doris字段类型
Spark
十一:面试问题
完整内容见:https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ1.通常来讲,
Spark
与MapReduce相比,
Spark
运行效率更高,请说明效率更高来源于
eight_Jessen
·
2024-01-13 07:57
scala
spark
spark
面试
大数据
Spark
的内核调度
目录概述RDD的依赖DAG和StageDAG执行流程图形成和Stage划分Stage内部流程
Spark
Shuffle
Spark
中shuffle的发展历程优化前的Hashshuffle经过优化后的HashshuffleSortshuffleSortshuffle
Sisi525693
·
2024-01-13 07:56
spark
大数据
分布式
最新AI绘画Midjourney绘画提示词Prompt大全
一、Midjourney绘画工具
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-13 07:55
人工智能
软件源码
AIGC
人工智能
chatgpt
midjourney
prompt
AI作画
Spark
十:故障排除
Spark
常见故障和排除方法学习资料:https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ一、避免OOM-outofmemory在Shuffle过程中,reduce
eight_Jessen
·
2024-01-13 07:22
spark
scala
spark
数据库
git 提交符号
改进代码结构/代码格式⚡️(闪电):zap:提升性能(赛马):racehorse:提升性能(火焰):fire:移除代码或文件(bug):bug:修复bug(急救车):ambulance:重要补丁✨(火花):
spark
les
思绪万千133
·
2024-01-13 07:12
前端
Spark
Streaming
Spark
Streaming随着大数据技术的不断发展,人们对于大数据的实时性处理要求也在不断提高,传统的MapReduce等批处理框架在某些特定领域,例如实时用户推荐、用户行为分析这些应用场景上逐渐不能满足人们对实时性的需求
奋斗的蛐蛐
·
2024-01-13 06:13
hive三种计算引擎
1、配置mapreduce计算引擎sethive.execution.engine=mr;2、配置
spark
计算引擎sethive.execution.engine=
spark
;3、配置tez计算引擎sethive.execution.engine
IT达人_j
·
2024-01-13 05:45
基于大数据与时间序列预测的的书籍数据分析(内含
spark
+hive+mysql+kettle+echart+tensorflow)
目录一,绪论1、项目背景:2、目标:3、用户群体:二.相关开发技术介绍(一)后端相关技术1.
spark
SQL简介2.kettle简介3.tensorflow简介(二)前端相关技术1.HTML简介2.echarts
左岸2420
·
2024-01-13 05:59
数据库
大数据
深度学习
大数据
spark
hive
mysql
tensorflow
echarts
Hadoop/
Spark
安装
单机安装Hadoop安装Javasudoapt-getinstalldefault-jdkjava-version2.设置Hadoop用户和组sudoaddgrouphadoopsudoadduser--ingrouphadoophduser3.安装并配置SSH$sudoapt-getinstallssh$suhduser$ssh-keygen-trsa-P""cat~/.ssh/id_rsa.p
周倜吉
·
2024-01-13 03:40
Flink
GoogleFileSystemBigTableMapReduceHDFSHBaseHadoopHadoop基于硬盘,可以处理海量数据;
Spark
基于内存,性能提高百倍,微批(500ms);Flink基于
三半俊秀
·
2024-01-13 01:53
产品调研——AI平台
腾讯云-TI平台TI平台将tensorflow、pytorch、
spark
环境等均集成到一个Notebook容器中,供用户进行使用。sh-4.2$condaenvlist#condae
chenxy02
·
2024-01-13 00:49
人工智能
人工智能
Spark
中Rdd算子和Action算子--学习笔记
RDD算子filter"""rdd.filter(f):根据f函数中的判断条件对rdd追踪的数据进行过滤保留条件为True对应的rdd数据"""frompy
spark
import
Spark
Contextsc
祈愿lucky
·
2024-01-12 23:24
大数据
spark
学习
笔记
如何进行大数据系统测试
Apache
Spark
架构:
Spark
提供了基于内存
Feng.Lee
·
2024-01-12 21:41
系统测试
项目管理
测试工具
大数据
出海企业如何 "借力" 实现快速成长 | Google Play 开发者中文播客节目
image本期简介"独行快,众行远",作为帮助初创企业获得快速成长的加速器,Lean
Spark
是连接不同伙伴资源的整合者,更是技术赋能的有力后盾、帮助创业团队出海开辟市场时避坑的引路人。
谷歌开发者
·
2024-01-12 21:20
师傅带练|在线实习项目,提供实习证明
机器学习)某平台广东省区采购数据分析(Excel供需分析)产品订单的数据分析与需求预测(Python营销分析)基于注意力机制的评论者满意度分析(TensorFlow与NLP)基于锅炉工况实现蒸汽产生量预测(
Spark
泰迪智能科技
·
2024-01-12 19:11
大数据
大数据在线实习项目
大数据
71、
Spark
SQL之JDBC数据源复杂综合案例实战
JDBC数据源实战
Spark
SQL支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据,依然由DataFrame表示,可以很方便地使用
Spark
Core提供的各种算子进行处理。
ZFH__ZJ
·
2024-01-12 18:37
kafka下载安装部署
它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/
spark
流式处理引擎。kafka的特性:1.高吞吐量、低延迟
倚-天-照-海
·
2024-01-12 15:25
kafka
kafka
分布式
在浏览器中使用js-
spark
-md5计算文件的MD5
在浏览器中使用js-
spark
-md5计算文件的MD5最近开发一个视频系统,用户需要把文件上传到服务器。服务器再上传到转码服务器,编码为m3u8格式。我觉得客户端可以直接上传到转码服务器。
JonathanYee
·
2024-01-12 14:29
AI系统ChatGPT网站系统源码AI绘画详细搭建部署教程,支持GPT语音对话+DALL-E3文生图+GPT-4多模态模型识图理解
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-12 12:39
人工智能
ChatGPT
软件源码
人工智能
chatgpt
语音识别
midjourney
AI作画
gpt
【
spark
】
spark
启动报错“
spark
RpcEnv already stopped“
原因:write时候没添加awaitTermination()造成rpcEnv提前结束了。fakeDf.writeStream.format("console").outputMode("append").trigger(Trigger.Continuous("3second")).start().awaitTermination()
lisacumt
·
2024-01-12 09:09
spark
【scala】编译build报错 “xxx is not an enclosing class“
private[sources]valcreationTimeMs:Long={valsession=
Spark
Session.getActiveSession.orElse(
Spark
Session.getDefaultSession
lisacumt
·
2024-01-12 09:07
scala
后端
上一页
16
17
18
19
20
21
22
23
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他