E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark技术篇
Spark
读取excle、xlsx数据(Session读取)
读取xlsx版本:IntelliJIDEACommunityEdition2019.2.4apache-maven-3.6.2
Spark
2.0.2hadoop2.6_Win_x64-master话不多说
阿朱__
·
2023-11-14 18:51
spark
scala
Spark
Scala
利用
Spark
代码从Excel文件中读取多个数据表数据(使用Session读取)
利用
spark
代码从excel文件中读取数据1.需要添加poi的pom文件org.apache.poipoi3.17com.crealytics
spark
-excel_2.11
陈沐
·
2023-11-14 18:51
spark
spark
big
data
Spark
如何读取 excel 指定 sheet 中的数据
最近遇到一个需求,就是使用
spark
-excel读取excel,需要根据输入的sheet页数读取数据。我在网上搜索了一番,却没有合适的答案。
悦千言
·
2023-11-14 18:21
spark
大数据
excel
java
spark
读取excel成dataframe的几种方式
目前只用到两种方法一data.xlsx放在resource目录下相关依赖com.crealytics
spark
-excel_2.110.10.2主要代码val
spark
Conf=new
Spark
Conf
飘满红楼
·
2023-11-14 18:20
大数据
spark
scala
Spark
读取Excel文件
Spark
读取Excel文件需要先添加对应的第三方库com.crealytics
spark
-excel_2.123.3.1_0.18.5将上面的依赖添加上即可测试数据如下图代码模板如下importorg.apache.
spark
.sql
飞天小老头
·
2023-11-14 18:19
SPARK
spark
excel
大数据
Spark
怎么样可以拉取excel的数据
需要导入一个支持的jarcom.crealytics
spark
-excel_2.110.12.2读取的方式如下defmain(args:Array[String]):Unit={valsession=
Spark
Session.builder
尘世壹俗人
·
2023-11-14 18:19
大数据Spark技术
spark
大数据
spark
进行数据清洗时,如何读取xlsx表格类型文件
首先可以确定的是
spark
有专门对应excel表格读取的工具,在用
spark
-sql对xlsx类型文件进行读取的时候只需要再pom.xml文件里添加依赖就可以了添加依赖如下com.crealytics
spark
-excel
枯槁橘子皮
·
2023-11-14 18:49
大数据
spark
excel
apache
大数据
Spark
-- 直接读写Excel文件
参考GitHub:https://github.com/crealytics/
spark
-excel 我使用了0.13.1版本的,此版本在读Excel时,必须指定文件,不能指定目录,否则报错。
TheBiiigBlue
·
2023-11-14 18:19
Spark
spark
excel
Spark
读取excel文件
文章目录一、excel数据源转成csv二、
Spark
读取csv文件(一)启动
spark
-shell(二)读取csv生成df(三)查看df内容一、excel数据源转成csv集群bigdata-ubuntu
howard2005
·
2023-11-14 18:48
Spark大数据处理讲课笔记
spark
excel
csv
深入理解Kafka3.6.0的核心概念,搭建与使用
)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、Storm/
Spark
Mumunu-
·
2023-11-14 16:44
ELK
hadoop
kafka
hadoop
kafka
ELK
Scala---介绍及安装使用
这里学习Scala语言的原因是后期我们会学习一个优秀的计算框架
Spark
,
Spark
底层源码的编写语言就有Scala,同时工作中很有可能使用Scala语言进行
Spark
的开发。
Spark
1.6版本中
30岁老阿姨
·
2023-11-14 14:51
Scala
scala
开发语言
后端
【大数据实训】基于当当网图书信息的数据分析与可视化(八)
CSDN平台官方提供的博主的联系方式,有偿帮忙部署基于当当网图书信息的数据分析与可视化一、实验环境(1)Linux:Ubuntu16.04(2)Python:3.5(3)Hadoop:3.1.3(4)
Spark
大模型Maynor
·
2023-11-14 10:18
大数据
数据分析
数据挖掘
数据工程中九大痛点
你可以让几个独立的数据产品团队致力于花哨的ML建模,在
Spark
GPU集群上花费数千美元,但模型的准确性却
极道Jdon
·
2023-11-14 08:10
javascript
reactjs
大数据-
Spark
调优(二)
大数据-
Spark
调优(二)尽量避免使用shuffle类算子shuffle描述
spark
中的shuffle涉及到数据要进行大量的网络传输,下游阶段的task任务需要通过网络拉取上阶段task的输出数据,
海恋北斗星
·
2023-11-14 06:18
大数据
spark
大数据之
Spark
调优:Explain 查看执行计划
目录Explain查看执行计划准备测试用表和数据基本语法执行计划处理流程案例实操代码Explain查看执行计划
Spark
3.0大版本发布,
Spark
SQL的优化占比将近50%。
浊酒南街
·
2023-11-14 06:17
Spark调优
大数据
spark
分布式
Spark
性能调优案例-优化
spark
估计表大小失败 和 小表关联 走 broadcast join
B任务关联一张小表,实际任务耗时较长排查思路A任务排查查看
spark
UIsql界面:问题1:发现并没有走广播join观察此处join,对于76条数据的表,估计的大小超过10M,实际76条数据大小小于
spark
.sql.autoBroadcastJoinThreshold
fir_dameng
·
2023-11-14 06:46
Spark
broadcast
join
Spark
sql
参数调优
小表估计失败
Spark
性能调优案例-多表join优化,减少shuffle
背景A任务在凌晨1点到3点,平均耗时1h,且是核心公共任务,急需优化。整体逻辑示意图://从tableA读取一次数据,放到临时表t1DROPTABLEIFEXISTStemp.tmp_xx_$date_1;CREATETABLEIFNOTEXISTStemp.tmp_xxx_$date_1asselectxxxfromtableAwherexxxx;//从临时表t1读取和转换数据,得临时表t2DR
fir_dameng
·
2023-11-14 06:45
Spark
spark
sql
Spark3.0
多表join优化
消除shuffle
逻辑优化
Spark
算子调优
使用mapPartition提升map类操作的性能数据量不是特别大的时候,都可以用这种MapPartitions系列操作,性能还是非常不错的,是有提升的。mapToPair----->mapPartitionsToPairreturnactionRDD.mapToPair(newPairFunction(){@OverridepublicTuple2call(Rowrow)throwsExcept
星空下的那个人影
·
2023-11-14 06:14
大数据面试
spark
Spark
调优
Spark
调优一、
Spark
资源参数调优二、开发调优**调优思路:**优先使用参数调优,如果参数调优不能满足我们的业务场景,这里就要涉及到代码调优一、
Spark
资源参数调优•num-executors:
栗子呀!
·
2023-11-14 06:13
大数据Spark专栏
大数据
spark
hadoop
Spark
性能调优总结
目录1:
spark
为什么需要调优2.调优的本质3.什么是RDD从薯片加工了解rddRDD的特征和属性4.关于内存计算什么是内存计算:什么是DAGstage的划分stage中的内存计算是怎么样的5.调优之数据不动代码动
只会写demo的程序猿
·
2023-11-14 06:43
spark
spark
调优-开发调优
RDD(3)对多次使用的RDD进行持久化(4)尽量避免使用shuffle类的算子(5)使用map-side预聚合的shuffle操作(combine)(6)使用高性能的算子(7)使用广播变量(8)使用
spark
qichangjian
·
2023-11-14 06:12
大数据学习
hive on
spark
调优学习笔记
1集群环境概述1.1集群配置概述:所用集群由5台节点构成,其中2台为master节点,用于部署HDFS的NameNode,Yarn的ResourceManager等角色,另外3台为worker节点,用于部署HDFS的DataNode、Yarn的NodeManager等角色。Master节点配置为16核CPU、64G内存。Workder节点配置为32核CPU、128G内存。1.2集群规划概述:2ya
一只友
·
2023-11-14 06:39
hive
spark
学习
大数据开发-
Spark
调优常用手段
Spark
调优
spark
调优常见手段,在生产中常常会遇到各种各样的问题,有事前原因,有事中原因,也有不规范原因,
spark
调优总结下来可以从下面几个点来调优。
Hoult-吴邪
·
2023-11-14 06:39
Spark
性能调优案例
除了对业务的理解之外,对于
Spark
本身的机制也要深入理解,这样才能通过各种调整,充分发挥
Spark
的优势,达成调优的目的。下面以一个案例尝试总结常用的
Spark
大数据男
·
2023-11-14 06:08
hadoop异常
java
spark
big
data
大数据
Spark
SQL调优案例:单字段NOT IN子查询优化
背景有如下的数据查询场景。表结构createtableorder(order_idlong,customer_idlong)partitionedby(datestring);要查询当天有订单,但是前一天没有订单的用户在当天的订单记录。数据分析的同事编写的最初版本的SQL如下select*fromorderwheredate='2021-07-17'andcustomer_idnotin(sele
hammertank
·
2023-11-14 06:38
spark
【技术难点】hive on
spark
调优
hiveon
spark
性能远比hiveonmr要好,而且提供了一样的功能。用户的sql无需修改就可以直接运行于hiveon
spark
。udf函数也是全部支持。
无精疯
·
2023-11-14 06:05
spark
大数据
java
hadoop
分布式
Spark
SQL 每年的1月1日算当年的第一个自然周, 给出日期,计算是本年的第几周
一、问题按每年的1月1日算当年的第一个自然周(遇到跨年也不管,如果1月1日是周三,那么到1月5号(周日)算是本年的第一个自然周,如果按周一是一周的第一天)计算是本年的第几周,那么
spark
sql如何写?
_lizhiqiang
·
2023-11-14 06:02
spark
sql
spark
调优案例分享
做了一个
Spark
调优案例的分享最近在整理了
Spark
相关的调优案例,并做了以下分享:
spark
调优案例,注意是MacKeynote
鸿乃江边鸟
·
2023-11-14 06:01
spark
分布式
spark
大数据
分布式
Spark
3.0中的AOE、DPP和Hint增强
1
Spark
3.0AQE
Spark
在3.0版本推出了AQE(AdaptiveQueryExecution),即自适应查询执行。
shangjg3
·
2023-11-14 06:32
Spark
大数据
spark
分布式
Spark
数据倾斜优化
1数据倾斜现象1、现象绝大多数task任务运行速度很快,但是就是有那么几个task任务运行极其缓慢,慢慢的可能就接着报内存溢出的问题。2、原因数据倾斜一般是发生在shuffle类的算子,比如distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup等,涉及到数据重分区,如果其中某一个key数量特别大,就发生了数据倾斜。2数据倾斜大key定
shangjg3
·
2023-11-14 06:30
Spark
大数据
spark
分布式
基于C#+WPF编写的调用讯飞星火大模型工具
工具源码:https://github.com/lishuangquan1987/XFYun.
Spark
Chat工具效果截图:支持流式输出:其中ApiKey/ApiSecret/AppId需要自己到讯飞星火大模型官网去注册账号申请
lishuangquan1987
·
2023-11-14 04:45
c#
开发语言
星火大模型
Spark
SQL之Analyzed LogicalPlan生成过程
经过AstBuilder的处理,得到了UnresolvedLogicalPlan。该逻辑算子树中未被解析的有UnresolvedRelation和UnresolvedAttribute两种对象。Analyzer所起到的主要作用就是将这两种节点或表达式解析成有类型的(Typed)对象。在此过程中,需要用到Catalog的相关信息。 因为继承自RuleExecutor类,所以Analyzer执行
RainTicking
·
2023-11-14 01:48
大数据
大数据
scala
Advanced Materials_Ben Cloward
Episode2——
Spark
lingSnowShader这一集来制作一个闪闪发光的雪的材质用到的材质是这个下载的是4K的,但是为了性能考虑需要优化一下这个纹理,把法线分为主要的和细节法线,主N为1024
嘟嘟小魔王_
·
2023-11-13 23:14
Unity
Shader学习
unity
1024程序员节
国际测试委员会BenchCouncil首发“开源系统杰出成果榜” 百度飞桨上榜
本文收录于恒川的日常汇报系列,大家有兴趣的可以看一看相关专栏C语言初阶、C语言进阶系列、恒川等,大家有兴趣的可以看一看Python零基础入门系列,Java入门篇系列、docker
技术篇
系列、Apollo
热爱跑步的恒川
·
2023-11-13 19:04
恒川的日常汇报
开源
百度
paddlepaddle
人工智能
国家数据局正式揭牌,数据专业融合型人才迎来发展良机
本文收录于恒川的日常汇报系列,大家有兴趣的可以看一看相关专栏C语言初阶、C语言进阶系列、恒川等,大家有兴趣的可以看一看Python零基础入门系列,Java入门篇系列、docker
技术篇
系列、Apollo
热爱跑步的恒川
·
2023-11-13 19:03
恒川的日常汇报
人工智能
AI识别
算法
科技
测试工具
Spark
Worker 启动流程及源码详解
环境:
spark
2.3.3scala2.11.8Java1.8.0_141可以参考【
Spark
Master启动流程及源码详解】${
SPARK
_HOME}/sbin/start-slaves.sh#Launchtheslaves
ustbxyls
·
2023-11-13 17:59
大数据
Spark
Spark源码
大数据
Spark
Sql创建临时表并查询数据
importorg.apache.
spark
.sql.{DataFrame,
Spark
Session}importorg.apache.
spark
.sql.types.
Vincer_DB
·
2023-11-13 16:04
大数据
Scala
大数据
SparkSQL
Dataset 的一些 Java api 操作
文章目录一、使用JavaAPI和JavaRDD在
Spark
SQL中向数据帧添加新列二、foreachPartition遍历Dataset三、Dataset自定义Partitioner四、Dataset重分区并且获取分区数五
小强签名设计
·
2023-11-13 12:29
spark
Dataset
Spark
SQL
spark
sql读取hive数据直接写入doris,离线批量导入
一,
spark
sql读取hive表这里通过catalog查询表的字段信息,然后查询出来的字段colStr要给下面的doris使用。注意:我这里是直接拿取的hive表所有的字段。
黄瓜炖啤酒鸭
·
2023-11-13 12:36
apache
doris
sparkSql写入doris
spark
写入
doris
doris
spark
doris
Doris:读取Doris数据的N种方法
目录1.MySQLClient2.JDBC3.查询计划4.
Spark
DorisConnector5.FlinkDorisConnector1.MySQLClientDoris采用MySQL协议,高度兼容
m0_37559973
·
2023-11-13 12:59
Doris
doris
Spark
资源调优
1资源规划1.1资源设定考虑1、总体原则以单台服务器128G内存,32线程为例。先设定单个Executor核数,根据Yarn配置得出每个节点最多的Executor数量,每个节点的yarn内存/每个节点数量=单个节点的数量总的executor数=单节点数量*节点数。2、具体提交参数1)executor-cores每个executor的最大核数。根据经验实践,设定在3~6之间比较合理。2)num-ex
shangjg3
·
2023-11-13 08:41
Spark
大数据
spark
Spark
Job优化
1Map端优化1.1Map端聚合map-side预聚合,就是在每个节点本地对相同的key进行一次聚合操作,类似于MapReduce中的本地combiner。map-side预聚合之后,每个节点本地就只会有一条相同的key,因为多条相同的key都被聚合起来了。其他节点在拉取所有节点上的相同key时,就会大大减少需要拉取的数据数量,从而也就减少了磁盘IO以及网络传输开销。RDD的话建议使用reduce
shangjg3
·
2023-11-13 08:03
Spark
spark
大数据
分布式
基于
Spark
的电商用户行为实时分析可视化系统(Flask-SocketIO)
基于
Spark
的电商用户行为实时分析可视化系统(Flask-SocketIO)项目简介该项目已上线蓝桥课程,有需要的可凭邀请码(UB5mdLbl)学习哦,有优惠!
Mise_V
·
2023-11-13 04:14
Spark
spark
kafka
redis
python
flask
进阶SQL——数据表中多列按照指定格式拼接,并将多行内容合并为map拼接
示例:str_to_map(concat_ws(',',collect_set(concat_ws(':',modelname,score))))asscore_map,这条语句是一个
Spark
SQL的语句
JingjingyiyiGuo
·
2023-11-12 22:25
MySQL
sql
数据库
hive和
spark
-sql中 日期和时间相关函数 测试对比
测试版本:hive2.3.4
spark
3.1.1hadoop2.7.71、增加月份add_months(timestampdate,intmonths)add_months(timestampdate,
Data_IT_Farmer
·
2023-11-12 21:26
hive
hive
数据仓库
日期函数
时间函数
软件开发学习资料大全
进入大数据
Spark
SQL的世界链接:https://pan.baidu.com/s/1_AINgCN8KaQEbnJRkWnKdw提取码:7j85Java深入微服务原理改造房产销售平台链接:https
时光如水_岁月如哥
·
2023-11-12 17:09
others
开发
Hive的表操作2
Hive系列注:大家觉得博客好的话,别忘了点赞收藏呀,本人每周都会更新关于人工智能和大数据相关的内容,内容多为原创,PythonJavaScalaSQL代码,CVNLP推荐系统等,
Spark
FlinkKafkaHbaseHiveFlume
陈万君Allen
·
2023-11-12 16:00
Java和大数据
hive
大数据
hadoop
spark
插入动态分区代码报错
现象
Spark
Sessionsession=
Spark
Session.builder().config(
spark
Conf).config("hive.exec.dynamic.partition.mode
cclovezbf
·
2023-11-12 16:17
spark
spark
hive
大数据
Cannot initialize Cluster. Please check your configuration for mapreduce.framework .name and the cor
我知道问题点肯定在
spark
2.3.1集成hive3.1.0的版本问题上,因为hive3.1.0新增了很多功能,如事务等,发布时间没有长时间的积累,出问题很容易不受控制。
汐朔
·
2023-11-12 16:47
hadoop
Spark
spark
大数据
hadoop
hive
hive3.0
Spark
SQL之Catelog体系
在
Spark
SQL系统中,Catalog主要用于各种函数资源信息和元数据信息(数据库、数据表、数据视图、数据分区与函数等)的统一管理。
Spark
SQL的Catalog体系涉及多个方面,不同
RainTicking
·
2023-11-12 12:07
大数据
大数据
scala
上一页
47
48
49
50
51
52
53
54
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他