E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark学习之路
hive join中出现的数据暴增(数据重复)
我们来看一下案例:
spark
-sql>withtest1as>(select'10001'asuid,'xiaomi'asqid>unionall>select'10002'asuid,'huawei'asqid
不想起的昵称
·
2024-03-02 15:03
hive
大数据
hadoop
hive
hive四种常见的join
1.左连接leftjoin
spark
-sql>withtest1as(>select1asuser_id,'xiaoming'asname>unionall>select2asuser_id,'xiaolan'asname
不想起的昵称
·
2024-03-02 15:33
hive
大数据
hadoop
hdfs
hive
Spark
整合hive(保姆级教程)
准备工作:1、需要安装配置好hive,如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好
spark
,如果不会安装可以跳转到
Spark
安装与配置(单机版)3、需要安装配置好Hadoop
万家林
·
2024-02-29 09:47
spark
hive
spark
hadoop
在
Spark
数据导入中的一些实践细节
best-practices-import-data-
spark
-nebula-graph本文由合合信息大数据团队柳佳浩撰写1.前言图谱业务随着时间的推移愈发的复杂化,逐渐体现出了性能上的瓶颈:单机不足以支持更大的图谱
NebulaGraph
·
2024-02-27 07:53
Spark
开发_简单DataFrame判空赋值逻辑
valtable1="实时转存数据"valtable2="历史存hdf数据"valdfin1=inputRDD(table1).asInstanceOf[org.apache.
spark
.sql.DataFrame
Matrix70
·
2024-02-26 22:06
Spark开发_工作
spark
大数据
分布式
Spark
SQL编程指南
Spark
SQL编程指南
Spark
SQL是用于结构化数据处理的一个模块。同
Spark
RDD不同地方在于
Spark
SQL的API可以给
Spark
计算引擎提供更多地信息,例如:数据结构、计算算子等。
<>=
·
2024-02-26 05:46
spark
继续教育公需科目试题及答案,分享几个实用搜题和学习工具 #经验分享#经验分享
今天,我将向大家介绍备受大学生欢迎的日常学习工具,希望能为你们的
学习之路
添砖加瓦。1.试题易这是一个网站涵盖初高中/大学/专升本/考研/成人自考/各类资格证等等考试题目,同时支持截图搜题、语音
红色小鬼头
·
2024-02-20 19:29
学习
经验分享
cpp程序员速成rust(更新中)
前言cpper在学习rust过程中会免不得将rust的语法跟cpp做对比,所以特开此坑,在此记录下来我的rust
学习之路
,仅供参考。
_沥川往事
·
2024-02-20 18:52
rust
开发语言
Pandas将单列XML格式数据转化为字典再拆分成多列 列表拆分成多列
单列XML扩展成多列遇到了个需求是需要把XML格式的数据拆分成多列的一个需求,本来需要使用
spark
进行处理的,但是没想到什么优雅的解决方案,所以打算先使用pandas找找感觉。样例数据如下所示。
aoyi1337
·
2024-02-20 18:22
python
学习能增强勇气
自从接触“焦点”,重新走上
学习之路
以来,久而久之,我发现,面对任何一件事,即使以前从未接触过,我想,只要从心理上接受,就会想方设法去考虑它的设计方案,执行计划等相关事宜,这样,就有可能圆满完成这项工作。
快乐一生_87e8
·
2024-02-20 17:38
航班数据预测与分析
数据清洗:数据存储到HDFS:使用py
spark
对数据进行分析://数据导入frompy
spark
import
Spark
Contextfrompy
spark
.sqlimportSQLContextsc=
林坰
·
2024-02-20 16:15
大数据
spark
航班数据分析
杜艳辉
再聊阴影裁剪与高性能视锥剔除
【U
Spark
le专栏】如果你深怀绝技,爱“搞点研究”,乐于分享也博采众长,我们期待你的加入,让智慧的火花碰撞交织,让知识的传递生生不息!
·
2024-02-20 16:50
unity
spark
为什么比mapreduce快?
spark
为什么比mapreduce快?
·
2024-02-20 16:30
后端
[CDH]
Spark
属性、内存、CPU相关知识梳理
version:2.4.0-cdh6.3.0文章目录
spark
properties常用配置
spark
task
spark
task使用的cpu核数
spark
architecture
spark
memory
spark
onyarn
枪枪枪
·
2024-02-20 15:24
Spark
spark
scala
big
data
spark
CTAS nuion all (union all的个数很多)导致超过
spark
.driver.maxResultSize配置(2G)
背景该sql运行在
spark
版本3.1.2下的thriftserver下现象在运行包含多个union的
spark
sql的时候报错(该sql包含了50多个uinon,且每个union字查询中会包含join
鸿乃江边鸟
·
2024-02-20 13:29
java
学习之路
(3)-JAVA_HOME环境变量配置
win+i>>找到高级系统设置>>环境变量>>系统变量新建path中添加'%JAVA_HOME%\bin'
ouxiaoxian
·
2024-02-20 13:11
java
学习
python
java
学习之路
(2)-编译java文件运行Java文件
创建.java后缀文本文件HelloWorld.java写入代码:publicclassHelloWorld{publicstaticvoidmain(String[]args){System.out.println("HelloWorld");}}运行cmd命令找到代码所在目录输入javac编译Java文件生成HelloWorld.class编译:javac是JDK提供的编译工具,我们可以通过这
ouxiaoxian
·
2024-02-20 13:10
Java
java
学习
开发语言
java
学习之路
(1)-隐藏桌面图标从CMD命令中打开软件
1.找到文件所在路径:2.将文件路径添加到环境变量中3.win+r打开cmd输入命令(目录后面的QQScLauncher.exe)直接可以打开QQ软件,删除桌面图标,别人就找不到了,只能通过cmd命令或者是找到安装包所在位置才能打开软件
ouxiaoxian
·
2024-02-20 13:40
Java
学习
一个00后的蜕变之路,一定要看到最后
我跟很多人聊过天,每当跟他们说起学习的时候,自己都不以为然,我一般也不反对他们说的那些话,在当今这个社会,读书很重要,我当初放弃了
学习之路
,有一部分原因是因为我自己胆小,经常收到同桌欺压不敢跟老师家长讲
薄荷味日记
·
2024-02-20 12:10
Flink理论—Flink架构设计
它集成了所有常见的集群资源管理器,例如HadoopYARN,但也可以设置作为独立集群甚至库运行,例如
Spark
的StandaloneMode本节概述了Flink架构,并且描述了其主要组件如何交互以执行应用程序和从故障中恢复
不二人生
·
2024-02-20 12:59
#
Flink
理论
flink
大数据
我的英语
学习之路
(二)
昨晚英语课结课了。从6月26日到8月6日,周一到周四每晚两个小时,连续上了六周的课。每天下班后匆匆忙忙赶去课室,课室较偏买快餐很困难(时间不允许走得更远些去吃饭),我的晚餐基本就是一块饼两个包之类的,看到从更远的地方下班赶过来的同学争分夺秒地吃着晚餐,我不禁感慨上班族用业务时间学习真不容易。不过大家都是自愿来学习的,没人有怨言,学习气氛还是很浓的,大家经常是一边吃着面包一边讨论昨天老师布置的作业。
LydiaYY98
·
2024-02-20 11:30
大数据 -
Spark
系列《六》- RDD详解
Spark
系列文章:大数据-
Spark
系列《一》-从Hadoop到
Spark
:大数据计算引擎的演进-CSDN博客大数据-
Spark
系列《二》-关于
Spark
在Idea中的一些常用配置-CSDN博客大数据
王哪跑nn
·
2024-02-20 10:55
spark
大数据
spark
分布式
大数据 -
Spark
系列《七》- 分区器详解
Spark
系列文章:大数据-
Spark
系列《一》-从Hadoop到
Spark
:大数据计算引擎的演进-CSDN博客大数据-
Spark
系列《二》-关于
Spark
在Idea中的一些常用配置-CSDN博客大数据
王哪跑nn
·
2024-02-20 10:55
spark
大数据
spark
分布式
Hive切换引擎(MR、Tez、
Spark
)
Hive切换引擎(MR、Tez、
Spark
)1.MapReduce计算引擎(默认)sethive.execution.engine=mr;2.Tez引擎sethive.execution.engine=
落空空。
·
2024-02-20 10:54
hive
mr
spark
【GRU回归预测】麻雀算法优化注意力机制卷积神经网络结合双向门控循环单元SSA-Attention-CNN-BiGRU数据预测(多输入多输出)【含Matlab源码 3905期】
个人主页:海神之光代码获取方式:海神之光Matlab王者
学习之路
—代码获取方式⛳️座右铭:行百里者,半于九十。
Matlab领域
·
2024-02-20 09:14
matlab
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制`TableInputFormat`来实现我们的需求了,我们还可以采用Flink的`DataSet`的方式读取,另外下面还有`
Spark
kikiki5
·
2024-02-20 07:17
php实现讯飞星火大模型3.5
星火大模型-科大讯飞2.修改对应php文件中的key等可以参考文档说明,以及下载demo星火认知大模型WebAPI文档|讯飞开放平台文档中心其中appid等都需要修改还有uid,3.5模型wss://
spark
-ap
随风万里无云
·
2024-02-20 07:38
ai
php
开发语言
2024.2.19 阿里云Flink
一、Flink基本介绍
Spark
底层是微批处理,Flink底层则是实时流计算流式计算特点:数据是源源不断产生,两大问题,乱序和延迟Stateful:有状态Flink的三个部分Source:Transactions
白白的wj
·
2024-02-20 07:05
flink
大数据
Flink Catalog 解读与同步 Hudi 表元数据的最佳实践
在当前的大数据格局中,
Spark
/Hive/Flink是最为主流的ETL或Strea
Laurence
·
2024-02-20 06:28
大数据专题
flink
catalog
hudi
metastore
hive
共用表
元数据
面试系列之《
Spark
》(持续更新...)
stage:一个job任务中从后往前划分,分区间每产生了shuffle也就是宽依赖则划分为一个stage,stage这体现了
spark
的pipeline思想,即数据在内存中尽可能的往后多计算,最后落盘,
atwdy
·
2024-02-20 06:07
Spark
面试
spark
以内存为核心的开源分布式存储系统
Tachyon为不同的大数据计算框架(如Apache
Spark
,HadoopMapReduce,ApacheFlink等)提供可靠的内存级的数据共享服务。
这次靠你了
·
2024-02-20 05:26
大数据
Tachyon
hdfs
大数据
手机远程控制树莓派-BLINKER应用(物联网基础)
由于我买了坚果云这个软件服务,所以我对云储存并无太大的兴趣,只是有时候要远程回家翻翻服务器上的东西,或者挂着下载个东西,跑个py
spark
之类的。
crossni
·
2024-02-20 00:15
硬件
无依赖单机尝鲜 Nebula Exchange 的 SST 导入
无依赖单机尝鲜NebulaExchange的SST导入本文尝试分享下以最小方式(单机、容器化
Spark
、Hadoop、NebulaGraph),快速趟一下NebulaExchange中SST写入方式的步骤
NebulaGraph
·
2024-02-19 23:51
Linux下
Spark
offline安装graphframes包
文章目录背景安装步骤背景GraphX是
Spark
中用于图计算的模块.
Spark
安装包中内置Scala语言的GraphX库,但是对于Python语言的安装包,需要额外进行安装.对于内网服务器,不能访问外网
ithiker
·
2024-02-19 22:45
spark
linux
spark
剽悍一只猫的剽悍行动营——我的二十二天
学习之路
作者:原来如此我就是这么幸运,有幸知道有行动营这个社群,并且幸运的加入了这个社群。在一个正确的时间,认识了一群有正能量的人,学习了很多正能量的知识。我是一个赋闲在家十年的人;我是一个全职的家庭主妇;我是一个没有高学历的人;我是一个没有特长的人;我是一个与社会脱节的人……但就是这样的我,有幸通过朋友加入行动营。每天除了接送孩子做家务,刷刷朋友圈,追剧,这就是你想要的生活吗?你的以后后也要这样度过吗?
娜一姐
·
2024-02-19 18:55
AWS Serverless Py
Spark
指定 Python 版本(qbit)
的最新版本是6.15,自带的Python版本是3.7,尝试上传使用Python3.11Python环境打包技术栈Ubuntu22.04(x86)Linuxversion5.15Python3.11.5py
spark
3.4.1conda23.10.0conda-pack0.7.1
·
2024-02-19 16:05
Quick introduction to Apache
Spark
什么是
Spark
Apache
Spark
是一种快速通用的集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎。
Liam_ml
·
2024-02-19 13:29
Spark
中多分区写文件前可以不排序么
背景
Spark
3.5.0目前
Spark
中的实现中,对于多分区的写入默认会先排序,这是没必要的。
鸿乃江边鸟
·
2024-02-19 13:10
分布式
spark
大数据
spark
大数据
分布式
Flink 细粒度滑动窗口性能优化
大数据技术AIFlink/
Spark
/Hadoop/数仓,数据分析、面试,源码解读等干货学习资料118篇原创内容公众号1、概述1.1细粒度滑动的影响当使用细粒度的滑动窗口(窗口长度远远大于滑动步长)时,
hyunbar
·
2024-02-19 13:39
Flink
大数据
flink
java
数据库
【大数据面试题】006介绍一下Parquet存储格式的优势
同时一般查询使用时不会使用所有列,而是只用到几列,所以查询速度会更快压缩比例高因为是列式存储,所以可以对同一类型的一段做压缩,压缩比例高支持的平台和框架多在Hadoop,
Spark
,Presto,Python
Jiweilai1
·
2024-02-19 13:34
一天一道面试题
大数据
spark
hadoop
七天爆肝flink笔记
一.flink整体介绍及wordcount案例代码1.1整体介绍从上到下包含有界无界流支持状态特点与
spark
对比应用场景架构分层1.2示例代码了解了后就整个demo吧数据源准备这里直接用的文本文件gradle
我才是真的封不觉
·
2024-02-19 13:01
flink
笔记
大数据
一起走的
学习之路
(294)
数据化思维之前国庆的时候我想大家都听说了我们可能会和周林一起接一个门面。由于是大投资,所以我们都比较慎重,说实话,这个门面在我们看来,并不太好,但是周林他们却觉得不错。因此,这几天方同学就一直在研究这个店铺的科学性。今天,他就在群里一直发一串数字,刚开始我并不知道这是什么意思,结果后来他解释了一下,是同一时段新门面费门口人流量,周围店铺客人,新门面客人,以及我们现在这个店铺的客人。然后对比了好多个
小米雨路
·
2024-02-19 13:35
(15)Hive调优——数据倾斜的解决指南
目录前言一、什么是数据倾斜二、发生数据倾斜的表现2.1MapReduce任务2.2
Spark
任务三、如何定位发生数据倾斜的代码四、发生数据倾斜的原因3.1key分布不均匀3.1.1某些key存在大量相同值
爱吃辣条byte
·
2024-02-19 11:50
#
Hive
大数据
hive
Hive on
Spark
配置
前提条件1、安装好Hive,参考:Hive安装部署-CSDN博客2、下载好
Spark
安装包,链接:https://pan.baidu.com/s/1plIBKPUAv79WJxBSbdPODw?
在下区区俗物
·
2024-02-15 10:51
hive
spark
hadoop
配置hive on
spark
配置hiveon
spark
1、上传
Spark
纯净版jar包到HDFS:hdfsdfs-mkdir/
spark
-jarshdfsdfs-put/opt/
spark
/jars/*/
spark
-jars2、修改
空白格2519
·
2024-02-15 10:51
数据采集
big
data
hive
spark
hadoop
hive on
spark
配置经验
常规配置配置完,开启hadoop,开启
spark
(如果在hdfs上上传了纯净版的
spark
则不需要开启),开启hive注:当前节点一定要是namenode的active节点,因为hadoop长时间不用namenode
小五冲冲冲
·
2024-02-15 10:21
Spark
hive
spark
hadoop
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有
Spark
kikiki2
·
2024-02-15 06:39
这是属于2020年的第一篇:疫情带给我的思考
这是“精进
学习之路
”第1篇原创文章,阅读大约需3分钟。大家好,我是精进
学习之路
(微信公众号)。今天我正式的第一篇文章。我到底要做什么呢?这要从2020年春节说起。
麦小麦兜兜不住
·
2024-02-15 05:18
一起走的
学习之路
(四十八)
很多事情为什么做不好,因为大多数时候他们真的不是我们的刚需。你说我们想要找更多的钱,想要财富自由,但似乎不管怎样,我们依旧不会饿死,基本的生活仍然可以保证,于是想更多方法赚更多钱就不是那么刚需,所以我们常常就更多的是想想。回想一下,我每次做成功的事似乎都因为那件事是刚需。以前每到期末就会很认真的复习,因为期末考试成绩直接影响着奖学金或是寒暑假的质量。为什么大学毕业考公务员和有了工作参加公务员考试是
小米雨路
·
2024-02-15 03:09
(免费领源码)python+mysql+
spark
手机销售数据的可视化分析系统44127-计算机毕业设计项目选题推荐
摘要信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对手机销售数据管理等问题,对手机销售数据管理进行研究分析,然后开发设计出手机销售数据可视化系统以解决问题。手机销售数据可视化系统主要功能模块包括系统首页、轮播图、公告信息、资源管理(新闻资讯、新闻分类)交流管理(交流论坛、论坛分
2301_3224142804
·
2024-02-15 00:40
python
mysql
spark
java
spring
boot
php
c#
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他