E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓项目学习
新一代实时神器-Fluss初识及部署
在作者看来,其实Fluss目前的主要替换者是Kafka,它的出现也是为了替换kafka在实时
数仓
链路中
本旺
·
2025-01-20 06:01
大数据
Flink
Fluss
flink
大数据
数据结构
etl
SS00023.PBpositions——|Hadoop&PB级离线
数仓
.v02|——|Griffin.v02|Griffin部署|
一、Griffin编译准备###---软件解压缩[root@hadoop02~]#ls/opt/yanqi/software/griffin-griffin-0.5.0.zip/opt/yanqi/software/griffin-griffin-0.5.0.zip[root@hadoop02~]#cd/opt/yanqi/software/[root@hadoop02software]#unzi
yanqi_vip
·
2025-01-19 21:30
数据库
hadoop
hive
大数据
hdfs
一文读懂数据仓库构建流程(超详细)
相信大家都知道
数仓
分层架构(ods、dwd、dim、dws等)。
嗨皮一会吧
·
2025-01-19 15:41
数仓构建
数据仓库
数仓
建模(五)选择
数仓
技术栈:Hive & ClickHouse & 其它
在大数据技术的飞速发展下,数据仓库(DataWarehouse,简称
数仓
)成为企业处理和分析海量数据的核心工具。
昊昊该干饭了
·
2025-01-19 08:45
数仓建模
大数据
hive
clickhouse
hadoop
关于大规模实时
数仓
搭建,我有几条心得...
现状闲鱼作为一款闲置交易APP,在二手交易市场中是当之无愧的佼佼者。闲鱼从2014年诞生到现在七整年间持续增长,在这高速增长的背后带来的是每天近百亿的曝光点击浏览等数据,在这些数据规模如此庞大的背后也会带来诸多关于实时性的问题:•用户反馈商品曝光异常,如何快速定位?•产品同学圈了一批商品,如何查看该样本的实时报表?•发现问题总是晚一步,如何在第一时间获取自定义的预警信息?•......为了解决上述
闲鱼技术
·
2025-01-19 06:28
大数据
数据分析
java
编程语言
人工智能
集群间hive
数仓
迁移
方式一:(此方法需要建库建表)第一步:建库建表在原集群hive上查看迁移表的建表语句及所在库,然后在新集群hive上建库建表;showcreatetabletb_name;createdatabasedb_name;createtabletb_name.....第二步:转移数据文件到新集群;在旧集群中下载数据到本地hadoopfs-get/user/hive/warehouse/dc_ods.db
one code
·
2025-01-18 17:15
database
【
数仓
】数据质量监控
之前提到了数据质量:【
数仓
】数据质量我在面试中也碰到了数据质量的问题,没回答出来。今天学习一下数据质量监控原则。欢迎点击此处关注公众号。
和风与影
·
2025-01-18 13:15
数据仓库
大数据
数据库
数据挖掘
数据仓库
大数据-257 离线
数仓
- 数据质量监控 监控方法 Griffin架构
点一下关注吧!!!非常感谢!!持续更新!!!Java篇开始了!目前开始更新MyBatis,一起深入浅出!目前已经更新到了:Hadoop(已更完)HDFS(已更完)MapReduce(已更完)Hive(已更完)Flume(已更完)Sqoop(已更完)Zookeeper(已更完)HBase(已更完)Redis(已更完)Kafka(已更完)Spark(已更完)Flink(已更完)ClickHouse(已
武子康
·
2025-01-18 10:29
大数据
离线数仓
大数据
数据仓库
java
后端
hadoop
hive
智能数据时代:如何优化
数仓
模型的复用性
在
数仓
岗位面试中,相信很多同学都频繁被问到“模型复用性”相关面试题。这个也是很多企业
数仓
建设中非常关注的问题,因为在企业
数仓
建设中
数仓
模型的复用性,更是有着多方面的关键意义。
Python编程杰哥
·
2025-01-18 00:44
llama
人工智能
easyui
前端
设计模式
数智化转型 | 星环科技Defensor 助力某银行数据分类分级
某银行作为数字化转型的先行者,面临着一项艰巨的任务:如何高效、准确地对分布在多个业务系统、业务库与
数仓
数湖中的约80万个字段进行数据分类和分级。
·
2025-01-18 00:56
数据库
案例分享|快速了解实时湖仓集一体技术如何助力企业降本增效
该农商行基于星环科技实时湖仓集一体平台,替代了Teradata
数仓
、Oracle数据平台和Hadoop数据湖三个平台,一体化架构同时满足数据湖海量汇集、复杂
数仓
模型
·
2025-01-17 20:42
mysql
采用海豚调度器+Doris开发
数仓
保姆级教程(满满是踩坑干货细节,持续更新)
目录一、采用海豚调度器+Doris开发平替CDHHdfs+Yarn+Hive+Oozie的理由。1.架构复杂性2.数据处理性能3.数据同步与更新4.资源利用率与成本6.生态系统与兼容性7.符合信创或国产化要求二、ODS层接入数据接入kafka实时数据踩坑的问题细节三、海豚调度器调度Doris进行报表开发创建带分区的表在doris进行开发调试开发海豚调度器脚本解决shell脚本使用MySQL命令行给
大模型大数据攻城狮
·
2025-01-17 19:56
海豚调度器从入门到精通
doris
海豚调度器
离线数仓
实时数仓
国产代替
信创大数据
flink数仓
数仓
数据分层(ODS DWD DWS ADS)
ODSDWDDWSDWS,俗称的数据服务层,也有叫做数据聚合层.不过按照经典数据建模理论,一般称之为前者,也就是数据服务层,为更上层的ADS层或者直接面向需求方服务.DWS建模,一般使用主题建模,维度建模等方式主题建模,顾名思义,围绕某一个业务主体进行数据建模,将相关数据抽离提取出来.如,将流量会话按照天,月进行聚合将每日新用户进行聚合将每日活跃用户进行聚合维度建模,其实也差不多,不过是根据业务需
123 黑曼巴
·
2025-01-17 16:29
大数据
数据仓库
数仓
数据分层(ODS DWD DWS ADS)换个角度看
数仓
数据分层简介1.背景
数仓
是什么,其实就是存储数据,体现历史变化的一个数据仓库.因为互联网时代到来,基于数据量的大小,分为了传统
数仓
和现代
数仓
.传统
数仓
,使用传统的关系型数据库进行数据存储,因为关系型数据库本身可以使用
闻香识代码
·
2025-01-17 16:28
大数据
数仓
数据仓库
大数据
ods
dw
万字详解
数仓
分层设计架构 ODS-DWD-DWS-ADS
参考:万字详解
数仓
分层设计架构ODS-DWD-DWS-ADS数据分层的意义1、清晰数据结构2、数据血缘追踪3、数据复用,减少重复开发4、把复杂问题简单化5、屏蔽原始数据的(影响),屏蔽业务的影响ETL操作
_Jordan
·
2025-01-17 16:56
自己写的
数据仓库
数仓
分层ODS、DWD、DWM、DWS、DIM、DM、ADS
往期推荐
数仓
入门:数据分析模型、
数仓
建模、离线实时
数仓
、Lambda、Kappa、湖仓一体-CSDN博客
数仓
常见名词解析和名词之间的关系-CSDN博客数据仓库及
数仓
架构概述-CSDN博客大数据HBase
青秋.
·
2025-01-17 15:17
数据仓库
大数据
数据仓库
数仓
实践:如何优雅的设计DWS层?
对于
数仓
的分层,大家最耳熟能详的就是基于OneData方法论的三层
数仓
划分,分别是:数据引入层(ODS,OperationalDataStore)、数据公共层(CDM,CommonDimenionsModel
云 祁
·
2025-01-17 14:37
#
----
数仓理论
数仓实践
大数据
数据仓库
维度建模
实时
数仓
方实际落地如何选型和构建
实时
数仓
方实际落地如何选型和构建一、为何需要实时
数仓
架构随着数字化进程的推进,企业产生的数据越来越多,与此同时企业对数据的需求也变得越来越复杂多样。
活在风浪里~
·
2025-01-17 04:15
大数据架构
大数据体系
数据治理
数据仓库
大数据
数据挖掘
YashanDB完成中国信通院关系型数据库安全能力专项测试
YashanDB产品简介崖山数据库系统是深圳计算科学研究院(简称“深算院”)和深圳崖山科技有限公司(简称“崖山科技”)自主研发设计的新型数据库管理系统,提供包括单机主备、共享集群、空间数据库、分布式实时
数仓
等系列数据库产品及配套开发
·
2025-01-16 18:20
数据库sql
数据仓库介绍
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库(英语:DataWarehouse,简称
数仓
、DW),是一个用于存储、分析、报告的数据系统
阿龙的代码在报错
·
2024-09-15 16:08
数据分析
数据仓库
数据库
SQLite的入门级
项目学习
记录(二)
再补充一些基础知识:并行操作的问题1、可以多游标同时运行SQLite,对于同一个连接sqlite3.connect(db_file),可以同时创建多个游标,每个游标都是独立的,可以执行各自的SQL命令序列。importsqlite3#创建数据库连接conn=sqlite3.connect('example.db')#创建第一个游标cursor1=conn.cursor()cursor1.execu
深蓝海拓
·
2024-09-15 16:38
SQLite学习笔记
sqlite
学习
数据库
数仓
开发之DWD层完整使用 (第五章)
数仓
开发之DWD层完整使用一、流量域未精加工的事务事实表1、主要任务1)数据清洗(ETL)2)新老访客状态标记修复3)分流2、思路1)数据清洗(ETL)2)新老访客状态标记修复(1)前端埋点新老访客状态标记设置规则
小坏讲微服务
·
2024-09-13 13:22
数据仓库
hadoop
scala
kafka
离线
数仓
VS实时
数仓
离线数据仓库(OfflineDataWarehouse)和实时数据仓库(Real-timeDataWarehouse)的实施有一些相似之处,但也存在显著的差异。以下是两者在几个关键方面的对比:相同点:数据集成:都需要从多个数据源提取、转换和加载数据(ETL/ELT)。都需要处理数据清洗、去重和规范化,以保证数据的一致性和准确性。数据建模:都需要进行数据建模,设计数据仓库的星型或雪花模型,定义事实表
james二次元
·
2024-09-13 03:14
数据仓库
数据仓库
大数据
数仓
建模之维度表&指标表
在数据仓库中,维度和指标是两个重要的概念。维度(Dimension):维度是一种描述业务过程中各种属性的方法,用于对业务过程进行分析和归类。维度包括时间、地点、人员、产品、客户等各种业务属性,是数据分析的基础。指标(Measure):指标是衡量业务过程效果的标准,是数据分析的重要指标。指标包括数量、金额、时间、比率、百分比等,用于衡量业务过程的各种结果。在数据仓库中,通常会使用维度表和指标表来进行
锵锵锵锵~蒋
·
2024-09-12 20:01
数据研发
数据仓库
数据研发
数据库,数据仓库,数据湖,湖仓一体到底是什么区别
先说下上面的答案,数据仓库和数据湖可以是互相独立存在的,不存在谁是谁的缓存一说,但是如果涉及到湖仓一体的时候,
数仓
是结构化的数据访问入口,而底层的数据湖是可以作为
数仓
的底层的存储支持。要了解各个概念
大数据小尘
·
2024-09-10 14:46
数据库
数据仓库
spark
实时
数仓
之实时
数仓
架构(Hudi)(1)
目前比较流行的实时
数仓
架构有两类,其中一类是以Flink+Doris为核心的实时
数仓
架构方案;另一类是以湖仓一体架构为核心的实时
数仓
架构方案。
2401_84164527
·
2024-09-09 19:34
程序员
架构
2024年大数据最新实时
数仓
之实时
数仓
架构(Hudi)
技术框架Kafka:用于接入数据源;FlinkCDC:如果直接接入业务数据源可以考虑CDC方式,如果通过Kafka缓冲接入业务数据可以忽略;Flink:用于数据ETL,包括接入数据、处理数据及输出数据全链路数据计算任务;Spark:用于数据ETL,包括处理数据及输出数据全链路数据计算任务;Hudi:湖仓一体数据管理框架,用来管理模型数据,包括ODS/DWD/DWS/DIM/ADS等;Doris:O
2401_84185556
·
2024-09-09 19:34
程序员
大数据
架构
实时
数仓
之实时
数仓
架构(Hudi)(1),2024年最新熬夜整理华为最新大数据开发笔试题
+Hudi:湖仓一体数据管理框架,用来管理模型数据,包括ODS/DWD/DWS/DIM/ADS等;+Doris:OLAP引擎,同步
数仓
结果模型,对外提供数据服务支持;+Hbase:用来存储维表信息,维表数据来源一部分有
2401_84181221
·
2024-09-09 19:04
程序员
架构
大数据
数据仓库系列篇之基本概述
@Author:Spinach|GHB@Link:http://blog.csdn.net/bocai8058文章目录前言什么是数据仓库数据仓库与数据库的区别为什么要建立数据仓库及
数仓
平台的优势为什么要建立数据仓库大数据
数仓
平台的特点或优势数据仓库和数据集市的关系前言通过收集资料
小学僧来啦
·
2024-09-09 09:53
数据仓库
数据仓库
数据库
大数据
数仓
还是湖仓?专家圆桌深度解析
近期,Databricks以超过10亿美元的价格收购了Tabular——ApacheIceberg的商业支持公司,这一动作加剧了Snowflake和Databricks在开放湖仓标准发展上的竞争。这起收购也突显了数据湖表格式在现代数据分析架构中的关键地位。在上月的StarRocksMeetup活动中,四位湖仓技术专家代表ApacheIceberg、ApacheHudi、ApachePaimon和S
StarRocks_labs
·
2024-09-08 19:49
数据仓库
数据库
大数据
数据分析
湖仓一体
数据仓库之【商品订单数据
数仓
】10:数据可视化工具:Zeppelin安装部署、Zeppelin使用
一、数据可视化数据可视化这块不是项目的重点,不过为了让大家能有一个更加直观的感受,我们可以选择一些现成的数据可视化工具实现。咱们前面分析过,想要查询hive中的数据可以使用hue,不过hue无法自动生成图表。所以我们可以考虑使用Zeppelin针对一些复杂的图表,可以选择定制开发,使用echarts、finebi组件实现。二、Zeppelin安装部署注意:不要使用Zeppelin0.8.2版本,这
做一个有趣的人Zz
·
2024-09-05 15:45
hadoop
hive
数据仓库
hive
big
data
【GaussDB(DWS)】
数仓
部署架构与物理结构分析
数仓
架构与物理结构分析一、部署架构二、物理结构三、测试验证一、部署架构华为数据仓库服务DWS,集群版本8.1.3.x集群拓扑结构:上述拓扑结构为DWS单AZ高可靠部署架构,为减少硬件故障对系统可用性的影响
若兰幽竹
·
2024-09-03 20:06
GaussDB
DWS
gaussdb
数仓
分层架构:DWS
在数据仓库的分层架构中,"DWS"通常指的是数据仓库的"服务层"或"汇总层",但这个缩写可能根据不同的上下文有不同的含义。以下是几种可能的解释:1.**数据仓库服务层(DataWarehouseServices)**:-在一些云服务提供商的数据平台中,DWS可能指的是提供数据仓库功能的一组服务,这些服务可能包括数据存储、管理和分析工具。2.**数据仓库星型模式(DataWarehouseStarS
大连赵哥
·
2024-09-01 16:11
大数据
大数据
大数据毕业设计hadoop+spark+hive微博舆情情感分析 知识图谱微博推荐系统
爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集;(二)使用pandas+numpy或MapReduce对数据进行数据清洗,生成最终的.csv文件并上传到hdfs;(三)使用hive
数仓
技术建表建库
qq_79856539
·
2024-09-01 11:16
javaweb
大数据
hadoop
课程设计
12306
项目学习
笔记(框架篇Base)
首先学习的是基础框架ApplicationContextHolderApplicationContextHolder提供了一种静态方式来访问Spring容器中的Bean,适用于某些特定场景,如工具类和框架集成。在12306项目中由于我们引入了RocketMQ消息队列,这些库的对象通常不是Spring管理的,无法直接使用@Autowired注入,所以需要ApplicationContextHolde
Rainyocode
·
2024-08-30 09:20
学习
常见的实时
数仓
方案
常见的实时
数仓
架构有三种。第一种是Lambda架构,是目前主流的一套实时
数仓
架构,存在离线和实时两条链路。
北极冰雨
·
2024-08-30 05:27
大数据
大数据
StringRedisTemplate 删除某key开头的
StringRedisTemplate删除某key开头的原创mob64ca12e732bb2024-03-1204:13:15©著作权文章标签数据Redis甘特图文章分类Redis数据库阅读数94我整理的一些关于【数据】的
项目学习
资料
qq_27327261
·
2024-08-30 02:38
bootstrap
前端
html
Hive 数据模型切换后的数据验证方案
标签系统一般属于ads集市层加工的模型数据,如果上游(
数仓
/业务)表进行了切换,比如我们项目最近上游从fdl/gdl切换到了dwd/dws,切换完毕后的数据一般都会出现问题,如何进行数据验证是一个需要好好思考的问题
小菜菜1223
·
2024-08-29 19:16
Hive
hive
数仓
之TABLESAMPLE采样
数仓
中的抽样方法有很多,这里主要介绍一下:随机抽样、块抽样、桶抽样、分组抽样这四种,话不多说,直接上干货。
Luckyforever%-
·
2024-08-29 00:39
Hive
MaxCompute
maxcompute
hive
sql
大数据
数据仓库
数据分析
(二十)Flink Paimon
从传统
数仓
到数据湖、湖仓一体架构,从流批一体计算到基于数据湖的流批一体存储,越来越多的企业基于开源技术,在集成、计算、存储、查询分析等方面不断优化,建设形成适合
springk
·
2024-08-27 16:38
Flink全景解析
大数据
实时数据
实时数据处理
paimon
flink
paimon
如何学习单片机:从入门到精通的全面指南
在进阶部分,文章强调了通过实际
项目学习
的重要性,建议读者从
嵌入式大圣
·
2024-08-24 02:58
学习
单片机
嵌入式硬件
polardb for mysql 安装
我整理的一些关于【MySQL,SQL】的
项目学习
资料(附讲解~~)和大家一起分享、学习一下:https://edu.51cto.com/surl=QDW3g3PolarDBforMySQL安装指南PolarDBforMySQL
精致男孩富贵
·
2024-08-23 03:35
mysql
数据库
谈一谈数据虚拟化的技术核心和应用架构
这一技术方案与过去面对传统
数仓
的弊端,业界过去经常采取的方式Presto方案有一定相似,但存在明显差别。
Aloudata
·
2024-08-22 21:31
Data
Fabric
逻辑数据平台
数据集成
数据虚拟化
数开中:SQL递归函数使用场景(70天)
数仓
(DataWarehouse)中,SQL递归函数的使用场景多出现在需要处理具有层级或树状结构的数据时。这类数据可能包括商品分类、用户行为路径(如点击流中的页面跳转)、促销活动层级等。
大数据飞总
·
2024-08-21 20:29
sql
sql
数据库
大数据
springboot
项目学习
-瑞吉外卖(1)
第一天任务如下:建立基本架构完成登录、退出功能注意:本博客没有使用网上教程里的mybatis-plus,使用的是mybatis;数据库连接池也没有使用教程里的druid,使用的是spring自带的连接池基本架构common包:存放的通用类R,用来给前端返回Json格式的数据config包:存放配置类,在今天的任务中主要解决静态资源路径映射问题controller包entity包:存放实体类mapp
两仪式quq
·
2024-03-22 08:54
spring
boot
学习
java
瑞吉外卖
某项目公司-——ETL工程师岗位——二面
1.自我介绍2.如果给你一个
数仓
项目,你应该从那些方面向你的上级汇报。3.对自己的未来职业生涯规划。4.平常下班之后做那哪些事情。5.对于写PPT,写文档这块是否可以。
劝学-大数据
·
2024-03-20 06:46
个人面试真题记录
etl工程师
数据仓库
03hive
数仓
安装与基础使用
hiveHive概述Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表,并提供完整的sql查询功能,本质上还是一个文件底层是将sql语句转换为MapReduce任务进行运行本质上是一种大数据离线分析工具学习成本相当低,不用开发复杂的mapreduce应用,十分适合数据仓库的统计分析hive可以用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在hadoop
daydayup9527
·
2024-03-14 13:39
hadoop_hive
运维
hadoop
ETL策略
ETL架构的datastage,informatica,以ELT为代表的ODI,再到后来的批处理方式,SQL编码方式,但是其本质还是抽取数据,处理,再加载到目标平台,常用的方式:1.初始化:当我们建立
数仓
平台时候
朱先生_hfm
·
2024-03-10 13:11
etl
数据仓库
从别人的开源
项目学习
并吸收经验,然后逐步搭建自己的Java项目是一个很好的学习方法
从别人的开源
项目学习
并吸收经验,然后逐步搭建自己的Java项目是一个很好的学习方法。
如饥似渴的rocky
·
2024-03-03 20:13
Java开发
Java后台开发
web开发
java
开源
Spark-sql Adaptive Execution动态调整分区数量,调整输出文件数
背景:在
数仓
任务中,经常要解决小文件的问题。
不想起的昵称
·
2024-03-02 15:03
hive
spark
hive
数据仓库
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他