E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓数据湖
数仓
建设学习路线(三)元数据管理
什么是元数据?简单来说就是描述数据的数据,更直白来说就是描述表名、表制作者、表字段、表生命周期、表存粗等信息的数据元数据该如何管理工具化开源:可通过atlas获取表依赖及信息做二次开发,或者完成可视化界面平台化:数据血缘数据血缘功能清晰知道表/任务上下游,方便排查问题,知道下游哪个模块在使用,提升开发效率及后期管理维护数据血缘类型活跃血缘:指离线开发线上调度产出的血缘,且调度持续生效静默血缘:指离
语兴数据
·
2024-01-30 15:59
数仓建设-学习路线
大数据
数据仓库
hive
数据治理实践 | 网易某业务线的计算资源治理
写在前面感谢关注,更多资料可以关注公众号语数,也可关注B站同名:语兴呀,一起学习
数仓
建设。前言本文从计算资源治理实践出发,带大家清楚认识计算资源治理到底该如何进行,并如何应用到其他项目中。
语兴数据
·
2024-01-30 15:29
大数据
spark
hive
数据治理
数据治理实践 | 小文件治理
小文件是
数仓
侧长期头痛问题,它们会占用过多的存储空间,影响查询性能。因此,我们需要采取一些措施来对小文件进行治理,以保证Hive的高效性和稳定性。
语兴数据
·
2024-01-30 15:29
大数据
数据治理
小文件治理
数据仓库
回响科技二面面试题解答
面试题1、你们的
数仓
中DWD层为什么要划分数据域?划分数据域之后会对ADS层造成什么影响?是可以提效还是可扩展性强?你们是如何考虑的呢?
语兴数据
·
2024-01-30 15:58
科技
大数据
面试
职场和发展
数据库开发
数仓
工具使用-Datax
前置-解决中文乱码问题解决方案-在mysql中执行usehive;altertableCOLUMNS_V2modifycolumnCOMMENTvarchar(256)charactersetutf8;altertableTABLE_PARAMSmodifycolumnPARAM_VALUEvarchar(4000)charactersetutf8;altertablePARTITION_PARA
t_813
·
2024-01-30 06:07
hadoop
数据仓库
大数据
hive
申万宏源基于 StarRocks 构建实时
数仓
作者:申万宏源证券实时
数仓
项目组小编导读:申万宏源证券有限公司是由新中国第一家股份制证券公司——申银万国证券股份有限公司与国内资本市场第一家上市证券公司——宏源证券股份有限公司,于2015年1月16日合并组建而成
StarRocks_labs
·
2024-01-29 18:23
后端
美团外卖搜索基于Elasticsearch的优化实践
1.前言最近十年,Elasticsearch已经成为了最受欢迎的开源检索引擎,其作为离线
数仓
、近线检索、B端检索的经典基建,已沉淀了大量的实践案例及优化总结。
架构未来
·
2024-01-29 17:07
elasticsearch
jenkins
大数据
数据湖
技术之平台建设篇2
数据湖
技术之平台建设篇1,主要介绍了湖仓平台建设的前三个主要工作,本次主要继续上次的建设工作介绍,聊一聊一站式湖仓服务平台的相关管理能力建设以及针对小文件的处理。
风筝Lee
·
2024-01-29 16:35
数据湖
大数据
数据湖
技术之应用场景篇
数据湖
技术有较多的应用场景,本篇文章是针对一些典型的痛点场景做了一些介绍和说明。
风筝Lee
·
2024-01-29 16:04
数据湖
大数据
数据仓库模型设计:从架构到实践的全方位指南
一、
数仓
模型架构在构建数据仓库时,首先需要明确模型架构,以确保数据仓库的高内聚和低耦合,以及数据的分层管理。
猿来孺词
·
2024-01-29 10:51
数据仓库
架构
大数据
数仓
-数据安全
文章内容参考:
数仓
建设实践路线-第十一讲-数据安全_哔哩哔哩_bilibili经过一段时间打磨开启全新篇章《
数仓
建设实践路线》,从0-1搭建数据体系,让大家更有体感,并将《
数仓
建设学习路线》课程内容落地
爱吃辣条byte
·
2024-01-28 23:41
数仓建设
大数据
数据仓库
数仓
治理-小文件治理
注:文章参考:数据治理实践|小文件治理本文中将介绍Hive中小文件治理的方法和技巧,希望对大家有所帮助https://mp.weixin.qq.com/s/HDxAGhGIPvXF38wPiXZ7xg[离线计算-Spark|Hive]HDFS小文件处理-腾讯云开发者社区-腾讯云HDFS小文件过多会对hadoop扩展性以及稳定性造成影响,因为要在namenode上存储维护大量元信息.https://
爱吃辣条byte
·
2024-01-28 23:40
数据治理
大数据
数据仓库
数仓
-数据质量
文章内容参考:
数仓
建设实践路线-第八讲-数据质量_哔哩哔哩_bilibili经过一段时间打磨开启全新篇章《
数仓
建设实践路线》,从0-1搭建数据体系,让大家更有体感,并将《
数仓
建设学习路线》课程内容落地。
爱吃辣条byte
·
2024-01-28 23:10
数仓建设
大数据
数仓
治理-数据质量治理
注:文章参考:语数-数据质量治理本期语兴从数据质量治理角度出发,与大家一起探讨数据质量治理最佳实践,之前的数据治理文章在网易有数官方公众号,数据治理课程讲解在B站(搜索:语兴呀)https://mp.weixin.qq.com/s/uoHlA64q1K_WHVYLPRucHQ目录一、数据质量治理的背景1.1BUG工单较多1.2DQC(数据质量监控)常触发1.3基线/SLA经常破线二、数据质量治理识
爱吃辣条byte
·
2024-01-28 23:10
数据治理
大数据
数据仓库
数仓
治理-计算资源治理
mp.weixin.qq.com/s/w6d5zhDaaavNhW_DMEkPsQ目录一、计算资源治理的背景二、计算资源问题复盘三、计算资源治理前的思考与行动3.1治理前的思考3.2治理行动四、治理效果五、小结前言业务成熟期,
数仓
经常会收到集
爱吃辣条byte
·
2024-01-28 23:10
数据治理
数据仓库
大数据
数仓
治理-数据安全治理
一、数据安全治理的背景存在敏感数据泄露、数据安全审批节点过长、风险数据对外暴露、数据使用权限(库、表年、字段)闲置情况。二、数据安全治理前评估2.1数据安全问题评估存在安全隐患的评估角度:审批流程缺少数据使用说明次数、被业务方发现数据安全问题次数等。2.2数据表审批链路评估基于每个节点的审批时间去做整个链路的评估,必要时需要进行链路缩短。数据表的内容一般包括申请人,审批人,节点层级,工单处理内容等
爱吃辣条byte
·
2024-01-28 23:10
数据治理
大数据
数据仓库
数据湖
技术之核心特性篇
一.湖仓一体关键技术特性原有的
数仓
模式为业务解决了很大的业务需求问题,很好的服务于公司的数据分析服务。但是由于本身的一些机制问题,导致一些方面受到了限制,无法更好的去扩展。
风筝Lee
·
2024-01-28 18:58
数据湖
数据仓库
数据湖
技术之平台建设篇1
一.建设思路在原有平台基础上,融合
数据湖
技术,提供统一、完善的湖仓能力,逐步实现湖仓一体、流批一体的最终模式。
风筝Lee
·
2024-01-28 18:58
数据湖
大数据
数据湖
技术之发展现状篇
一.大数据处理架构:大数据处理架构的发展过程具体可以分为三个主要阶段:批处理架构、混合处理架构(Lambda、Kappa架构)、湖仓一体。首先是随着Hadoop生态相关技术的大量应用,批处理架构应运而生,借助离线计算引擎的能力很好的满足了业务对大规模数据分析处理场景的需求。随着业务场景越来越多样化,对数据实效性方面有了更高的要求,诞生了一些新的架构模式,比如说Lambda、Kappa等,很好的解决
风筝Lee
·
2024-01-28 18:56
数据湖
hive
hadoop
spark
总监眼里的
数仓
和中台、报表平台的概念及意义和你认为的不一样
总监眼里的
数仓
和中台、报表平台的概念及意义和你认为的不一样在大数据时代,数据仓库、中台和报表平台等概念逐渐成为企业数字化转型的热门话题。然而,不同职位和背景的人对这些概念的理解可能存在差异。
UI设计前端开发一线员工
·
2024-01-27 19:03
electron
javascript
前端
信息可视化
低代码
【华为云-云驻共创】数据高速公路—
数仓
集群通信技术详解
【摘要】本文讲解GaussDB(DWS)集群通信技术如何在大规模集群中承载高并发业务,如何实现高性能分布式通信系统。主要讲述客户端、CN、DN三类进程间的通信原理和流程,分为CN通信框架和DN间通信框架。数据仓库服务GaussDB(DWS)是一种基于华为云基础架构和平台的在线数据分析处理数据库,提供即开即用、可扩展且完全托管的分析型数据库服务。GaussDB(DWS)是基于华为融合数据仓库Gaus
IT民工金鱼哥
·
2024-01-27 18:29
在华为云社区的故事
华为云
GaussDB
2021-03-07
MapReduce=====>解决计算问题·Yarn=====>资源协调者·Zookeeper=====>分布式应用程序协调服务·Flume=====>日志收集系统·Hive=====>基于Hadoop的
数仓
工具
残月冷无声
·
2024-01-27 10:39
关于数据漂移问题和解决
数据漂移问题出现的背景我们通常构建
数仓
的ODS层时,会考虑按照某个时间戳将数据切分后分区存储。ODS表中常出现的时间戳分为四个类型:源表中标识数据记录更新的时间戳字段,modified_time。
眼君
·
2024-01-27 09:30
Hive实战 —— 电商数据分析(全流程详解 真实数据)
目录前言需求概述数据清洗数据分析一、前期准备二、项目1.数据准备和了解2.确定数据粒度和有效列3.HDFS创建用于上传数据的目录4.建库
数仓
分层5.建表5.1近源层建表5.2.明细层建表为什么要构建时间维度表
Byyyi耀
·
2024-01-27 08:25
hive
数据分析
hadoop
数据仓库现代化和迁移解决方案Datametica
Datametica是一家通过建立
数据湖
来帮助企业实现数据平台现代化的公司,该
数据湖
安全地保存结构化和非结构化数据。随着企业
数据湖
从各种来源收集大量数据,需要利用信息并帮助做出更明智的业务决策。
weixin_30777913
·
2024-01-26 20:20
数据仓库
数据中台架构原理与开发实战:构建数据中台的步骤与方法
它可以对业务数据进行收集、加工处理、存储、分析,为各个部门提供简单有效的数据服务,包括数据仓库、
数据湖
、数据应用平台等。
OpenChat
·
2024-01-26 20:15
AI实战
大数据AI人工智能
Python实战
大数据
人工智能
语言模型
Java
Python
架构设计
用户画像项目背景
BI(层)DW:DWD明细数据层(数据的清洗和转换),DWM(轻度聚合层),DWS(高度聚合),APP(层),DIM(层)数据集市:更贴近于业务的数据仓库【数据集市就是满足特定的部门或者用户的需求,】
数据湖
祈愿lucky
·
2024-01-26 13:20
大数据
spark
kafka
产品解读 | 新一代湖仓集存储,多模型统一架构,高效挖掘数据价值
推出了新一代湖仓集存储格式Holodesk,一份数据满足
数据湖
的离线实时接入、
数仓
的复杂加工以及数据集市的分析需求。避免数
星环科技
·
2024-01-26 07:40
架构
大数据
人工智能
流式湖仓增强,Hologres + Flink 构建企业级实时
数仓
2023年12月,由阿里云主办的实时计算闭门会在北京举行,阿里云实时
数仓
Hologres研发负责人姜伟华现场分享Hologres+Flink构建的企业级实时
数仓
,实现全链路的数据实时计算、实时写入、实时更新
Apache Flink
·
2024-01-26 06:15
flink
大数据
基于 Flink 的实时
数仓
在曹操出行运营中的应用
本次分享将为大家介绍实时
数仓
在曹操出行(互联网网约车出行企业)的实时
数仓
应用场景,以及通过离线场景向实时场景下加速升级而获得的业务价值。
Apache Flink
·
2024-01-26 06:15
flink
大数据
深度干货|谈谈阿里云AnalyticDB Spark如何构建低成本
数据湖
分析
本文将分享AnalyticDBMySQLSpark助力构建低成本
数据湖
分析的最佳实践。
阿里云瑶池数据库
·
2024-01-26 06:57
阿里云
spark
云计算
自动弹性,QPS线性提升|一文读懂云原生
数仓
AnalyticDB弹性技术原理
阿里云瑶池旗下的云原生
数仓
AnalyticDBMySQL湖仓版(以下简称AnalyticDBMySQL)在发布之初提供了定时弹性功能,帮助业务有规律的客户定时升降配计算资源以节省成本。
阿里云瑶池数据库
·
2024-01-26 06:56
云原生
数据库
阿里云
云计算
基于 Hologres+Flink 的曹操出行实时
数仓
建设
云布道师曹操出行创立于2015年5月21日,是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务,以“科技重塑绿色共享出行”为使命,将全球领先的互联网、车联网、自动驾驶技术以及新能源科技,创新应用于共享出行领域,以“用心服务国民出行”为品牌主张,致力于打造服务口碑最好的出行品牌。曹操出行业务背景介绍作为一家互联网出行平台,主要提供了网约车、顺风车、专车等一些出行服务。打车为其主要的一个业务场景
云布道师
·
2024-01-25 20:23
阿里云
大数据分析组件Hive-集合数据结构
Hive常作为离线
数仓
的分析工具,当面临Json数据时,Hive需要用到其数据结构构建出一张
Aimyon_36
·
2024-01-25 15:15
Hive
数据分析
hive
数据结构
【30秒看懂大数据】
数据湖
简单说
数据湖
是一个存储平台,存储了企业所有所需要的数据。举例理解我们仍然以下周备餐为例。
风姑娘数据说
·
2024-01-25 11:05
生活中的数据学
大数据
大数据
数据分析
数据可视化
big
data
Hudi学习笔记(一)
学习目标什么是
数据湖
为什么使用
数据湖
Hudi基本功能如何编译Hudi源码Hudi与Spark集成管理Hudi中COW和ROW不同类型表功能Hudi的三种查询方式Hudi中不同表数据写入流程数据仓库数据仓库是一个用于存储
一一|一一一亅
·
2024-01-25 09:37
学习
笔记
【AWS征文】AWS 数据分析新服务——
数据湖
本文将从实践角度阐述AWS
数据湖
以及数据分析等产品,是如何帮助企业更加智能的利用数据,从而辅助业务决策。
wzlinux
·
2024-01-25 07:45
数据库
数据仓库
大数据
编程语言
hadoop
AWS实战:AWS Kinesis Data Firehose
简介AmazonKinesisDataFirehose是一项提取、转换、加载(ETL)服务,可以将串流数据以可靠方式捕获、转换和提供到
数据湖
、数据存储和分析服务中。
JessicaWind
·
2024-01-25 07:43
AWS实战
aws
StarRocks本地部署
StarRocks既支持从各类实时和离线的数据源高效导入数据,也支持直接分析
数据湖
上各种
keyson R
·
2024-01-25 06:14
数据库
数据库
大数据
StarRocks
数据仓库
Flink(十五)【Flink SQL Connector、savepoint、CateLog、Table API】
前言今天一天争取搞完最后这一部分,学完赶紧把Kafka和Flume学完,就要开始做实时
数仓
了。据说是应届生得把实时
数仓
搞个80%~90%才能差不多找个工作,太牛马了。
让线程再跑一会
·
2024-01-24 07:17
Flink
flink
大数据
企业建
数仓
的第一步是选择一个好用的ETL工具
而选择合适的ETL工具是构建
数仓
的关键一步。因没有高灵活度的ETL就无法构建高质量的
数仓
。数据仓库的重要性数据仓库是企业将各个部门和系统中分散的数据进行整合、清洗和分析的基础
苛子
·
2024-01-23 20:36
etl
数据仓库
用flinkcdc debezium来捕获数据库的删除内容
但是我现在情况是doris做为
数仓
,数据写到ods,ods的数据还会通过flink计算后写入dwd层,所以此时ods的数据是删除了,但是dwd甚至ads的都没删除,这样就会有脏数据。
后季暖
·
2024-01-23 11:17
数据库
邢春晓:新型区块链
数据湖
技术研发
其中邢春晓老师发表主题演讲《新型区块链
数据湖
技术研发》从区块链的发展趋势,新型区块链关键技术,区块链赋能经济社会等层面解析区块链+知识图谱发展趋势,为开源知识运动提供了重要的技术
EpikProtocol
·
2024-01-23 08:10
Hive 拉链表详解及实例
拉链表版本迭代:hive0.14slowlychangingdimension=>hive2.6.0merge事务管理原来采用分区表,用户分区存储历史增量数据,缺点是重复数据太多定义:
数仓
用于解决持续增长且存在一定时间时间范围内重复的数据存储
Byyyi耀
·
2024-01-23 06:45
hive
hadoop
数据仓库
拉链表
Hive
数仓
及
数仓
设计方案
数仓
(DataWarehouse)数据仓库存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供一个统一、规范的出口。做
数仓
就是做方案,是用数据治理企业的方案。
Byyyi耀
·
2024-01-23 06:34
hive
hadoop
数据仓库
flume案例
在构建
数仓
时,经常会用到flume接收日志数据,通常涉及到的组件为kafka,hdfs等。下面以一个flume接收指定topic数据,并存入hdfs的案例,大致了解下flume相关使用规则。
不加班程序员
·
2024-01-23 06:48
ETL
kafka
Hadoop相关
flume
大数据
etl
数仓
建设 - 维度建模 - DIM维度
文章目录前置:准备数据库一、商品维度表1.1表结构设计1.2建表语句1.3ETL任务脚本二、优惠券维度表2.1表结构设计2.2ETL任务脚本三、活动维度表3.1表结构设计3.2ETL任务脚本四、地区维度表4.1表结构设计4.2ETL任务脚本五、日期维度表六、用户维度表6.1表结构设计6.2ETL任务脚本前置:准备数据库[
[email protected]
]$
m0_46218511
·
2024-01-23 05:14
大数据基础设施搭建
维度建模
数据仓库
Databend 开源周报第 128 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-23 03:01
开源
Databend 开源周报第 129 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-23 03:31
开源
Apache Paimon学习记录
基本都是在官网的学习,简单记录一下其中的核心特点ApachePaimon官网ApachePaimon|ApachePaimon根据官网介绍去快速了解paimon是用来设计做什么,可以做什么,对比与其他
数据湖
有什么特点
这个程序猿可太秀了
·
2024-01-22 17:27
数据质量&批流数仓
大数据文章迁移
数据仓库
数据湖
实时数仓
paimon
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他