E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Doris数仓
数仓
治理-存储资源治理
存储资源治理的流程及思路三、治理前如何评估3.1无用数据表/临时数据表下线评估3.2表及分区的生命周期评估3.3存储及压缩格式评估3.4根据业务场景实现节省存储评估四、治理后的成效如何评估一、存储资源治理的背景由于早期
数仓
的存储资源比较充裕
爱吃辣条byte
·
2024-02-03 13:51
数据治理
数据仓库
大数据
Flink实时
数仓
同步:拉链表实战详解
一、背景在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,业务使用人员需要大数据分析平台中查看历史某一天的表数据,示例如下:[Mysql]业务数据-用户表全量数据:idnamephonegende
Light Gao
·
2024-02-03 10:15
大数据
实时数仓
flink
大数据
数据仓库
拉链表
doris
Flink实时
数仓
同步:流水表实战详解
一、背景在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,大数据分析平台需要能够检索某张业务表的变更记录,并以每天为单位统计每条数据的变更频率。以下是示例:[Mysql]业务数据-用户表全量数据:
Light Gao
·
2024-02-03 10:15
实时数仓
数据仓库
flink
大数据
flinkcdc
数据同步
数据仓库
深入
数仓
离线数据同步:问题分析与优化措施
一、前言在数据仓库领域,离线
数仓
和实时
数仓
是常见的两种架构类型。离线
数仓
一般通过定时任务在特定时间点(通常是凌晨)将业务数据同步到数据仓库中。
Light Gao
·
2024-02-03 10:14
数据仓库
实时数仓
数据库
数据仓库
大数据
数据分析
数仓
日常维护:剖析每日增量同步的内部机制
数仓
日常维护:剖析每日增量同步的内部机制一、前言在现代企业中,离线仓库扮演着不可或缺的角色。它充当着一个数据的中心枢纽,存储和管理着海量的信息。
Light Gao
·
2024-02-03 10:14
数据仓库
大数据
数据库
大数据
数据仓库
数据同步
sql
Flink实时
数仓
同步:快照表实战详解
一、背景在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,业务使用人员需要大数据分析平台中查看历史某一天的表数据,示例如下:[Mysql]业务数据-用户表全量数据:idnamephonegende
Light Gao
·
2024-02-03 10:38
实时数仓
数据仓库
flink
大数据
数据仓库
flinkcdc
数据同步
Apache
Doris
整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询
1概况本文展示如何使用FlinkCDC+Iceberg+
Doris
构建实时湖仓一体的联邦查询分析,
Doris
1.1版本提供了Iceberg的支持,本文主要展示
Doris
和Iceberg怎么使用,大家按照步骤可以一步步完成
京东云技术团队
·
2024-02-03 02:58
apache
flink
大数据
记
doris
加载压缩文件(lzo、snappy)pr
做了一个case,是
doris
支持加载lzo压缩文件。
howard_shooter
·
2024-02-02 23:41
Doris
信息技术笔记
压缩
实时
数仓
到底是什么呢?与传统
数仓
有什么区别?如何建设实时
数仓
呢?
在本地生活服务领域的两大巨头,滴滴在自己的业务如顺风车、美团在自己的业务如团购外卖中进行实时
数仓
的建设,为消费者提供更好的服务,如我们在滴滴上可以更快的打到更便宜的车、在美团上可以更快的取到最想要吃的餐
盐城qn
·
2024-02-02 18:50
Flink CDC 详述实时数据湖
在构建实时
数仓
的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和数据湖ApacheIceberg两种技术,来解决业务数据实时入湖相关的问题。
000X000
·
2024-02-02 12:01
实战
实时数仓
Apache
Flink
Flink
CDC
Flink
CDC
实时数据湖
flink
如何推动埋点管理项目的落地
一埋点管理常见痛点分析埋点数据作为三大数据来源之一,具有应用场景多、数据量级大等特点,上能影响数据分析、推荐、AB实验的准确性,下能影响
数仓
结构设计和维护成本,其重要性不言而喻。
一个数据人的自留地
·
2024-02-02 06:01
数据仓库表级血缘应用
数仓
血缘应用(一):表血缘热度文章目录
数仓
血缘应用(一):表血缘热度前言一、价值衡量指标——应用层二、血缘节点应用——热度1、指标透传(应用层——>
数仓
)2、指标应用(热度)2.1、
数仓
血缘节点关系2.2
零壹Ture
·
2024-02-02 02:24
数据仓库
大数据
spark
数据库
数据分析
streampark+flink一键整库或多表同步mysql到
doris
实战
streampark+flink一键整库或多表同步mysql到
doris
实战,此应用一旦推广起来,那么数据实时异构时,不仅可以减少对数据库的查询压力,还可以减少数据同步时的至少50%的成本,还可以减少30%
京东云技术团队
·
2024-02-01 12:42
flink
mysql
大数据
oracle
数仓
rac两个节点查询耗时不一致问题处理
问题描述数据库节点1查询比节点2查询慢。现场操作应用发现发现同一sql语句在节点2上只要2分钟左右,在节点1,该条sql执行要超过30分钟。处理过程根据问题,初步判断是由于错误的执行计划,导致性能问题,但实际上对两个节点做trace跟踪发现执行计划都一致,后续通过awr报告和10046事件跟踪发现由于“gccrmultiblock”耗时造成节点一慢,这是oracleRAC大事务处理特性,两边都查有
烟雨归来
·
2024-02-01 09:23
oracle
数据库
大数据开发之离线
数仓
项目(用户行为采集平台)(可面试使用)
第1章:数据仓库概念数据仓库,是为企业指定决策,提供数据支持的,可以帮助企业,改进业务流程、提高产品质量等。数据仓库的输入数据通常包括:业务数据、用户行为数据和爬虫数据等。业务数据:就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。业务数据通常存储在mysql、oracle等数据库中。用户行为数据:用户
Key-Key
·
2024-02-01 08:46
大数据
面试
职场和发展
hadoop
分布式
弹性分布式数据集
spark
【数据结构与算法】之哈希表系列-20240131
.两个列表的最小索引总和二、1122.数组的相对排序三、1002.查找共用字符四、771.宝石与石头五、961.在长度2N的数组中找出重复N次的元素一、599.两个列表的最小索引总和简单假设Andy和
Doris
敲代码敲到头发茂密
·
2024-02-01 06:35
数据结构与算法
散列表
数据结构
python
leetcode
开发语言
算法
多表拆解 | 数据PM的工作内容
之前一篇文章介绍了我司数据体系搭建过程,见:埋点、
数仓
到中台:数据体系的从0到1为了区分数据产品和数据产品经理,下文会用数据产品和数据PM来区分。
PMCAFF产品社区
·
2024-01-31 21:47
可视化
大数据
编程语言
人工智能
数据分析
数据建模分析与
数仓
维度建模规范
数据建模在
数仓
管理、数据库设计、算法模型训练等领域都有着重要的作用。
i7杨
·
2024-01-31 20:57
大数据
Python入门教程,30分钟玩转Python编程!
一、Python入门二、Python爬虫三、数据分析四、数据库与ETL
数仓
五、机器学
老-程序员
·
2024-01-31 18:50
程序员
python
开发语言
人工智能
python入门教程
编程
大厂 5 年实时数据开发经验总结,Flink SQL 看这篇就够了!
本文摘编于《FlinkSQL与DataStream入门、进阶与实战》(500页、70万字)作者羊艺超,目前就职于快手,国内最早一批FlinkSQL使用者拥有从0到1使用FlinkSQL建设、保障及治理实时
数仓
的丰富经验京东机械工业出版社旗舰店限时
zhisheng_blog
·
2024-01-31 15:29
flink
sql
数据库
oracle
大数据
HBase表结构
一般我们从
数仓
中离线统计分析海量数据,将得到的结果插入HBase中用于实时查询。表结构hbase在表中组织数据。表名是字符串和字符的组合,可以在文件系统路径中使用这里以一个公
内向仓鼠
·
2024-01-31 07:55
hbase
数据库
大数据
Databend 开源周报第 130 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-31 04:28
开源
数据库
Apache
Doris
2.0.4 版本正式发布
官网下载:https://
doris
.apache.org/download/GitHub下载:h
SelectDB技术团队
·
2024-01-31 03:38
apache
大数据
数据仓库
数据分析
数据库
Apache
Doris
数据仓库实践杂谈(十八)——关于报表
整体数据分层第三章:整体实现框架第四章:元数据第五章:ETL第六章:数据校验第七章:数据标准化第八章:去重第九章:增量/全量第十章:拉链处理第十一章:分布式处理增量第十二章:列式存储第十三章:逻辑数据模型(
数仓
模型
老程序员一叶知秋
·
2024-01-30 18:45
数据仓库实践
数据库
大数据
java
链表
数据分析
字节跳动二面经典题目
欢迎关注公众号:语数本期投稿本期语数精选来源于球友应对字节跳动二面时候的场景问题
数仓
工程师的职业规划做
数仓
工程师要具备哪些点,按照重要性排序gpt在数据分析中的应用实习项目的收益价值在哪里?
语兴数据
·
2024-01-30 15:31
字节
面试
大数据
学习
一文掌握0基础如何体系化学习
数仓
欢迎关注公众号:语数2本期精选问题如何校验开发好的
数仓
指标?如果你是公司的分析师,应该如何分析数据?0基础如何体系化学习
数仓
?
语兴数据
·
2024-01-30 15:01
学习
数据仓库
大数据
数据分析
当你要做
数仓
汇报时,应该怎么讲故事?
语数精选简介语数精选来源于语数社区星球球友提问,主要沉淀一些大家工作和学习过程中存在的一些共性问题,希望能够更好的帮助到球友和粉丝。欢迎关注公众号:语数本期精选问题提问背景:了解高效的学习方向和针对性的学习路线,利用业余时间修炼自己,希望2年后收入和职级能有所提高。当下应制定怎样的学习路线?有哪些模块应深入学习或者考证?什么是指标体系,如何推动?如何方便领导讲故事,证明我司是有数据能力一、高效制定
语兴数据
·
2024-01-30 15:01
大数据
面试
职场和发展
揭秘:
数仓
开发面试真正需要注意的点
怎样保障
数仓
数据的一致性?
语兴数据
·
2024-01-30 15:30
面试
人工智能
职场和发展
大数据
以
数仓
视角切入学习路线,大数据真正需要学习的内容有哪些?
本期精选问题作为
数仓
开发,需要学习哪些大数据基础知识?当整个数据链路过长时,如何进行模型优化?
语兴数据
·
2024-01-30 15:30
java
数据库
大数据
面试
数仓
建设学习路线(四)-指标体系建设
指标体系建设目的与下游(风控/bi)达成合作,保障指标建设时口径的统一,完成指标覆盖,提升复用性,通过可视化方式提升查询效率指标中心图指标体系建设难点能否与下游达成共识(沟通)指标能否做到
数仓
收口
语兴数据
·
2024-01-30 15:00
数仓建设-学习路线
学习
大数据
数据仓库
hive
我在面试时写了这个,面试官对我刮目相看
孟哥介绍前字节跳动高级开发,军工企业
数仓
某线负责人,曾面试过上百人,看过2000余份简历。
语兴数据
·
2024-01-30 15:00
程序人生
数仓
建设学习路线(五)-数据质量保障
也使得下游业务方对数据用的放心数据质量的痛点有哪些数据问题该如何上报修复,缺少流程化数据链路缺少卡点保障数据不能及时产出影响到下游用数用户无感知,除了发现的数据问题,隐藏的数据问题仍存在很多人会有一种想法,做了这么久的
数仓
为什么还存在质量问题
语兴数据
·
2024-01-30 15:00
程序人生
数仓
建设学习路线(三)元数据管理
什么是元数据?简单来说就是描述数据的数据,更直白来说就是描述表名、表制作者、表字段、表生命周期、表存粗等信息的数据元数据该如何管理工具化开源:可通过atlas获取表依赖及信息做二次开发,或者完成可视化界面平台化:数据血缘数据血缘功能清晰知道表/任务上下游,方便排查问题,知道下游哪个模块在使用,提升开发效率及后期管理维护数据血缘类型活跃血缘:指离线开发线上调度产出的血缘,且调度持续生效静默血缘:指离
语兴数据
·
2024-01-30 15:59
数仓建设-学习路线
大数据
数据仓库
hive
数据治理实践 | 网易某业务线的计算资源治理
写在前面感谢关注,更多资料可以关注公众号语数,也可关注B站同名:语兴呀,一起学习
数仓
建设。前言本文从计算资源治理实践出发,带大家清楚认识计算资源治理到底该如何进行,并如何应用到其他项目中。
语兴数据
·
2024-01-30 15:29
大数据
spark
hive
数据治理
数据治理实践 | 小文件治理
小文件是
数仓
侧长期头痛问题,它们会占用过多的存储空间,影响查询性能。因此,我们需要采取一些措施来对小文件进行治理,以保证Hive的高效性和稳定性。
语兴数据
·
2024-01-30 15:29
大数据
数据治理
小文件治理
数据仓库
回响科技二面面试题解答
面试题1、你们的
数仓
中DWD层为什么要划分数据域?划分数据域之后会对ADS层造成什么影响?是可以提效还是可扩展性强?你们是如何考虑的呢?
语兴数据
·
2024-01-30 15:58
科技
大数据
面试
职场和发展
数据库开发
数仓
工具使用-Datax
前置-解决中文乱码问题解决方案-在mysql中执行usehive;altertableCOLUMNS_V2modifycolumnCOMMENTvarchar(256)charactersetutf8;altertableTABLE_PARAMSmodifycolumnPARAM_VALUEvarchar(4000)charactersetutf8;altertablePARTITION_PARA
t_813
·
2024-01-30 06:07
hadoop
数据仓库
大数据
hive
申万宏源基于 StarRocks 构建实时
数仓
作者:申万宏源证券实时
数仓
项目组小编导读:申万宏源证券有限公司是由新中国第一家股份制证券公司——申银万国证券股份有限公司与国内资本市场第一家上市证券公司——宏源证券股份有限公司,于2015年1月16日合并组建而成
StarRocks_labs
·
2024-01-29 18:23
后端
美团外卖搜索基于Elasticsearch的优化实践
1.前言最近十年,Elasticsearch已经成为了最受欢迎的开源检索引擎,其作为离线
数仓
、近线检索、B端检索的经典基建,已沉淀了大量的实践案例及优化总结。
架构未来
·
2024-01-29 17:07
elasticsearch
jenkins
大数据
数据仓库模型设计:从架构到实践的全方位指南
一、
数仓
模型架构在构建数据仓库时,首先需要明确模型架构,以确保数据仓库的高内聚和低耦合,以及数据的分层管理。
猿来孺词
·
2024-01-29 10:51
数据仓库
架构
大数据
doris
安装文档翻译-标准部署(Standard deployment)
文档地址:对应1.2版本Standarddeployment-ApacheDorisThistopicisaboutthehardwareandsoftwareenvironmentneededtodeployDoris,therecommendeddeploymentmode,clusterscaling,andcommonproblemsoccurincreatingandrunningclu
zxfBdd
·
2024-01-29 06:11
大数据
doris
数仓
-数据安全
文章内容参考:
数仓
建设实践路线-第十一讲-数据安全_哔哩哔哩_bilibili经过一段时间打磨开启全新篇章《
数仓
建设实践路线》,从0-1搭建数据体系,让大家更有体感,并将《
数仓
建设学习路线》课程内容落地
爱吃辣条byte
·
2024-01-28 23:41
数仓建设
大数据
数据仓库
数仓
治理-小文件治理
注:文章参考:数据治理实践|小文件治理本文中将介绍Hive中小文件治理的方法和技巧,希望对大家有所帮助https://mp.weixin.qq.com/s/HDxAGhGIPvXF38wPiXZ7xg[离线计算-Spark|Hive]HDFS小文件处理-腾讯云开发者社区-腾讯云HDFS小文件过多会对hadoop扩展性以及稳定性造成影响,因为要在namenode上存储维护大量元信息.https://
爱吃辣条byte
·
2024-01-28 23:40
数据治理
大数据
数据仓库
数仓
-数据质量
文章内容参考:
数仓
建设实践路线-第八讲-数据质量_哔哩哔哩_bilibili经过一段时间打磨开启全新篇章《
数仓
建设实践路线》,从0-1搭建数据体系,让大家更有体感,并将《
数仓
建设学习路线》课程内容落地。
爱吃辣条byte
·
2024-01-28 23:10
数仓建设
大数据
数仓
治理-数据质量治理
注:文章参考:语数-数据质量治理本期语兴从数据质量治理角度出发,与大家一起探讨数据质量治理最佳实践,之前的数据治理文章在网易有数官方公众号,数据治理课程讲解在B站(搜索:语兴呀)https://mp.weixin.qq.com/s/uoHlA64q1K_WHVYLPRucHQ目录一、数据质量治理的背景1.1BUG工单较多1.2DQC(数据质量监控)常触发1.3基线/SLA经常破线二、数据质量治理识
爱吃辣条byte
·
2024-01-28 23:10
数据治理
大数据
数据仓库
数仓
治理-计算资源治理
mp.weixin.qq.com/s/w6d5zhDaaavNhW_DMEkPsQ目录一、计算资源治理的背景二、计算资源问题复盘三、计算资源治理前的思考与行动3.1治理前的思考3.2治理行动四、治理效果五、小结前言业务成熟期,
数仓
经常会收到集
爱吃辣条byte
·
2024-01-28 23:10
数据治理
数据仓库
大数据
数仓
治理-数据安全治理
一、数据安全治理的背景存在敏感数据泄露、数据安全审批节点过长、风险数据对外暴露、数据使用权限(库、表年、字段)闲置情况。二、数据安全治理前评估2.1数据安全问题评估存在安全隐患的评估角度:审批流程缺少数据使用说明次数、被业务方发现数据安全问题次数等。2.2数据表审批链路评估基于每个节点的审批时间去做整个链路的评估,必要时需要进行链路缩短。数据表的内容一般包括申请人,审批人,节点层级,工单处理内容等
爱吃辣条byte
·
2024-01-28 23:10
数据治理
大数据
数据仓库
数据湖技术之核心特性篇
一.湖仓一体关键技术特性原有的
数仓
模式为业务解决了很大的业务需求问题,很好的服务于公司的数据分析服务。但是由于本身的一些机制问题,导致一些方面受到了限制,无法更好的去扩展。
风筝Lee
·
2024-01-28 18:58
数据湖
数据仓库
1.
doris
简介
doris
概述ApacheDoris是现代化的MPP(MassivelyParallelProcessing大规模并行处理)框架分析性数据库,有效支持实时数据分析,分布式架构简单,易于维护,支持10PB
夹毛局的程序员
·
2024-01-28 16:28
doris
大数据
2.
doris
数据类型与分区
用户创建与授权--创建用户createuser'test'identifiedby'test';--创建数据库createdatabasetest_db;--授权用户grantallontest_dbtotest;建表语法CREATE[EXTERNAL]TABLE[IFNOTEXISTS][database.]table_name(column_definition1[,column_defini
夹毛局的程序员
·
2024-01-28 16:28
doris
大数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他