数仓学习专栏第16页

物流仓储晋级智能可视化远程遥控，和低效管理说再见

通过了解得知当前多数仓储管理仍旧存在很多困惑：企业如何减少纸张作业，实现无纸化高效办公？如何处理多帐数据对接？解决数据实时性？叉车司机如何定位？如何防止人员原因造成的仓库发货、领料失误？

图扑可视化·2023-10-19 13:50

2021-08-07老年规划：用年轻的方式老去

今天的内容首先是为父母学的——如果学习专栏的小伙伴是30岁的话，父母平均也在60岁左右，正好是退休前后的年龄。这几年会很大程度决定之后20年的生活质量，作为子女，也牵扯到你的生活质量。

六安姐·2023-10-19 13:26

【数据仓库】hadoop生态圈与数据仓库

TDS5.2.抽取过程5.3.转换与装载过程5.4.过程管理和自动化调度5.5．数据目录（或者称为元数据管理）5.6．查询引擎和SQL层5.7．用户界面本文主要讨论：关系型数据库拓展的瓶颈cap理论想了解数仓需要哪些能力以及这些能力靠哪些大数据技术实现

roman_日积跬步-终至千里·2023-10-19 11:12

大数据数仓搭建-大数据用户画像推荐系统搭建

一确定需求我把需求主要分为三大类一离线数据报表需求二实时观查数据走向需求三算法需求二确定系统架构根据需求我们目前有几种大数据架构可以供参考流式架构流式架构非常激进，直接拔掉了批处理，数据全程以流的形式处理，所以在数据接入端没有了ETL，转而替换为数据通道。经过流处理加工后的数据，以消息的形式直接推送给了消费者。虽然有一个存储部分，但是该存储更多的以窗口的形式进行存储，所以该存储并非发生在数据湖，而

老姜的数据江湖·2023-10-18 21:10

Flink SQL 时区

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料95篇原创内容公众号TIMESTAMPvsTIMESTAMP_LTZTIMESTAMP类型TIMESTAMP

hyunbar·2023-10-18 17:38

Databend 开源周报第 115 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

Databend·2023-10-18 13:59

数仓建模分层理论

数仓的建模或者分层，其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话，所有的划分都是为了更好的管理。小到JVM内存区域的划分，JVM中堆空间的

陈二狗想吃肉·2023-10-18 13:49

精彩回顾 | Apache Flink Meetup · 北京站（附PPT下载）

9月21日下午，2019年度最后一场Meetup在帝都圆满落幕，来自阿里巴巴、小米、贝壳找房的资深专家们现场分享了小米的Flink应用实践、贝壳找房的实时数仓建设、Flink资源管理机制以及FlinkPythonAPI

Apache Flink·2023-10-18 11:46

数仓建设（三）

4)累积快照事实表多个业务过程联合分析而构建的事实表，如采购单的流转环节。用于分析事件时间和时间之间的间隔周期。少量的且当前事务型不支持的，如关闭、发货等相关的统计。4.DWS公共汇总层设计规范数据仓库的性能是数据仓库建设是否成功的重要标准之一。聚集主要是通过汇总明细粒度数据来获得改进查询性能的效果。通过访问聚集数据，可以减少数据库在响应查询时必须执行的工作量，能够快速响应用户的查询，同时有利于减

未来在这儿·2023-10-18 06:10

数仓建设（一）

想了想，我们的数仓的建设是基于大数据平台进行的，中间也经历了比较曲折的过程。每个行业都有自身的业务区别，不过很多还是比较相通的。

未来在这儿·2023-10-18 06:39

数仓建设（二）

1)指标梳理指标口径的不一致使得数据使用的成本极高，经常出现口径打架、反复核对数据的问题。在数据治理中，我们将需求梳理到的所有指标进行进一步梳理，明确其口径，如果存在两个指标名称相同，但口径不一致，先判断是否是进行合并，如需要同时存在，那么在命名上必须能够区分开。2)指标管理指标管理分为原子指标维护和派生指标维护。原子指标：选择原子指标的归属产线、业务板块、数据域、业务过程选择原子指标的统计数据来

未来在这儿·2023-10-18 06:32

BI工具-DataEase(2) 基础使用

先讲下工具栏,分别是仪表盘,数据集,数据源,模板市场等等.和大多数的BI工具一样,首先配置的就是数据源1.数据源:支持OLTP,OLAP,数仓/数据湖,我们这边还是使用的mysql新建mysql数据源,

大曲·蜗牛·2023-10-17 18:53

基于大模型的数据血缘异常归因分析

本期黑客松共吸引了近50位选手参赛，有的在实时数仓领域显神通，有的则再次请出了大模型。这些小组都有个共同点——基于数据云平台DataSimba的元数据域“搞事情”。

奇点云·2023-10-17 13:49

2023年-数仓-【时间维度表】-年、周、节假日

建表语句，如下：DROPTABLEIFEXISTSdim_date_info;CREATEEXTERNALTABLEdim_date_info(`date_id`STRINGCOMMENT'日',`week_id`STRINGCOMMENT'周ID',`week_day`STRINGCOMMENT'周几',`day`STRINGCOMMENT'每月的第几天',`month`STRINGCOMMEN

IT小强哥·2023-10-17 05:25

【node进阶】Express+Multer+Postman模拟文件上传功能

✅作者简介：一名普通本科大三的学生，致力于提高前端开发能力✨个人主页：前端小白在前进的主页系列专栏：node.js学习专栏⭐️个人社区:个人交流社区学习格言:☀️打不倒你的会使你更强！

前端小白在前进·2023-10-16 21:32

scala项目创建

答：实时数仓却不了spark,spark离不开scala、也就是你也是不学习spark也就不用学习scala，因为有其他编程语言可以代替它。2、特点答：1）是一门多范式语言，支持面向对象和函数式编程。

鱼得三金·2023-10-16 20:02

数仓建设规范说明书

通过数仓架构设计、数仓模型设计、数仓开发规范、数据质量规范这四个⽅⾯对整体数仓建设做好规范化的指导。⾯向数据开发团队、数据产品团队、前后端团队等与数仓数据有关⼈员。

贾斯汀玛尔斯·2023-10-16 18:39

「数仓建设」主题域划分

大家好，本篇聊一下数仓建设，讲一下面试常遇到的主题域与主题划分，更多精彩文章优先从微信公众号《大数据阶梯之路》首发，欢迎关注，公众号回复：大数据数仓资料，可以获取大数据数仓相关学习资料。

大数据阶梯之路·2023-10-16 12:38

java spark 消费kafka_spark streaming消费kafka数据写入hdfs避免文件覆盖方案(java版)

1.写在前面在sparkstreaming+kafka对流式数据处理过程中，往往是sparkstreaming消费kafka的数据写入hdfs中，再进行hive映射形成数仓，当然也可以利用sparkSQL

吴羽舒·2023-10-16 11:40

使用Python创建faker实例生成csv大数据测试文件并导入Hive数仓

文章目录一、Python生成数据1.1代码说明1.2代码参考二、数据迁移2.1从本机上传至服务器2.2检查源数据格式2.3检查大小并上传至HDFS三、beeline建表3.1创建测试表并导入测试数据3.2建表显示内容四、csv文件首行列名的处理4.1创建新的表4.2将旧表过滤首行插入新表一、Python生成数据1.1代码说明这段Python代码用于生成模拟的个人信息数据，并将数据保存为CSV文件。

程序终结者·2023-10-16 06:56

notepad++正则匹配使用笔记

主要是在对Mysql的ddl语句进行建立数仓表的时候，一些正则替换操作的记录；1、正则匹配既有数字，又有字母：结果：如果要对括号进行匹配，就需要一个反斜杠进行转译；2、对非逗号的字符进行替换（目的是不要

靓仔写sql·2023-10-15 22:29

【大数据】Apache Hive数仓（学习笔记）

一、数据仓库基础概念1、数仓概述数据仓库（数仓、DW）：一个用于存储、分析、报告的数据系统。OLAP（联机分析处理）系统：面向分析、支持分析的系统。

rexhao_wmh·2023-10-15 15:36

新一代大数据技术：构建PB级云端数仓实践

在数据大爆炸时代，随着企业的业务数据体量的不断发展，半结构化以及无结构化数据越来越多，传统的数据仓库面临重大挑战。通过以Hadoop,Spark为代表的大数据技术来构建新型数据仓库，已经成为越来越多的企业应对数据挑战的方式。本期极客说邀请了来自腾讯云大数据基础团队负责人，大数据技术专家堵俊平来为我们分享介绍大数据领域最近的技术趋势，包含介绍Hadoop与Spark技术的最新进展。通过一些实际的应用

腾讯云开发者·2023-10-14 23:07

Flink1.11.0 SQL与hive整合

一、前言此次flinksql整合hive主要是能在flinksql中读写hive数据,为flink实时写数据进入hive构建实时数仓做准备工作。

天涯到处跑·2023-10-14 17:58

数仓开发:相似表结构通用更新函数

数仓一、需求描述二、Oracle代码实现三、Mysql代码实现一、需求描述在数仓开发中,可能会遇到这样的需求:数仓多层之前要进行merge操作,有多少张表进行多少次merge,针对这种通用的merge操作

我爱夜来香A·2023-10-14 15:14

数据仓库DW-理论知识储备

数仓分层数据仓库中的数据一般经过一下几层处理：参考来自1.ODSODS主要完成：（1）保持数据原貌不做任何修

躺着听Jay·2023-10-14 09:37

什么更重要

在学习专栏之前，我的精力漂浮不定，一会儿认真在投身在工作上，一会儿开始学习投资，一会

草稿记录·2023-10-14 00:52

数仓面试题（1）

1.数据库的三范式是什么？答：第一范式（1NF）强调的是列的原子性，即列不能够再分成其他几列。第二范式（2NF）第二范式在第一范式的基础之上更进一层。第二范式需要确保数据库表中的每一列都和主键相关，而不能只与主键的某一部分相关（主要针对联合主键而言）。也就是说在一个数据库表中，一个表中只能保存一种数据，不可以把多种数据保存在同一张数据库表中。第三范式（3NF）第三范式需要确保数据表中的每一列数据都

Young_IT·2023-10-13 14:16

数据结构的魔法：高级算法优化实战

文章目录数据结构与算法：基础知识数据结构算法高级算法优化实战1.数据缓存2.哈希表优化3.算法优化高级算法优化的挑战结论欢迎来到数据结构学习专栏~数据结构的魔法：高级算法优化实战☆*o(≧▽≦)o*☆嗨

IT·陈寒·2023-10-13 08:21

OLAP数仓入门：进阶篇

文章作者：温正湖网易易数内容来源：数据库内核@知乎专栏导读：前一篇文章从OLTP出发，通过对比引出OLAP，进一步介绍了数仓的基本概念，包括多维数据模型、数据立方体及其典型操作等。

浪尖聊大数据-浪尖·2023-10-13 06:34

利用Flink(1.17)滚动窗口实时统计Apache Doris审计日志

背景及需求：目前生产环境开放给其他业务组后，需要实时统计各业务组访问数仓(ApacheDoris)频次，分析异常请求用户，做到实时监控及提前预警，同时针对慢查询日志，要留存分析原因，降低慢查询带来的负影响

码猿小站·2023-10-12 19:03

flink-2

实时数仓项目第1章分层设计在之前介绍实时数仓概念时讨论过，建设实时数仓的目的。主要是增加数据计算的复用性。每次新增加统计需求时，不至于从原始数据进行计算，而是从半成品继续加工而成。

不爱吃鱼的馋猫·2023-10-12 19:02

Hudi 系列-基础概念-索引机制

FlinkSpark总结前言Hudi系列文章在这个这里查看https://github.com/leosanqing/big-data-study索引(Index)是Hudi最重要的特性之一,也是区别于之前传统数仓

别惹猪儿虫·2023-10-12 18:38

Flink CDC 系列 - 实现 MySQL 数据实时写入 Apache Doris

▼关注「ApacheFlink」视频号，遇见更多大咖▼摘要：本文通过实例来演示怎么通过FlinkCDC结合Doris的FlinkConnector实现从Mysql数据库中监听数据并实时入库到Doris数仓对应的表中

Apache Flink·2023-10-12 10:28

博文推荐｜Flink CDC 结合 Doris Flink Connector 实现MySQL数据实时入Apache Doris

本文通过实例来演示怎么通过FlinkCDC结合Doris的FlinkConnector实现从MySQL数据库中监听数据并实时入库到Doris数仓对应的表中。

ApacheDoris·2023-10-12 10:54

【Doris】Flink CDC 结合 Doris Flink Connector 实现MySQL数据实时入Apache Doris

本文通过实例来演示怎么通过FlinkCDC结合Doris的FlinkConnector实现从MySQL数据库中监听数据并实时入库到Doris数仓对应的表中。

九层之台起于累土·2023-10-12 10:48

『LeetCode|每日一题』----＞找到字符串中所有字母异位词

找到字符串中所有字母异位词1.每日一题2.解题思路2.1思路分析2.2核心代码2.3全部代码2.4易错点作者简介：‍一位20级的计科专业的新手，请各位大佬多多指教个人主页：XiaoChen_Android学习专栏

XiaoXiaoChen-2716·2023-10-12 07:03

【C++初阶（一）】学习前言命名空间与IO流

本专栏内容为：C++学习专栏，分为初阶和进阶两部分。通过本专栏的深入学习，你可以了解并掌握C++。

小小unicorn·2023-10-12 03:15

6个步骤实现-数仓数据只加工一次・《数据中台》课程总结

备注:文章内容借鉴了郭忆老师《数据中台》课程,想了解更多可以看这个课程哈、目录：一、元数据1、数据字典2、数据血缘3、数据特征二、指标管理1、如何规范化定义指标三、数据模型1、我建模的方法2、理想的数仓模型设计应该具备的因素

夜希辰·2023-10-12 01:20

余老师带你学习大数据框架全栈第十三章Hudi第一节核心技术

1.前言1.1为什么产生数据湖数据量比较大，越来越不满足处理结构化的数据，比如说数仓，数仓就是处理结构化数据。

weixin_45810046·2023-10-11 20:55

数据湖系列(1) - Hudi 核心功能原理剖析

随着互联网业务的逐步成熟，数仓和模型训练的基本盘逐步稳固，越来越多的工程师从业务开发需求转移到了工程的架构升级，而常用的Hudi和Iceberg往往会成为替代Hive/Hdfs等架构升级的选型。

小晨说数据·2023-10-11 20:49

实施运维面试题

为什么要用数仓数据仓库是一种分析数据库，用于存储和处理数据，以便对数据进行分析。数据仓库有两个主要功能：存储分析数据和处理分析数据。

Geneartion_Z·2023-10-11 18:44

高频时序数据仓库

Tinysoft_SH·2023-10-11 16:24

为何需要重新编译过的hive

3.安装好后可按如下命令查看hive兼容的spark总结前言大数据生态各个组件之间存在兼容性问题，假如您想从事大数据开发相关工作，那么后续很有可能会做离线数仓的项目，而在搭建数仓环境时会用到spark,

博嘁东·2023-10-11 14:18

基于ClickHouse的用户行为（路径）分析实践

在我们的体系中，ClickHouse定位点击流数仓，所以下面举几个用它来做用户行为（路径）分析的实战例子，包括：路径匹配智能路径检测有序漏斗转化用户留存Session

LittleMagic·2023-10-11 01:06

该如何设计数仓的汇总层(DWS)

数据建模，毫无疑问是数仓建设的重中之重，然后，在实际的开发过程中，会把大量的时间都投入到了需求开发，往往会忽略数据建模(尤其是DWS层的建模)，长此以往，数据模型变的越来越杂乱，指标口径无法统一，造成的结果就是

大数据技术与数仓·2023-10-10 23:28

数据仓库，Hive中使用 != 或＜＞符号进行条件过滤时的坑

事情经过是这样的，我在把业务系统数据同步到数仓(数据存储在Hive)中时，在数据汇总层(DWS)，对数据进行汇总处理时，发现有数据丢失的问题，经过排查，发现是在使用致命陷阱业务场景：把业务数据抽到ODS

雾岛与鲸·2023-10-10 19:51

MPP和hadoop

特别是在企业数据仓库建设中，MPP架构与Hadoop架构代表两类典型的技术路线选型，事实上，在2015年左右甚至有人认为基于Hadoop体系的数仓将彻底取代基于MPP数据库的数仓。

方璧·2023-10-10 18:03

什么是URL采集工具？URL采集工具（MsrayPlus）可以做什么？

数据采集的概念数据采集就是从海量的数据中，将数据采集到自己的数仓进行二次处理大数据时代，我们需要灵活迅速地抓取网页上散乱分布的数据信息，

　Delusion·2023-10-10 16:07

日常学习记录随笔-大数据之日志(hadoop)收集实战

数据收集(nginx)--->数据分析--->数据清洗--->数据聚合计算---数据展示可能涉及到zabix做任务调度我们的项目电商日志分析比如说我们现在有一个系统,我们的数仓建立也要有一个主题我这个项目是什么我要干什么定义方向对用户进行分析

一个诺诺前行的后端程序员·2023-10-10 13:23

推荐频道

数仓学习专栏