数据仓库数据中台数据湖第4页

数据库与数据仓库的区别

数据库Database(Oracle,Mysql,PostgreSQL)主要用于事务处理，数据仓库Datawarehouse(AmazonRedshift,Hive)主要用于数据分析。

42c64edf12e9·2024-02-05 02:12

HIVE

--------hive数据仓库hive底层执行引擎有MapReduceTezSpark压缩GZIPLZOSnappyBZIP2等存储TextFileSequenceFileRCFileORCParquetUDF

Yagami_·2024-02-05 00:23

【读红宝书（一）】背景知识

最近，HDFS领域出现了另一个值得讨论的重点，即“数据湖”。HDFS集群（目前大多数企业已经投资并希望找到对他们有用的东西）的合理使用是作为已摄取的数据文件队列。

三半俊秀·2024-02-04 23:41

Fink CDC数据同步（六）数据入湖Hudi

数据入湖HudiApacheHudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

大数据_苡~·2024-02-04 16:21

数据中台第5章数据汇聚联通：打破企业数据孤岛

要构建企业级的数据中台，第一步就是要让企业内部各个业务系统的数据实现互联互通，从物理上打破数据孤岛，这主要通过数据汇聚和交换的能力来实现。

四月天03·2024-02-04 12:51

智慧水务（水厂）大数据平台，打造水务运营管理驾驶舱

以物联感知技术、大数据、智能控制、云计算、人工智能、数字孪生、AI算法、虚拟现实技术为核心，以监测仪表、通讯网络、数据库系统、数据中台、模型软件、前台展示、智慧运维等产

郭靖守襄阳【软芯民用】·2024-02-04 09:52

大数据领域的数据仓库

在大数据领域，数据仓库（DataWarehouse）是一个用于存储、管理和分析大量数据的集中式系统。

薛定谔的zhu·2024-02-04 09:43

软考笔记--数据仓库技术

数据仓库是一个面向主题的，集成的，相对稳定的、反映历史变化的数据集合，用于支持管理决策。数据源是数据仓库系统的基础，是整个系统的数据源泉。

赤露水·2024-02-04 07:12

MySQL调优

优化类型大概分类三个类型结构/架构优化：读写分离、集群热备、分布式架构、引入缓存/消息/搜索中间件、分库分表、中台架构（大数据中台、基础设施中台）等配置/参数优化：调整应用系统中各层面的配置文件、启动参数达到优化性能的目标代码

whiteBrocade·2024-02-04 06:48

Hadoop大数据实战系列文章之Hive

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据可以将

测试帮日记·2024-02-04 05:45

第七章主管信息系统和数据仓库

[TOC]第七章主管信息系统和数据仓库7.0前言EIS是数仓之前的概念EIS没有注重基础结构（数据源、数据质量、数据流通等）DSS是现代的EIS，与数仓紧密相连7.1EIS概述EIS典型用途趋势分析关键指标度量和跟踪向下钻取问题监控竞争分析关键性能指标监控

晨磊的微博·2024-02-04 04:53

【读书笔记】数据仓库- Apache Kylin权威指南

ApacheKylin权威指南（第2版）◆1.2.1为什么要使用ApacheKylin它们的主要技术是“大规模并行处理”（MassivelyParallelProcessing，MPP）和“列式存储”（ColumnarStorage）◆1.2.2ApacheKylin怎样解决关键问题基于以上两点，我们得到一个新的思路——“预计算”。应尽量多地预先计算聚合结果，在查询时刻也尽量使用预计算的结果得出查

KevinBrain·2024-02-03 19:16

[Python] 如何使用scikit-learn的preprocessing和impute模块进行数据预处理（数据无量纲化，缺失值填充，对分类型特征编码与哑变量，对连续型特征进行二值化与分段）

数据挖掘的五大流程获取数据从各种来源收集数据，包括但不限于数据库、数据仓库、互联网、传感器、社交媒体等。获取数据的方式可以通过数据抓取、数据爬取、数据采集工具等方法进行。

老狼IT工作室·2024-02-03 18:16

数仓建模&维度建模理论知识

0.思维导图第1章数据仓库概述1.1数据仓库概述 数据仓库是一个为数据分析而设计的企业级数据管理系统。

韩顺平的小迷弟·2024-02-03 16:02

离线数仓-数据治理

目录一、前言1.1数据治理概念1.2数据治理目标1.3数据治理要解决的问题1.3.1合规性元数据合规性数据质量合规性数据安全合规性1.3.2成本存储资源成本计算资源成本二、数据仓库发展阶段2.1初始期2.2

爱吃辣条byte·2024-02-03 13:51

初识Apache Paimon

第0章前言0.1主流数据湖工具Delta：由Spark背后商业公司Databricks出品，因此很多功能强兼容Spark，对其他计算引擎不是很友好。

Racin_01·2024-02-03 12:30

深入数仓离线数据同步：问题分析与优化措施

一、前言在数据仓库领域，离线数仓和实时数仓是常见的两种架构类型。离线数仓一般通过定时任务在特定时间点（通常是凌晨）将业务数据同步到数据仓库中。

Light Gao·2024-02-03 10:14

数仓日常维护：剖析每日增量同步的内部机制

而数据的实时性和准确性对于确保数据仓库的有效性至关重要。而离线数仓中常见的数据同步方式是T+1，其中同步方式主要分为两种：全量同步和增量同步。本文聚焦于探讨增量同步的原理，解析其工作机制和实

Light Gao·2024-02-03 10:14

API服务假死

1、OOM，直接看日志服务挂掉了2、服务假死，看服务日志，日志还在正常打印，但是所有请求都被拒绝项目背景：以前在别的项目现场，数据中台，使用API服务对外提供接口之前，都是对数据进行加工处理之后，A

爱晒太阳的小老鼠·2024-02-03 03:03

专业数据治理：数据中台系统塑造企业未来的数字化运营管理新秩序

数据中台应运而生，它被认为是企业数字化转型的至关重要的组成部分，为企业提供了崭新的数据管理和应用模式。

亿发软件YiFaRJ·2024-02-02 23:36

数据湖系列之一 | 你一定爱读的极简数据平台史，从数据仓库、数据湖到湖仓一体

从数据仓库、数据湖，到现在的湖仓一体，业界建设数据平台的新方法和新技术层出不穷。理解这些方法和技术背后隐藏的演进脉路、关键问题、核心技术原理，可以帮助企业更好地建设数据平台。

百度智能云技术站·2024-02-02 23:04

某知名乳业集团：夯实软件安全基础，助力乳业数字化创新发展

代码隐患凸显，数字化进程遇挑战在数字化浪潮中，该乳业集团积极响应，并制定了突破性数字化战略规划，通过智能制造、ERP系统、智能办公三大核心能力，结合数据中台和业务中台的支撑，来推动新零售和智慧供应链的创新发

开源网安·2024-02-02 21:48

Hive和Hbase的各自适用场景

Hive：Hive是Hadoop数据仓库，严格来说，不是

yoku酱·2024-02-02 17:36

超详细【入门精讲】数据仓库原理&实战一步一步搭建数据仓库内附相应实验代码和镜像数据和脚本

文章对应的博客园链接：点击这里文章目录0.B站相关课程链接和搭建数据仓库资源及脚本下载食用指南：建议先把博客整体看一遍之后再进行操作文章最后有常见问题及解决方法1.项目介绍及整体流程1.1项目介绍1.2

Oraer_·2024-02-02 16:29

银行数据仓库体系实践（18）--数据应用之信用风险建模

信用风险银行的经营风险的机构，那在第15节也提到了巴塞尔新资本协议对于银行风险的计量和监管要求，其中信用风险是银行经营的主要风险之一，它的管理好坏直接影响到银行的经营利润和稳定经营。信用风险是指交易对手未能履行约定契约中的义务而给银行造成经济损失的风险。典型的表现形式包括借款人发生违约或信用等级下降。借款人因各种原因未能及时、足额偿还债务/银行贷款、未能履行合同义务而发生违约时，债权人或银行必将因

南极找南·2024-02-02 13:10

银行数据仓库体系实践（15）--数据应用之巴塞尔新资本协议

巴塞尔新资本协议介绍在银行管理中经常会听到巴3、新资本协议等专用词，那这都是指《巴塞尔资本协议》，全称《关于统一国际银行资本衡量和资本标准的协议》。新资本协议的五大目标是：促进金融体系的安全性和稳健性（保持总体资本水平不变）；继续促进公平竞争；更全面地反映风险；更敏感地反映银行头寸及其业务的风险程度；重点放在国际活跃银行，基本原则适用于所有银行。最新的《巴塞尔协议III》（第3版）于2010年9月

南极找南·2024-02-02 13:40

银行数据仓库体系实践（16）--数据应用之财务分析

总账系统在所有公司中，财务分析的基础都是核算，那在银行的系统体系中，核算功能在业务发生时由业务系统如核心、贷款、理财中实现登记，各业务系统会在每天切日后统计当天各机构的核算科目的发生额与余额，并统一送到总账系统，总账系统进行全行会计核算的汇总、调整并每天统计出全银行的资产负债表、利润表和现金流表，使银行的经营情况一目了然。后续的许多财务应用以及监管报送中，总账数据是必不可少的一部分。而且数据质量校

南极找南·2024-02-02 13:40

银行数据仓库体系实践（10）--汇总指标层和集市模型设计

建立多层次的数据访问服务体系，有力提升数据仓库的价值。基于指标汇总层、集市层、可以提供面向业务人员的即席数据查询、以及面向应用开发者的数据接口、应用访问接口，满足不同类型应用的需要。

acumen_leo·2024-02-02 13:38

银行数据仓库体系实践（17）--数据应用之营销分析

营销是每个银行业务部门重要的工作任务，银行产品市场竞争激烈，没有好的营销体系是不可能有立足之地，特别是随着互联网金融发展,金融脱媒”已越来越普遍，数字化营销方兴未艾，银行的营销体系近些年也不断发展，从客户经理为主逐步转变为客户经理+互联网营销的模式。在客户经理阶段，银行主要通过CRM系统进行产品销售管理。对产品、客户经理、团队的绩效进行统计。那随着互联网营销的发展和数据量的增加，单个CRM系统已经

南极找南·2024-02-02 13:06

实时数据湖：Flink CDC流式写入Hudi

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜1.环境准备•Flink1.12.2_2.11•Hudi0.9.0-SNAPSHOT(master分支)•Spark2.4.5、Hadoop3.1.3、Hive3.1.22.FlinkCDC写入HudiMySQL建表语句如下createtableusers(idbigintauto_incrementprimarykey,namevarch

王知无(import_bigdata)·2024-02-02 12:01

Flink CDC 详述实时数据湖

在构建实时数仓的过程中，如何快速、正确的同步业务数据是最先面临的问题，本文主要讨论一下如何使用实时处理引擎Flink和数据湖ApacheIceberg两种技术，来解决业务数据实时入湖相关的问题。

000X000·2024-02-02 12:01

使用 Flink Hudi 构建流式数据湖

摘要：本文介绍了FlinkHudi通过流计算对原有基于mini-batch的增量计算模型不断优化演进。用户可以通过FlinkSQL将CDC数据实时写入Hudi存储，且在即将发布的0.9版本Hudi原生支持CDCformat。主要内容为：背景增量ETL演示一、背景近实时从2016年开始，ApacheHudi社区就开始通过Hudi的UPSERT能力探索近实时场景的使用案例[1]。通过MR/Spark的

浪尖聊大数据-浪尖·2024-02-02 12:30

数据仓库表级血缘应用

表血缘热度文章目录数仓血缘应用（一）：表血缘热度前言一、价值衡量指标——应用层二、血缘节点应用——热度1、指标透传（应用层——>数仓）2、指标应用（热度）2.1、数仓血缘节点关系2.2、热度2.3、热度应用总结前言在数据仓库的建设过程中

零壹Ture·2024-02-02 02:24

实现成本最优的一体化管理，新一代数据平台的建设方式丨爱分析调研

导读1.当前，企业在大数据和数据中台建设上取得成果，但数据开发管理仍具挑战性（成本、效率、复杂度）。

ifenxi爱分析·2024-02-01 20:10

Flink 读取 Kafka 消息写入 Hudi 表无报错但没有写入任何记录的解决方法

博主历时三年精心创作的《大数据平台架构与原型实现：数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》

　Laurence·2024-02-01 15:24

springboot+mysql智能停车场管理系统-计算机毕业设计源码41692

摘要由于数据库和数据仓库技术的快速发展，智能停车场管理系统建设越来越向模块化、智能化、自我服务和管理科学化的方向发展。

vx2_Biye_Design·2024-02-01 09:10

大数据开发之离线数仓项目（用户行为采集平台）（可面试使用）

第1章：数据仓库概念数据仓库，是为企业指定决策，提供数据支持的，可以帮助企业，改进业务流程、提高产品质量等。数据仓库的输入数据通常包括：业务数据、用户行为数据和爬虫数据等。

Key-Key·2024-02-01 08:46

Hadoop 大数据技术原理与应用

生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库

kk8_·2024-02-01 04:33

2022年最新数据库经典面试题及答案汇总（含PostgreSQL、Oracle、MySQL）

MoMoSQL666·2024-02-01 02:44

数据库基础理论

（数据仓库）数据：描述事务的符号记录，包含但不限于数字、文字、图形、图像、声音、语言等。数据有多重形式，它们都可以经过数字化后存入计算机。数据库：数据仓库。

sour moon·2024-02-01 00:59

火山引擎ByteHouse：分析型数据库如何设计列式存储

作为云原生数据仓库的ByteHouse，也采用列式存储设计，保证读写性能、支持事务一致性，又适用大规模的数据计算，为用户提供极速分析体验和海量数据处理能力，提升企业数字化转型能力。

字节数据平台·2024-01-31 22:37

spark从入门到放弃三十九:Spark Sql(12)SparkSql工作原理以及性能优化

http://www.haha174.top/article/details/2570731工作原理1.大家都知道，只要在数据库类型的技术里面，比如,最传统的mysql,Oracle包括现在大数据领域的数据仓库如

意浅离殇·2024-01-31 20:42

饿了么元数据管理实践之路

元数据定义与价值元数据打通数据源、数据仓库、数据应用，记录了数据

weixin_34113237·2024-01-31 20:57

Apache Paimon 介绍

FlinkTableStore是一个数据湖存储，用于实时流式Changelog写入(比如来自FlinkCDC的数据)和高性能查询。它创新性

zhisheng_blog·2024-01-31 15:58

数据湖技术Iceberg0.12预研文档

Iceberg0.12预研本次预研场景主要为kafka=>flinksql=>iceberg=>hive=>hdfs=>trino(presto)本次预研使用组件如下：名称版本描述flink1.12.1通过parcel包部署于cdh6.3.2中cdh6.3.2开源版本hive2.3.7包含cdh中（更换jar升级替换）hadoop3.0.0cdh原生版本presto2.591开源版本trino36

我去探险了·2024-01-31 15:36

【技术预研】StarRocks官方文档浅析（3）

参考文档产品简介|StarRocksStarRocksStarRocks是一款高性能分析型数据仓库，使用向量化、MPP架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析

偏振万花筒·2024-01-31 15:02

有赞一面：亿级用户DAU日活统计，有几种方案？

尼恩作为技术中台、数据中台的架构师，致力于为大家研究出一个3高架构知识宇宙，所以，

40岁资深老架构师尼恩·2024-01-31 09:35

如何通过Hive/tez与Hadoop的整合快速实现大数据开发

一、Hive的功能Hive是基于Hadoop的一个外围数据仓库分析组件，可以把Hive理解为一个数据仓库，但这和传统的数据库是有差别的。

小枫@码·2024-01-31 08:00

Apache Doris 2.0.4 版本正式发布

亲爱的社区小伙伴们，ApacheDoris2.0.4版本已于2024年1月26日正式发布，该版本在新优化器、倒排索引、数据湖等功能上有了进一步的完善与更新，使ApacheDoris能够适配更广泛的场景。

SelectDB技术团队·2024-01-31 03:38

秒级响应，显著增效：明日控股携手奇点云，打造大宗贸易的数据中台标杆

而在数据中台项目三期落地后，明日控股不仅越过了数据在线化、数据可视化阶段，进而达成了10秒内的业

奇点云·2024-01-31 00:16

推荐频道

数据仓库数据中台数据湖