数据仓库数据中台数据湖第40页

大数据学习：Hive安装部署

Hive的安装部署注意hive就是一个构建数据仓库的工具，只需要在一台服务器上安装就可以了，不需要在多台服务器上安装。

zui初的梦想·2023-08-31 20:34

二黄的第一枚神器

今天搞openAPI，明天搞数据中台，计划要搞营销中台”、“1个人干6个人的活，到是给我发7个人的工资啊”二黄啃完剩下的面包，打开桌面上的《订单数据对外接口需求文档》；新的一天，在一万只草泥马奔腾后，悄然拉开序幕

小黄的一天·2023-08-31 17:56

数据治理深水区，行业用户该如何走出？

在经历多年的数字化建设之后，绝大部分传统行业用户的数据治理已步入深水区：一方面，企业积累了较为丰富的数据资源，数据正加速重塑业务、流程等方方面面，数据驱动型业务也不断提升；另一方面，企业数据资产化演进过程中，普遍经历了数据仓库

大数据在线·2023-08-31 17:18

实时数仓构建新思路，NineData数据复制技术详解

双方聚焦于实时数据仓库技术和数据开发能力，展示如何通过强大的生态开发兼容性，对接丰富的大数据生态产品，助力企业快速开展数据分析业务，共同探索实时数据驱动的未来企业智能化数据管理解决方案。

·2023-08-31 16:55

ETl

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。ETL是BI项目重要的一个环节。

来10086投诉·2023-08-31 15:01

Apache Doris (一) ：Doris 介绍及使用场景

目录1.ApacheDoris介绍2.ApacheDoris使用场景2.1报表分析2.2即席查询（Ad-hocQuery）2.3统一数仓构建2.4数据湖联邦查询进入正文之前，欢迎订阅专题、对博文点赞、评论

IT贫道·2023-08-31 13:24

.NET Core AWS S3云存储

这意味着各种规模和行业的客户都可以使用S3来存储并保护各种用例（如数据湖、网站、移动应用程

dotNET跨平台·2023-08-31 13:10

ELT已死，EtLT才是现代数据处理架构的终点!

目前大家使用大数据Hadoop时代，主要都是ELT方式，也就是加载到Hadoop里进行处理，但是实时数据仓库、数据湖的流行，这个ELT已经过时了，EtLT才是实时数据加载到数据湖和实时数据仓库的标准架构

·2023-08-31 12:09

CLICK HOUSE

ClickHouse的全称由两部分组成，第一个是ClickStream点击流，第二个是数据仓库DataWareHouseclickhouse可以做用户行为分析，流

方璧·2023-08-31 12:32

什么是OLAP

一、什么是OLAPOLAP（On-lineAnalyticalProcessing，联机分析处理）是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。

方璧·2023-08-31 12:31

火山引擎ByteHouse：ClickHouse如何保证海量数据一致性

基于高性能、分布式特点，ClickHouse可以满足大规模数据的分析和查询需求，因此字节研发团队以开源ClickHouse为基础，推出火山引擎云原生数据仓库ByteHouse。在日常工作中，研发人员经

·2023-08-31 11:58

白鲸开源 DataOps 平台加速数据分析和大模型构建

他们使用数据仓库或数据湖来发现、访问和使用数据，并利用AI推动分析用例。但他们很快意识到

·2023-08-31 11:25

认识SQL sever

目录一、数据库的概念1.1数据库的基本概念1.2对数据库的了解二、数据库的分类2.1关系型数据库（RDBMS）：2.2非关系型数据库（NoSQL）：2.3混合数据库：2.4数据仓库：2.5嵌入式数据库：

客逍京北岸·2023-08-31 11:18

大数据平台与数据仓库的五大区别

随着大数据的快速发展，很多人难以区分大数据平台与数据仓库的区别，两者傻傻分不清楚。今天我们小编就给大家汇总了大数据平台与数据仓库的五大区别，希望有用哦！仅供参考！

行云管家·2023-08-31 10:47

Doris Summit 2023 正式启航，议题征集 & 合作伙伴招募火热进行中

作为专注于实时分析的开源实时数据仓库ApacheDoris，从开源至今已走过6个年头，这些年里ApacheDoris一直稳步向前，并在这两年取得了令人瞩目的进展。

·2023-08-31 10:24

数据仓库(13)大数据数仓经典最值得阅读书籍推荐

从事数仓工作，在工作学习过程也看了很多数据仓库方面的数据，此处整理了数仓中经典的，或者值得阅读的书籍，推荐给大家一下，希望能帮助到大家。建议收藏起来，后续有新的书籍清单会更新到这里。

·2023-08-31 10:23

数据仓库(12)数据治理之数仓数据管理实践心得

当然，想要做数据治理，想要学习了解，一下数据治理的范围，理论等，最好可以看看别人怎么做的，了解数据治理可以参考：数据仓库(11)什

·2023-08-31 10:23

三种事实表

事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计，通过获取描述业务过程的度量来表达业务过程，包含了引用的维度和与业务过程有关的度量。

BigData_001_Lz·2023-08-31 05:58

这篇文章解读数据仓库、数据湖、数据中台等概念，竟然写了4万字！

点击上方“芋道源码”，选择“设为星标”管她前浪，还是后浪？能浪的浪，才是好浪！每天8:55更新文章，每天掉亿点点头发...源码精品专栏原创|Java2020超神之路，很肝~中文详细注释的开源项目RPC框架Dubbo源码解析网络应用框架Netty源码解析消息中间件RocketMQ源码解析数据库中间件Sharding-JDBC和MyCAT源码解析作业调度中间件Elastic-Job源码解析分布式事务中

公众号-芋道源码·2023-08-31 02:05

MySQL到SelectDB的实时同步策略

而SelectDB作为一款专为大数据分析设计的分布式数据仓库，具有高性能、可扩展的特点，其优异的数据处理能力也在行业内广受关注。01在什么情况下需要把MySQL同步到SelectDB？

·2023-08-30 10:46

数据仓库_数仓常见的数据模型

转载自：大数据开发：数仓建模常见数据模型-腾讯云开发者社区-腾讯云在数据仓库搭建的过程当中，根据需求合理地选择数据模型，是非常关键的一个环节。

高达一号·2023-08-30 08:59

数仓设计_数仓中的三种事实表

一篇文章搞懂数据仓库：三种事实表（设计原则，设计方法、对比）-腾讯云开发者社区-腾讯云事实表的三种类型，事务事实表，周期快照事实表，累计快照事实表事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计

高达一号·2023-08-30 08:59

数据仓库_缓慢渐变维_拉链表（全揭秘）

这篇文章我们主要讲解下以下几个点什么是拉链表，用于什么样的场景拉链表的示例如何获取某一天的历史状态如何在使用维度拉链表并使用代理键的前提下，构建含维度代理键的事实表1.什么是拉链表，用于什么样的场景当维度数据发生变化时，将旧数据置为失效，将更改后的数据当作新的记录插入到维度表中，并开始生效，这样能够记录数据在某种粒度上的变化历史。2.拉链表的示例结合之前所讲的代理键，Uid_org为原始的业务主键

高达一号·2023-08-30 08:29

数据仓库_数据仓库_缓慢渐变维度实现的几种思路

数仓缓慢渐变维度表设计，另一篇比较好的文章结合实际案例数仓建设-缓慢变化维的10种处理方式_雾岛与鲸的博客-CSDN博客缓慢渐变维度：维度数据会随着时间发生变化，变化速度比较缓慢，这种维度数据通常称作缓慢渐变维；由于数据仓库需要追溯历史变化

高达一号·2023-08-30 08:29

数据仓库_如何评价一个数据模型的好坏？

转载自：如何评价数据模型的好坏？_木东居士的博客-CSDN博客数据模型如何论好坏|0x00数据模型的选择最常见提到的有四种：范式、维度、DataVault、Anchor。在传统行业中，范式很流行，在互联网行业中，维度很流行，另外两种就“只闻其名,不见其人”了。如果论这四种方法，在设计思路上的好坏，那么各有千秋。但如果问，那种模型最为成熟，那么恐怕范式和维度就胜出了，而互联网行业几乎只能选择维度建模

高达一号·2023-08-30 08:29

Hive/数据仓库_Hive 中如何生成代理键

补充：是由数据仓库处理过程中产生的，与业务本身无关的,唯一标识维度表中一条记录并充当维度表主键的列，也是描述维度表与事实表关系的纽带。所以在设

高达一号·2023-08-30 08:28

数据仓库总结

1.为什么要做数仓建模数据仓库建模的目标是通过建模的方法更好的组织、存储数据，以便在性能、成本、效率和数据质量之间找到最佳平衡点。

袁奎·2023-08-30 08:27

数据仓库_维度表的两大分类

最近看一篇文章对维度表进行了分类，记录一下。维度表主要分为两类高基数维度表和低基数维度表。高基数维度数据一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。低基数维度数据一般是配置表，比如枚举值对应的中文含义，或者日期维度，地理维度表等。数据量可能是个位数或者几千条几万条。基数指的是一个字段中不同值的个数，比如主键列具有唯一值，所以具有最高的基数，而性别枚举值（日期，地区等）

高达一号·2023-08-30 08:26

大数据学习教程SD版第七篇【Hive】

1.Hive简介数据仓库工具，将结构化数据映射成二维表，并提供类SQL查询，底层把HQL转换成MR程序Hive自带的客户端hiveclientbeelineclient特点HQL用于数据分析，但处理处理粒度粗处理大数据

道-闇影·2023-08-30 08:32

Hive面试题3:底层知识

Hive使用场景Hive的执行流程2.sql如何转为mapreduce程序的1.hive架构什么是HiveHive是由Facebook开源用于解决海量结构化日志的数据统计；Hive是基于Hadoop的一个数据仓库工具

mr_cuber·2023-08-30 08:31

流式数据湖平台—Paimon视频教程

ApachePaimon是一个流数据湖平台，是Streaming实时计算能力和Lakehouse新架构优势的结合，具有高速数据摄取、变更日志跟踪和高效的实时分析能力。

尚硅谷铁粉·2023-08-30 03:50

Flink Table Store 独立孵化启动， Apache Paimon 诞生

与此同时，在大数据领域数据湖架构也日益成为新的技术趋势，越来越多企业开始采用La

Apache Flink·2023-08-30 03:19

当流计算邂逅数据湖：Paimon 的前生今世

序言笔者从事流计算多年，真名叫李劲松，简写LJS，ApacheID也是lzljs(泸州李劲松)，而流计算简写也是LJS，算是一种缘分吧。一直在分布式计算与存储的领域工作，也参与了多个开源项目，希望通过笔者以下的经历，回顾流计算一步一步扩大场景的过程，并引出ApachePaimon的前生今世。(注：三角中，离顶点更近代表更好，离顶点更远代表更差)很久之前写过一篇文章引用了这个图，原图来自Napa:P

Apache Flink·2023-08-30 03:19

数据湖paimon连接flink、mysql和hive

一、启动flink客户端并测试1、环境准备flink版本：1.16.2lib下需要的依赖包：antlr-runtime-3.5.2.jarcommons-beanutils-1.9.3.jarcommons-pool2-2.4.3.jardruid-1.1.19.jarfastjson-1.2.57.jarflink-cep-1.16.2.jarflink-connector-files-1.16

coder李一·2023-08-30 03:49

Flink Table Store 独立孵化启动， Apache Paimon 诞生

与此同时，在大数据领域数据湖架构也日益成为新的技术趋

王知无(import_bigdata)·2023-08-30 03:48

数据湖的选型(delta iceberg hudi)以及比对

数据湖的选型此文章只是作为文稿记录，且截止到2022年11月份Hudi（0.12.0）支持spark3.3.x3.1.x是HadoopUpsertsDeletesandIncrementals的简写Hudi

鸿乃江边鸟·2023-08-30 03:17

流数据湖平台Apache Paimon（三）Flink进阶使用

文章目录2.9进阶使用2.9.1写入性能2.9.2读取性能2.9.3多Writer并发写入2.9.4表管理2.9.5缩放Bucket2.10文件操作理解2.10.1插入数据2.10.2删除数据2.10.3Compaction2.10.4修改表2.10.5过期快照2.10.6Flink流式写入2.9进阶使用2.9.1写入性能Paimon的写入性能与检查点密切相关，因此需要更大的写入吞吐量：增加检查点

Maynor996·2023-08-30 03:45

流数据湖平台Apache Paimon（二）集成 Flink 引擎

文章目录第2章集成Flink引擎2.1环境准备2.1.1安装Flink2.1.2上传jar包2.1.3启动Hadoop2.1.4启动sql-client2.2Catalog2.2.1文件系统2.2.2HiveCatalog2.2.3sql初始化文件2.3DDL2.3.1建表2.3.2修改表2.4DML2.4.1插入数据2.4.2覆盖数据2.4.3更新数据2.4.4删除数据2.4.5MergeInt

Maynor996·2023-08-30 03:14

《数据挖掘——概念与技术》笔记

目录第2章认识数据2.1数据对象与属性类型2.2数据的基本统计描述2.4度量数据的相似性与相异性第3章数据预处理3.2数据清理3.3数据集成3.4数据归约3.5数据变换与数据离散化第4章数据仓库与联机分析处理

樟小叶·2023-08-29 23:28

Android自动化测试中操作技巧合集（建议收藏）

内容提供器为不同应用间的数据共享提供了接口，它们像是一个中央数据仓库，各个应用可以通过内容URI来存取数据。每条短信都会被存储在内容提供器的SMSContentProvider中。

美团程序员·2023-08-29 23:22

视频结构化

视频被结构化后，存入相应的结构化数据仓库，存储的容量极大降低。

oldms·2023-08-29 19:12

Apache Arrow - Parquet存储与使用

简介Parquet是一种高效的列式存储格式，广泛用于大数据系统中的数据仓库和数据管理工具中，旨在提高数据分析的性能和效率，能够更好地支持数据压缩和列式查询，同时兼顾读写速度和数据大小初衷为了让Hadoop

·2023-08-29 18:48

hive搭建

一：简介Hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据。

Gavin_hello·2023-08-29 18:46

SAS数据仓库的体系结构

SAS数据仓库就是一个适应于对企业级的数据、信息进行重新整合,适应多维、快速查询;进行OLAP操作和决策支持的数据、信息的采集、管理、处理和展现的架构体系。

weixin_30551947·2023-08-29 17:49

探索数据湖中的巨兽：Apache Hive分布式SQL计算平台浅度剖析！

文章目录◆ApacheHive概述1.1分布式SQL计算1.2Hive的优势◆模拟实现Hive功能2.1元数据管理2.2解析器2.3基础架构2.4Hive架构◆Hive基础架构3.1Hive架构图3.2Hive组件3.2.1元数据存储3.2.2Driver驱动程序3.2.3用户接口◆Hive部署4.1VMware虚拟机部署步骤一：安装MySQL数据库步骤2：配置Hadoop步骤3：下载解压Hive

缘友一世·2023-08-29 13:38

NineData X SelectDB 联合发布会，即将上线！

本次发布会将聚焦于实时数据仓库技术和数据开发能力，展示SelectDB新一代实时数据仓库产品如何解决实时数据分析的行业痛点，以及「NineData如何提供高效、智能、安全的数据管理能力」。

·2023-08-29 12:16

网易数据中台建设

流程协作场景和产品映射：image.png网易大数据产品矩阵：image.pngimage.png

rokie·2023-08-29 11:24

什么是数据仓库？

数据仓库：DATAWAREHOUSE，简称数仓、DW。是一个用于存储、分析、报告的数据系统。目的是构建面向分析的集成化数据环境，为企业提供决策支持。

BigData_001_Lz·2023-08-29 09:17

技术实践｜Hive数据迁移干货分享

导语Hive是基于Hadoop构建的一套数据仓库分析系统，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。

中电金信·2023-08-29 07:56

大厂数仓模型规范与度量指标有哪些？

随着数据驱动的决策在企业中的重要性日益增加，数据仓库作为数据沟通和业务系统之间的中介，扮演着关键的角色。因此，确保数仓模型的规范性和质量是至关重要的。

南极找南·2023-08-29 07:25

推荐频道

数据仓库数据中台数据湖

大数据学习：Hive安装部署

二黄的第一枚神器

数据治理深水区，行业用户该如何走出？

实时数仓构建新思路，NineData数据复制技术详解

ETl

Apache Doris (一) ：Doris 介绍及使用场景

.NET Core AWS S3云存储

ELT已死，EtLT才是现代数据处理架构的终点!

CLICK HOUSE

什么是OLAP

火山引擎ByteHouse：ClickHouse如何保证海量数据一致性

白鲸开源 DataOps 平台加速数据分析和大模型构建

认识SQL sever

大数据平台与数据仓库的五大区别

Doris Summit 2023 正式启航，议题征集 & 合作伙伴招募火热进行中

数据仓库(13)大数据数仓经典最值得阅读书籍推荐

数据仓库(12)数据治理之数仓数据管理实践心得

三种事实表

这篇文章解读数据仓库、数据湖、数据中台等概念，竟然写了4万字！

MySQL到SelectDB的实时同步策略

数据仓库_数仓常见的数据模型

数仓设计_数仓中的三种事实表

数据仓库_缓慢渐变维_拉链表（全揭秘）

数据仓库_数据仓库_缓慢渐变维度实现的几种思路

数据仓库_如何评价一个数据模型的好坏？

Hive/数据仓库_Hive 中如何生成代理键

数据仓库总结

数据仓库_维度表的两大分类

大数据学习教程SD版第七篇【Hive】

Hive面试题3:底层知识

流式数据湖平台—Paimon视频教程

Flink Table Store 独立孵化启动 ， Apache Paimon 诞生

当流计算邂逅数据湖：Paimon 的前生今世

数据湖paimon连接flink、mysql和hive

Flink Table Store 独立孵化启动 ， Apache Paimon 诞生

数据湖的选型(delta iceberg hudi)以及比对

流数据湖平台Apache Paimon（三）Flink进阶使用

流数据湖平台Apache Paimon（二）集成 Flink 引擎

《数据挖掘——概念与技术》笔记

Android自动化测试中操作技巧合集（建议收藏）

视频结构化

Apache Arrow - Parquet存储与使用

hive搭建

SAS数据仓库的体系结构

探索数据湖中的巨兽：Apache Hive分布式SQL计算平台浅度剖析！

NineData X SelectDB 联合发布会，即将上线！

网易数据中台建设

什么是数据仓库？

技术实践｜Hive数据迁移干货分享

大厂数仓模型规范与度量指标有哪些？

Flink Table Store 独立孵化启动， Apache Paimon 诞生

Flink Table Store 独立孵化启动， Apache Paimon 诞生