数仓数据湖第13页

ClickHouse建表优化

1.数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串，全String类型在以Hive为中心的数仓建设中常见，但ClickHouse环境不应受此影响。

shangjg3·2023-11-19 05:42

PieCloudDB Database 再次升级！社区版全新版本发布

拓数派正式发布大模型数据计算系统「πDataCS」，基于云原生技术重构数据存储和计算，重塑数仓、向量和机器学习等数据计算引擎，实现“一份数据存储，多引擎数据计算”。

OpenPie｜拓数派·2023-11-18 21:27

领先一步，效率翻倍：PieCloudDB Database 预聚集特性让查询速度飞起来！

为此，拓数派推出了首款数据计算引擎PieCloudDBDatabase，作为一款全新的云原生虚拟数仓，旨在提供更高效、更灵活的数据处理解决方案。

OpenPie｜拓数派·2023-11-18 21:56

「校园 Pie」系列活动正式启航，首站走进南方科技大学！

在「校园Pie」系列活动中，PieCloudDB社区将携拓数派技术专家，社区大咖走进国内各大高校，分享行业动态与前沿技术，产业界的案例与应用分享，云原生数据库技术的应用与实践、云原生虚拟数仓PieCloudDB

OpenPie｜拓数派·2023-11-18 21:52

阿里云云原生一体化数仓 - 数据安全能力解读

MaxCompute产品简介MaxCompute是一款多功能、低成本、高性能、高可靠、易于使用的数据仓库和支持全部数据湖能力的大数据平台，支持超大规模、serverless和完善的多租户能力，内建企业级安全能力和管理功能

阿里云云栖号·2023-11-18 21:28

SaprkStreaming广告日志分析实时数仓

一、系统简介参考尚硅谷的spark教程中的需求，参考相关思路，详细化各种代码，以及中间很多逻辑的实现方案采用更加符合项目开发的方案，而不是练习，包括整体的流程也有很大的差别，主要是参考需求描述和部分代码功能实现。需求一：广告黑名单实现实时的动态黑名单机制：将每天对某个广告点击超过100次的用户拉黑。注：黑名单保存到MySQL中。1）读取Kafka数据之后，并对MySQL中存储的黑名单数据做校验；2

是阿威啊·2023-11-18 21:50

实时数仓入门训练营：Hologres性能调优实践

简介：《实时数仓入门训练营》由阿里云研究员王峰、阿里云资深技术专家金晓军、阿里云高级产品专家刘一鸣等实时计算Flink版和Hologres的多名技术/产品一线专家齐上阵，合力搭建此次训练营的课程体系，精心打磨课程内容

阿里云云栖号·2023-11-17 14:11

Hologres揭秘:深度解析高效率分布式查询引擎

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务

阿里云云栖号·2023-11-17 14:11

Hologres揭秘：高性能原生加速MaxCompute核心原理

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务和分析大数据的场景，全面兼容PostgreSQL协议并与大数据生态无缝打通，能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析

阿里云云栖号·2023-11-17 14:11

首次揭秘云原生Hologres存储引擎

概要：刚刚结束的2020天猫双11中，MaxCompute交互式分析（Hologres）+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地，为大数据平台创下一项新纪录。

阿里云技术·2023-11-17 14:09

Hologres 揭秘：深度解析高效率分布式查询引擎

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务和分析大数据的场景，全面兼容PostgreSQL协议并与大数据生态无缝打通，能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析

阿里云技术·2023-11-17 14:09

正确设计Hologres实时数仓，性能提升10倍+

本文将会讲述阿里巴巴零售通数据平台如何优化Hologres实时数仓，达到性能提升10倍+的效果，完美支撑双11营销活动、实时数据大屏等核心场景。

aliyunhologres·2023-11-17 14:29

Hologres揭秘：深度解析高效率分布式查询引擎

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务

阿里开发者·2023-11-17 14:28

hologres基础知识一文全

hologres基础知识一文全1功能特性1.1多场景查询分析1.2原生实时数仓1.3企业级运维能力1.4生态与可扩展性2hologres架构2.1传统分布式系统2.2hologres基础架构2.2.1计算层

Direction_Wind·2023-11-17 14:57

什么是数据湖，数据湖和数据仓库的区别在哪

数据仓库是什么数据仓库数据湖数据来自事务系统、运营数据库和业务线应用程序的清洗过结构化数据来自IoT设备、网站、移动应用程序、社交媒体和企业应用程序的原始数据架构设计在数据仓库实施之前（写入型Schema

我去探险了·2023-11-17 13:45

云上11.11｜腾讯云大数据产品双11盛惠爆品首单1折起大回馈

11.11云上盛惠多款大数据产品特惠专场腾讯云BI、ElasticsearchService、流计算Oceanus、腾讯云数据仓库TCHouse-D、移动推送、数据湖计算DLC首月秒杀1元起、新客首购1.2

腾讯云大数据·2023-11-17 11:24

CloudCanal和Canal的区别

研发团队CloudCanal核心团队成员来自阿里巴巴中间件和数据库团队,长期从事分布式数据库、数据库中间件、应用中间件工作，包括阿里云分布式数据库中间件产品DRDS、内部核心系统数据同步工具精卫、阿里云数据湖产品

ClouGence·2023-11-17 10:31

Python大数据之linux学习总结——day08_hive04

hive04hive查询语法结构:类sql基本查询知识点:数据准备:数仓分层思想:课堂练习:类sql多表查询知识点:数据准备:练习:hive其他join操作知识点:示例:hive其他排序操作[练习]知识点

笨小孩124·2023-11-17 09:37

二百零三、Flume——Flume实时采集数据频率为1s的高频率Kafka数据直接写入ODS层表的HDFS文件路径下

一、目的在离线数仓中，需要用Flume去采集Kafka中的数据，然后写入HDFS中。由于每种数据类型的频率、数据大小、数据规模不同，因此每种数据的采集需要不同的Flume配置文件。

天地风雷水火山泽·2023-11-17 07:22

《网易-数据中台》学习笔记

《网易-数据中台》学习笔记1.大数据发展历程1.1数据仓库1.2Hadoop-数据湖1.3大数据平台1.4数据中台1.5Next：大数据+人工智能2.数据仓库2.1数据仓库建模2.1.1E-R模型2.1.2

杰克jk船长·2023-11-17 07:15

华为云大数据智能数据湖FusionInsight

华为预计，到2025年全球每年新增数据存储量为180ZB，企业的数据利用率将会达到86%。到2030年数据应用（包括大数据和AI）将会给全球带来13万亿美元的收益，为全球经济贡献16%的GDP增长。其中，传统行业将会成为未来10年数据应用增速最快、受益最大的主体。未来是一个高速发展的时代，掌握最新最有用的信息就能赶上时代的风口，这时候就需要大数据分析，华为云大数据满足你企业对数据分析的一切需求。通

硬核技术控·2023-11-17 04:03

hive数仓-数据的质量管理

版本20231116要理解数据的质量管理，应具备hive数据仓库的相关知识文章目录1.理解什么是数据的质量管理：2.数据质量管理的规划数据质量标准的分类3.数据质量管理解决方案1.ods层的数据质量校验1）首先在hive上建立一个仓库，添加数据质量监控表2）然后建立检查检查表3）创建数据检验曾量表通用的脚本4）创建数据检测全量表的脚本5）脚本的运行2.dwd层的数据质量校验1）建立dwd层校验表2

江南正晓时·2023-11-17 01:33

后季暖·2023-11-16 23:46

【云栖2023】姜伟华：Hologres Serverless之路——揭秘弹性计算组

本文根据2023云栖大会演讲实录整理而成，演讲信息如下：演讲人：姜伟华|阿里云计算平台事业部资深技术专家、阿里云实时数仓Hologres研发负责人演讲主题：HologresServerless之路——揭秘弹性计算组实时化成为了大数据平台的核心演进趋势

阿里云大数据AI技术·2023-11-16 12:29

Flink 整合 hudi

它广泛应用于大数据领域，为数据湖环境下的数据操作提供了强大的支持。不仅可以存储数据，也可以将元数据存在在其中。

新手小农·2023-11-16 08:21

Databend 开源周报第 119 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

Databend·2023-11-16 07:20

数据湖实操讲解【 AI 训练加速】第十八讲：Fluid + JindoFS 对海量小文件的训练加速...

数据湖技术圈本期导读：【AI训练加速】第十八讲主题：Fluid+JindoFS对海量小文件的训练加速讲师：辰山，阿里巴巴计算平台事业部EMR技术专家内容框架：海量小文件难题FluidJindoRuntime

Apache Spark中国社区·2023-11-15 22:41

数据湖实操讲解【 AI 训练加速】第十七讲：Fluid + JindoFS 对 HDFS 上的数据进行训练加速...

数据湖技术圈本期导读：【AI训练加速】第十七讲主题：Fluid+JindoFS对HDFS上的数据进行训练加速讲师：辰山，阿里巴巴计算平台事业部EMR技术专家内容框架：什么是Fluid+JindoFS（JindoRuntime

Apache Spark中国社区·2023-11-15 22:41

Flink 1.12的CDC

基于Flink构建流批一体的实时数仓是目前数据仓库领域比较火的实践方案。随着Flink的不断迭代，其提供的一系列技术特性使得用户构建流批一体的应用变得越来越方便。

'煎饼侠·2023-11-15 19:56

数据仓库入门简介

一，数组仓库介绍数据仓库（英语：DataWarehouse，简称数仓、DW）是一个为数据分析而设计的企业级数据管理系统。它旨在支持企业决策过程中的数据分析和业务智能。

浮生夢·2023-11-15 17:12

StarRocks × Apache Flink：如何构建简单强大的实时数仓架构

当前在构建实时数仓时，由于数据源的多样性，需要使用不同的采集工具，如Flume、Canal、Logstash。对于不同的业务，我们通常会采用不同的分析引擎。

大数据技术架构·2023-11-15 16:27

【用户实践】openGauss5.0在某省医保局实时数仓应用

一、项目背景采用数据同步软件将各系统的数据库下的数据实时同步到openGauss数据库中；建立实时数仓；可以在实时数仓自行查询、分析、统计数据及报表；同时横向集成公共服务区和核心业务区生产库数据、集成其他委办局数据

renxyz·2023-11-15 12:11

Hive 数仓数据质量治理

1.数据质量概述数据质量是数据创建价值的保障基石，高质量的数据为数据统计、分析和应用提供了可信任的必要条件。数据质量管理是指在数据创建、加工、使用和迁移等过程中，通过开展数据质量定义、过程控制、监控、问题分析和整改、评估和考核等一系列管理活动，提高数据质量以满足业务要求。可按照"谁创建，谁负责；谁加工，谁负责；谁提供，谁负责"的原则界定数据质量管理责任，由数据流转环节的各责任方对管辖范围内的数据质

笑看风云路·2023-11-15 10:58

数据湖架构

数据湖架构介绍数据湖（DataLake）是一个存储大量结构化和非结构化数据的集中式数据存储库。与传统的数据仓库不同，数据湖采用扁平化结构，将数据存储在原始形式下，不需要进行预处理或转化。

溟有常青木·2023-11-15 07:47

探索数据湖和大数据在亚马逊云服务云存储服务上的威力

数据湖和亚马逊云服务云存储服务上的大数据是一个强大的组合，使组织能够充分发挥其数据的潜力。亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。

亚马逊云开发者·2023-11-15 05:02

Hadoop完全分布式安装

Hadoop完全分布式安装前言之前有搭建过一次Hadoop完全分布式集群但是没有记录，最近开始着手自己搭个模拟数仓需要搭建集群，趁此机会记录一下搭建的过程。

薇安娜·2023-11-15 05:43

AWS 大数据实战 - 环境准备(一)

实验介绍本次实战内容将教大家如何使用AWS的大数据和数据湖的相关服务和组件，顺利完成大数据的收集，存储，处理，分析和可视化的完整的流程，主要会介绍以下几个AWS大数据服务：Lab1：实时流数据处理，基于

wzlinux·2023-11-15 03:34

hive sql生成数仓分钟维表

目录一、建表ddl二、加工格式说明三、加工sql四、示例结果数据一、建表ddlcreatetabledim_pub_minute(date_timestampbigintcomment'时间戳',date_strstringcomment'时间-日期时分秒',day_strstringcomment'日期',time_strstringcomment'时分秒',hour_strstringcomm

chimchim66·2023-11-15 03:39

大数据调度系统对比

0.前言有了数据平台，有了数据仓库，那就需要一个系统来调度和管理数仓的任务，因此调度系统的地位可见之重要。

Impl_Sunny·2023-11-14 21:01

实时数仓-Flink使用总结

阿里云实时计算Flink版是阿里云基于ApacheFlink构建的企业级、高性能实时大数据处理系统。具备一站式开发运维管理平台，支持作业开发、数据调试、运行与监控、自动调优、智能诊断等全生命周期能力。本期将对Flink的使用进行总结。1.Flink产品回顾阿里云实时计算Flink版是阿里云基于ApacheFlink构建的企业级、高性能实时大数据处理系统。具备一站式开发运维管理平台，支持作业开发、数

高阳很捷迅·2023-11-14 18:42

数据仓库基础信息

数据仓库数据仓库概述什么是数据库什么是数据集市什么是数据仓库数据仓库和数据库的对比什么是数据湖数据存储架构数据处理工具聚焦如何把数据搬到湖里关注如何对湖中的数据进行分析、挖掘、利用数据湖和数据仓库的对比数据仓库的特点数据仓库是集成的数据仓库的数据是稳定的

daladalabao·2023-11-14 11:50

Hive工具的介绍（一）

一、Hive是什么要了解Hive是什么得先了解一下数仓(数据仓库)的概念，什么又是数据仓库呢？

xiaoxie_advent·2023-11-14 09:15

数据仓库、数仓分层 01

1.数据仓库的基本概念数据仓库，英文名称为DataWarehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（DecisionSupport）。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。2.数据仓库的主要

啊策策·2023-11-14 06:17

数仓分层的好处

分层好处：1，复杂问题简单化：将复杂的任务分解成多层来完成，每一层只处理简单的任务，方便定位问题2，减少重复开发：规范数据分层，通过中间层数据，能够减少极大的重复计算，增加计算一次的结果的重复性3，隔离原始数据：不论是数据的异常还是数据的敏感性，使真实数据与统计数据解耦开数据集市和数据仓库的区别：数据集市是微型数据仓库，通常有更少的数据，更少的主题，更少的历史数据，是部门级别的，一般只能为某个局部

Alienware^·2023-11-14 06:17

数仓分层总结

数据仓库分为四层ods、dwd、dws、adsods层上是一些原始的数据，存放原始数据，直接加载原始日志、数据（事件表），保持数据原貌不作处理，也就是做一个备份的作用，不要解析数据创建支持LZO压缩的表：减少存储空间100g_10g\5g单双json创建分区表：防止全表扫描（导数据：全量、新增、新增和变化）dwd层是根据ods层表进行解析，然后清除脏数据，敏感信息的处理例如身份证脱敏，掩码、加密、

月升11·2023-11-14 06:41

数据仓库之数仓分层及hive分层

目录一、数据仓库之数仓分层（一）为什么要分层？

javastart·2023-11-14 06:09

简单搞定数仓搭建:数仓分层

我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，OperationDataStore）、数据公共层（CDM，CommonDataModel）和数据应用层（ADS，ApplicationDataService）。数据仓库的分层和各层级用途如下图所示。数据引入层ODS（OperationDataStore）：存放未经过处理的原始数据至数据仓库系统，结构上与源系统保持一致，是数据仓库的数据准

白枭·2023-11-14 06:08

数仓分层介绍

文章目录数仓分层的意义是什么?

程少亭·2023-11-14 06:36

数仓（一）数据分层

文章目录数据分层好处数据运营层数据仓库层数据应用层事实表`(FactTable)`维表层(`Dimension`)表命名规则聚合粒度以及加工频率字段说明抽取方式字段命名规范数据表名命名规范表分区字段说明任务命名规范大厂分层架构爱奇艺SaaS收银运营数仓分层架构美团数仓分层架构网易云音乐数仓分层架构数据分层数据分层在建设数据仓库中是一个十分重要的环节

666呀·2023-11-14 06:05

【数据仓库】数仓分层方法

文章目录一.数仓分层的意义1.清晰数据结构。2.减少重复开发3.方便数据血缘追踪4.把复杂问题简单化5.屏蔽原始数据的异常6.数据仓库的可维护性二.如何进行数仓分层？

roman_日积跬步-终至千里·2023-11-14 06:01

推荐频道

数仓数据湖

ClickHouse建表优化

PieCloudDB Database 再次升级！社区版全新版本发布

领先一步，效率翻倍：PieCloudDB Database 预聚集特性让查询速度飞起来！

「校园 Pie」 系列活动正式启航，首站走进南方科技大学！

阿里云云原生一体化数仓 - 数据安全能力解读

SaprkStreaming广告日志分析实时数仓

实时数仓入门训练营：Hologres性能调优实践

Hologres揭秘:深度解析高效率分布式查询引擎

Hologres揭秘：高性能原生加速MaxCompute核心原理

首次揭秘云原生Hologres存储引擎

Hologres 揭秘：深度解析高效率分布式查询引擎

正确设计Hologres实时数仓，性能提升10倍+

Hologres揭秘：深度解析高效率分布式查询引擎

hologres基础知识一文全

什么是数据湖，数据湖和数据仓库的区别在哪

云上11.11｜腾讯云大数据产品双11盛惠 爆品首单1折起大回馈

CloudCanal和Canal的区别

Python大数据之linux学习总结——day08_hive04

二百零三、Flume——Flume实时采集数据频率为1s的高频率Kafka数据直接写入ODS层表的HDFS文件路径下

《网易-数据中台》学习笔记

华为云大数据智能数据湖FusionInsight

hive数仓-数据的质量管理

Hudi数据湖相关资料

【云栖2023】姜伟华：Hologres Serverless之路——揭秘弹性计算组

Flink 整合 hudi

Databend 开源周报第 119 期

数据湖实操讲解【 AI 训练加速】第十八讲：Fluid + JindoFS 对海量小文件的训练加速...

数据湖实操讲解【 AI 训练加速】第十七讲：Fluid + JindoFS 对 HDFS 上的数据进行训练加速...

Flink 1.12的CDC

数据仓库入门简介

StarRocks × Apache Flink：如何构建简单强大的实时数仓架构

【用户实践】openGauss5.0在某省医保局实时数仓应用

Hive 数仓数据质量治理

数据湖架构

探索数据湖和大数据在亚马逊云服务云存储服务上的威力

Hadoop完全分布式安装

AWS 大数据实战 - 环境准备(一)

hive sql生成数仓分钟维表

大数据调度系统对比

实时数仓-Flink使用总结

数据仓库基础信息

Hive工具的介绍（一）

数据仓库、数仓分层 01

数仓分层的好处

数仓分层总结

数据仓库之数仓分层及hive分层

简单搞定数仓搭建:数仓分层

数仓分层介绍

数仓（一）数据分层

【数据仓库】数仓分层方法

「校园 Pie」系列活动正式启航，首站走进南方科技大学！

云上11.11｜腾讯云大数据产品双11盛惠爆品首单1折起大回馈