实时计算（数仓）第15页

【知识】可实操使用的数仓建设规范指南

大数据封面.png目录：一、数据模型架构原则数仓分层原则主题域划分原则数据模型设计原则二、数仓公共开发规范层次调用规范数据类型规范数据冗余规范NULL字段处理规范指标口径规范数据表处理规范表的生命周期管理三

笔名辉哥·2023-11-20 14:27

【离线数仓-2-数据采集】

离线数仓-2-数据采集离线数仓-2-数据采集1.用户行为日志数据模拟1.用户行为日志的介绍2.埋点有哪些3.用户行为日志内容4.用户行为日志格式5.用户行为日志数据采集1.节点之间配置免密登录2.linux

Apache Minor Trend·2023-11-20 13:00

docker-compose 使用maxwell实时获取数据

背景空闲使用docker搭建大数据集群，并实现离线、实时数仓。走到了maxwell这边发现点问题，记录下。

初上路的小码农·2023-11-20 13:59

12-海豚调度器DolphinScheduler

Azkaban能做任务调度，任务编排A-->B还可以做定时任务，还能预警（发邮件，发钉钉，打电话）数仓项目因为是分层的，分层的数据之间，是有先后顺序的。

YuPangZa·2023-11-20 12:55

数仓DWS层之旁路缓存优化

优化原因：外部数据源的查询常常是流式计算的性能瓶颈。以本程序为例，每次查询都要连接Hbase，数据传输需要做序列化、反序列化，还有网络传输，严重影响时效性。可以通过旁路缓存对查询进行优化。旁路缓存模式是一种非常常见的按需分配缓存模式。所有请求优先访问缓存，若缓存命中，直接获得数据返回给请求者。如果未命中则查询数据库，获取结果后，将其返回并写入缓存以备后续请求使用。（1）旁路缓存策略应注意两点a）缓

大数据阿嘉·2023-11-20 10:44

大数据流式处理框架Flink介绍

大数据动物园·2023-11-20 01:57

Flink实时计算框架简介

文章目录（一）Flink介绍（二）Flink架构（三）Flink三大核心组件（四）Flink的流出来和批处理（五）大数据实时计算引擎对比（六）计算框架如何选择（一）Flink介绍ApacheFlink是一个开源的分布式

小崔的技术博客·2023-11-20 01:56

大数据研发工程师面试

4.数仓是怎么设计的?5.linux查看进程的命令是什么，如何查看具体某一行的内容（查看第n至m行）?6.从浏览器输入网址到返回页面，中间发生了什么?7.具体说一下三次握手四次挥手?

ChlinRei·2023-11-20 01:43

Hive参数与性能企业级调优（建议收藏）

但是如果我们只局限于会使用Hive，而不考虑性能问题，就难搭建出一个完美的数仓，所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。

坨坨的大数据·2023-11-19 23:58

2011-2022年高职大数据竞赛-赛题内容

本系列共分五篇，内容分别为：第一部分赛题内容第二部分任务剖析第三部分赛题模拟实现-离线数据抽取第四部分赛题模拟实现-离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化第一部分竞赛内容赛项以大数据技术与应用为核心内容和工作基础

xlw2003·2023-11-19 21:54

2011-2022年高职大数据竞赛-赛题任务剖析

本系列共分五篇，内容分别为：第一部分赛题内容第二部分任务剖析第三部分赛题模拟实现-离线数据抽取第四部分赛题模拟实现-离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化（

xlw2003·2023-11-19 21:54

利用ETLCloud自动化流程实现业务系统数据快速同步至数仓

企业需要先获取数据，将业务系统数据同步至数仓进行整合，然后再进行数据分析。为了更好地利用数据，提高工作效率，产出及获得最大利益。

ETLCloud数据集成社区·2023-11-19 19:09

阿里巴巴电商搜索推荐实时数仓演进之路

作者：张照亮（士恒）阿里巴巴搜索事业部高级技术专家1.业务背景阿里巴巴电商搜索推荐实时数据仓库承载了阿里巴巴集团淘宝、淘宝特价版、饿了么等多个电商业务的实时数仓场景，提供了包括实时大屏、实时报表、实时算法训练

阿里云Hologres·2023-11-19 18:38

spark性能调优 | 默认并行度

默认并行度200https://spark.apache.org/docs/2.4.5/sql-performance-tuning.html#other-configuration-options优化在数仓中

Knight_AL·2023-11-19 18:04

数据仓库-数仓架构

1数据仓库建设方法论1.1项目背景数据仓库将建设成为融通全公司数据资产，提供便捷数据分析和数据服务，支持全公司数字化经营与创新。1.2数据仓库概述数据仓库是一个面向主题的、集成的、相对稳定的、反映有历史变化的数据集合，用于支持数字化运营、数字化管理等数据业务。具有以下特点：包含公司生产过程中产生的全量业务数据包含结构化与非结构化形式数据来自于多个数据源、业务操作系统保存一定的时间周期按照企业内业务

终回首·2023-11-19 14:50

大数据发展历程及技术选型

大数据发展历程第一阶段2000年-2010年数仓提供方企业级数据仓库（EDW）IOT(IBM、Oracle、Teradata)提供数据仓库建设从硬件、软件到实施的整体方案需要购买大（中、小）型机配套商用的关系型数据库

平凡人笔记·2023-11-19 14:47

数据仓库之电商数仓-- 1、用户行为数据采集

目录一、数据仓库概念二、项目需求及架构设计2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.4服务器选型2.2.5集群规模2.2.6集群资源规划设计三、数据生成模块3.1目标数据3.1.1页面日志3.1.2事件日志3.1.3曝光日志3.1.4启动日志3.1.5错误日志3.2数据埋点3.2.1主流埋点方式3.2.2埋点数据上报时机3.2.3埋点

FunnyPrince_·2023-11-19 14:10

构建数据湖上低延迟数据 Pipeline 的实践

T摘要·云原生与数据湖是当今大数据领域最热的2个话题，本文着重从为什么传统数仓无法满足业务需求?为何需要建设数据湖？

DolphinScheduler社区·2023-11-19 14:39

数仓开发面试题之Hadoop相关

提纲MapReduce原理，map数、reduce数的参数说一下mapjoin与reducejoinhivesql怎么优spark和hive的区别数据倾斜几种解决方式数据如何清洗说一下udf、udtf、udaf，集成的类、接口，怎么写hive文件存储格式，对比内外表区别hive执行的job数是怎么确定的cube、groupingsets、grouping__idorderby、sortby、dis

话数Science·2023-11-19 13:39

奇瑞金融业务面一面

一、招聘岗位：数仓高级工程师岗位要求：1.数据架构设计与落地。2.模型设计，数据治理。

柳小葱的狂热粉·2023-11-19 12:07

用Airflow调度数仓（CK）的ETL脚本

#安装前提：安装了python，我这里是python3下载按照官网：pip3installapache-airflow包太多，下载太慢改为清华的镜像：pip3install-ihttps://pypi.tuna.tsinghua.edu.cn/simpleapache-airflow又有包找不到最后用豆瓣的镜像（注意要加trusted）：pip3installapache-airflow-ihtt

一篮小土·2023-11-19 09:16

本地数仓项目(四）—— 即席查询

不以物喜2020·2023-11-19 08:09

canal小试牛刀第一篇：canal-server+kafka根据mysql binlog同步数据

数仓搭建必备利器。

凯丨·2023-11-19 07:43

基于canal+kafka+flink的实时增量同步功能1：mysqlTokafka代码实现

使用到的技术有canal同步中间件，kafka消息队列，大数据实时计算流引擎flink以及并发编程等技术。

Hey 锡瑞·2023-11-19 07:02

【硬刚ClickHouse】ClickHouse 高级（二）优化(2)建表优化

1数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串，全String类型在以Hive为中心的数仓建设中常见，但ClickHouse环境不应受此影响。

王知无(import_bigdata)·2023-11-19 06:28

ClickHouse-优化（建表、配置）

1.数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串，全String类型在以Hive为中心的数仓建设中常见，但ClickHouse环境不应受此影响。

嘣嘣嚓·2023-11-19 05:55

ClickHouse-建表优化

建表优化数据类型时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串,全String类型在以Hive为中心的数仓建设中常见,但ClickHouse环境不应受此影响。

魔笛Love·2023-11-19 05:20

ClickHouse建表优化

1.数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串，全String类型在以Hive为中心的数仓建设中常见，但ClickHouse环境不应受此影响。

shangjg3·2023-11-19 05:42

PieCloudDB Database 再次升级！社区版全新版本发布

拓数派正式发布大模型数据计算系统「πDataCS」，基于云原生技术重构数据存储和计算，重塑数仓、向量和机器学习等数据计算引擎，实现“一份数据存储，多引擎数据计算”。

OpenPie｜拓数派·2023-11-18 21:27

领先一步，效率翻倍：PieCloudDB Database 预聚集特性让查询速度飞起来！

为此，拓数派推出了首款数据计算引擎PieCloudDBDatabase，作为一款全新的云原生虚拟数仓，旨在提供更高效、更灵活的数据处理解决方案。

OpenPie｜拓数派·2023-11-18 21:56

「校园 Pie」系列活动正式启航，首站走进南方科技大学！

在「校园Pie」系列活动中，PieCloudDB社区将携拓数派技术专家，社区大咖走进国内各大高校，分享行业动态与前沿技术，产业界的案例与应用分享，云原生数据库技术的应用与实践、云原生虚拟数仓PieCloudDB

OpenPie｜拓数派·2023-11-18 21:52

阿里云云原生一体化数仓 - 数据安全能力解读

MaxCompute产品简介MaxCompute是一款多功能、低成本、高性能、高可靠、易于使用的数据仓库和支持全部数据湖能力的大数据平台，支持超大规模、serverless和完善的多租户能力，内建企业级安全能力和管理功能，支持数据保护和安全共享，数据/生态开放，可以满足数据仓库/BI、数据湖非结构化数据处理和分析、湖仓一体联邦计算、机器学习等多业务场景需求。阿里云MaxCompute提供了全托管的

阿里云云栖号·2023-11-18 21:28

SaprkStreaming广告日志分析实时数仓

一、系统简介参考尚硅谷的spark教程中的需求，参考相关思路，详细化各种代码，以及中间很多逻辑的实现方案采用更加符合项目开发的方案，而不是练习，包括整体的流程也有很大的差别，主要是参考需求描述和部分代码功能实现。需求一：广告黑名单实现实时的动态黑名单机制：将每天对某个广告点击超过100次的用户拉黑。注：黑名单保存到MySQL中。1）读取Kafka数据之后，并对MySQL中存储的黑名单数据做校验；2

是阿威啊·2023-11-18 21:50

实时数仓入门训练营：Hologres性能调优实践

简介：《实时数仓入门训练营》由阿里云研究员王峰、阿里云资深技术专家金晓军、阿里云高级产品专家刘一鸣等实时计算Flink版和Hologres的多名技术/产品一线专家齐上阵，合力搭建此次训练营的课程体系，精心打磨课程内容

阿里云云栖号·2023-11-17 14:11

Hologres揭秘:深度解析高效率分布式查询引擎

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务

阿里云云栖号·2023-11-17 14:11

Hologres揭秘：高性能原生加速MaxCompute核心原理

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务和分析大数据的场景，全面兼容PostgreSQL协议并与大数据生态无缝打通，能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析

阿里云云栖号·2023-11-17 14:11

首次揭秘云原生Hologres存储引擎

概要：刚刚结束的2020天猫双11中，MaxCompute交互式分析（Hologres）+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地，为大数据平台创下一项新纪录。

阿里云技术·2023-11-17 14:09

Hologres 揭秘：深度解析高效率分布式查询引擎

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务和分析大数据的场景，全面兼容PostgreSQL协议并与大数据生态无缝打通，能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析

阿里云技术·2023-11-17 14:09

正确设计Hologres实时数仓，性能提升10倍+

本文将会讲述阿里巴巴零售通数据平台如何优化Hologres实时数仓，达到性能提升10倍+的效果，完美支撑双11营销活动、实时数据大屏等核心场景。

aliyunhologres·2023-11-17 14:29

Hologres揭秘：深度解析高效率分布式查询引擎

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务

阿里开发者·2023-11-17 14:28

hologres基础知识一文全

hologres基础知识一文全1功能特性1.1多场景查询分析1.2原生实时数仓1.3企业级运维能力1.4生态与可扩展性2hologres架构2.1传统分布式系统2.2hologres基础架构2.2.1计算层

Direction_Wind·2023-11-17 14:57

Python大数据之linux学习总结——day08_hive04

hive04hive查询语法结构:类sql基本查询知识点:数据准备:数仓分层思想:课堂练习:类sql多表查询知识点:数据准备:练习:hive其他join操作知识点:示例:hive其他排序操作[练习]知识点

笨小孩124·2023-11-17 09:37

二百零三、Flume——Flume实时采集数据频率为1s的高频率Kafka数据直接写入ODS层表的HDFS文件路径下

一、目的在离线数仓中，需要用Flume去采集Kafka中的数据，然后写入HDFS中。由于每种数据类型的频率、数据大小、数据规模不同，因此每种数据的采集需要不同的Flume配置文件。

天地风雷水火山泽·2023-11-17 07:22

hive数仓-数据的质量管理

版本20231116要理解数据的质量管理，应具备hive数据仓库的相关知识文章目录1.理解什么是数据的质量管理：2.数据质量管理的规划数据质量标准的分类3.数据质量管理解决方案1.ods层的数据质量校验1）首先在hive上建立一个仓库，添加数据质量监控表2）然后建立检查检查表3）创建数据检验曾量表通用的脚本4）创建数据检测全量表的脚本5）脚本的运行2.dwd层的数据质量校验1）建立dwd层校验表2

江南正晓时·2023-11-17 01:33

后季暖·2023-11-16 23:46

【云栖2023】姜伟华：Hologres Serverless之路——揭秘弹性计算组

本文根据2023云栖大会演讲实录整理而成，演讲信息如下：演讲人：姜伟华|阿里云计算平台事业部资深技术专家、阿里云实时数仓Hologres研发负责人演讲主题：HologresServerless之路——揭秘弹性计算组实时化成为了大数据平台的核心演进趋势

阿里云大数据AI技术·2023-11-16 12:29

Flink cdc +doris生产遇到的问题汇总-持续更新

知识备份：阿里云FlinkCDC文档地址：MySQL的CDC源表-实时计算Flink版-阿里云cdc参数:WITH参数参数说明是否

黄瓜炖啤酒鸭·2023-11-16 08:18

Databend 开源周报第 119 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

Databend·2023-11-16 07:20

Flink 1.12的CDC

基于Flink构建流批一体的实时数仓是目前数据仓库领域比较火的实践方案。随着Flink的不断迭代，其提供的一系列技术特性使得用户构建流批一体的应用变得越来越方便。

'煎饼侠·2023-11-15 19:56

数据仓库入门简介

一，数组仓库介绍数据仓库（英语：DataWarehouse，简称数仓、DW）是一个为数据分析而设计的企业级数据管理系统。它旨在支持企业决策过程中的数据分析和业务智能。

浮生夢·2023-11-15 17:12

推荐频道

实时计算（数仓）

【知识】可实操使用的数仓建设规范指南

【离线数仓-2-数据采集】

docker-compose 使用maxwell实时获取数据

12-海豚调度器DolphinScheduler

数仓DWS层之旁路缓存优化

大数据流式处理框架Flink介绍

Flink实时计算框架简介

大数据研发工程师面试

Hive参数与性能企业级调优（建议收藏）

2011-2022年高职大数据竞赛-赛题内容

2011-2022年高职大数据竞赛-赛题任务剖析

利用ETLCloud自动化流程实现业务系统数据快速同步至数仓

阿里巴巴电商搜索推荐实时数仓演进之路

spark性能调优 | 默认并行度

数据仓库-数仓架构

大数据发展历程及技术选型

数据仓库之电商数仓-- 1、用户行为数据采集

构建数据湖上低延迟数据 Pipeline 的实践

数仓开发面试题之Hadoop相关

奇瑞金融业务面一面

用Airflow调度数仓（CK）的ETL脚本

本地数仓项目(四）—— 即席查询

canal小试牛刀第一篇：canal-server+kafka根据mysql binlog同步数据

基于canal+kafka+flink的实时增量同步功能1：mysqlTokafka代码实现

【硬刚ClickHouse】ClickHouse 高级（二）优化(2)建表优化

ClickHouse-优化（建表、配置）

ClickHouse-建表优化

ClickHouse建表优化

PieCloudDB Database 再次升级！社区版全新版本发布

领先一步，效率翻倍：PieCloudDB Database 预聚集特性让查询速度飞起来！

「校园 Pie」 系列活动正式启航，首站走进南方科技大学！

阿里云云原生一体化数仓 - 数据安全能力解读

SaprkStreaming广告日志分析实时数仓

实时数仓入门训练营：Hologres性能调优实践

Hologres揭秘:深度解析高效率分布式查询引擎

Hologres揭秘：高性能原生加速MaxCompute核心原理

首次揭秘云原生Hologres存储引擎

Hologres 揭秘：深度解析高效率分布式查询引擎

正确设计Hologres实时数仓，性能提升10倍+

Hologres揭秘：深度解析高效率分布式查询引擎

hologres基础知识一文全

Python大数据之linux学习总结——day08_hive04

二百零三、Flume——Flume实时采集数据频率为1s的高频率Kafka数据直接写入ODS层表的HDFS文件路径下

hive数仓-数据的质量管理

Hudi数据湖相关资料

【云栖2023】姜伟华：Hologres Serverless之路——揭秘弹性计算组

Flink cdc +doris生产遇到的问题汇总-持续更新

Databend 开源周报第 119 期

Flink 1.12的CDC

数据仓库入门简介

「校园 Pie」系列活动正式启航，首站走进南方科技大学！