实时计算（数仓）第12页

知乎热议：数据仓库、数据湖、湖仓一体，究竟有什么区别？

来源：知乎作者：十叶心全文共14108个字，建议阅读20分钟一、基本概念1.1数仓发展历史数据湖是以集中方式存储各种类型数据，提供弹性的容量和吞吐能力，能够覆盖广泛的数据源，支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台

浪尖聊大数据-浪尖·2023-11-22 13:30

DataWorks实践笔记-从入门到精通

在这个基础上，有Datahub数据总线引擎，实时计算Flink引擎

qq_43548990·2023-11-22 13:58

技术分享|电商数据接口|淘宝天猫京东商品API接口之数据同步

常见的数据同步/集成场景多发生于不同的存储系统、不同的存储格式，如从mysql同步数据至数仓、excel或csv导入数据库中，但是众多数据同步解决方案很少涉及从http接口同步数据。

电商数据girl·2023-11-22 10:44

二百零七、Flume——Flume实时采集5分钟频率的Kafka数据直接写入ODS层表的HDFS文件路径下

一、目的在离线数仓中，需要用Flume去采集Kafka中的数据，然后写入HDFS中。由于每种数据类型的频率、数据大小、数据规模不同，因此每种数据的采集需要不同的Flume配置文件。

天地风雷水火山泽·2023-11-22 09:15

数据产品_数据中台06_数据沼泽边资产（数据资产）

本章主要内容什么是数据资产数据资产及应用数据资产管理及服务本节目标了解什么是数据资产以及应用熟悉数仓的指标模型熟悉标签的构成了解数据资产管理与服务的方式什么是数据资产数据是一种能源数据是一种能源，不单单是客观存在

andakiwukawa·2023-11-22 06:35

万字详解大数据架构新概念

有人说数据湖是下一代大数据平台，各大云厂商也在纷纷的提出自己的数据湖解决方案，一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么，是技术路线之争？是数据管理方式之争？

于连林_·2023-11-21 22:53

Flink+Hologres 亿级用户实时UV精确去重最佳实践

UV、PV计算，因为业务需求不同，通常会分为两种场景：离线计算场景：以T+1为主，计算历史数据实时计算场景：实时计算日常新增的数据，对用户标签去重针对离线计算场景，Hologres基于RoaringBitmap

阿里云技术·2023-11-21 22:32

小迈科技 X Hologres：高可用的百亿级广告实时数仓建设

通过本文，我们将会介绍小迈科技如何通过Hologres搭建高可用的实时数仓。一、业务介绍小迈科技成立于2015年1月，是一家致力以数字化领先为优势，实现业务高质量自增长的移动互联网科技公司。

阿里云技术·2023-11-21 22:32

数仓理论基础

数仓理论基础引用：尚硅谷电商数仓什么是数仓？存储数据、具备管理分析能力，为企业做决策提供数据依据。数据仓库的主体hive两种建模方式：ER和维度ER模型实体关系模型：将复杂的数据抽象为实体和关系。

Made in Program·2023-11-21 19:15

数据仓库理论

数仓理论知识点结构图本文初衷是为了学习归纳，若有错误，请指出。

宇宙中的Philip·2023-11-21 17:43

数据仓库_模型设计_学习目录

随着自己在`数仓`岗位工作的年限增加，对数仓的理解和认知也在发生着变化所有用这篇博客来记录工作中用到的`知识点`与`经验`2、这篇博客主要记录了那些内容？

广阔天地大有可为·2023-11-21 13:47

数据仓库高级面试题

数仓高内聚低耦合是怎么做的定义高内聚：强调模块内部的相对独立性，要求模块内部的元素尽可能的完成一个功能，不混杂其他功能，从而使模块保持简洁，易于理解和管理。

小小哭包·2023-11-21 13:16

基于Flink打造实时计算平台为企业赋能

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注，大数据开发领域最强公众号！大数据真好玩点击右侧关注，大数据真好玩！本文是清香白莲在知乎的分享，很有借鉴意义，分享给大家。原文地址：https://zhuanlan.zhihu.com/p/143169143随着互联网技术的广泛使用，信息的实时性对业务的开展越来越重要，特别是业务的异常信息，没滞后一点带来的就是直

王知无(import_bigdata)·2023-11-21 10:40

pyspark案例系列5-Spark ETL将MySQL数据同步到Hive

数仓其它层:Spark可以通过SparkSQL直接运行hive的sql语句，所以用Spark来

只是甲·2023-11-21 10:33

DolphinDB 流计算优化实践：时延统计与性能调优

在实时计算中，端到端的响应延迟是衡量计算性能时最重要的指标。

DolphinDB智臾科技·2023-11-21 10:59

流计算 Oceanus | 巧用 Flink 构建高性能 ClickHouse 实时数仓

作者：董伟柯——腾讯云大数据产品中心高级工程师概述ApacheFlink是流式计算处理领域的领跑者。它凭借易用、高吞吐、低延迟、丰富的算子和原生状态支持等优势，多方位领先同领域的开源竞品。同样地，ClickHouse是OLAP在线分析领域的一颗冉冉新星，它拥有极其出众的查询性能，以及丰富的分析函数，可以助力分析师灵活而迅速地挖掘海量数据的价值。然而金无足赤，人无完人，每个组件都有自己擅长和不擅长的

腾讯云大数据·2023-11-21 07:19

大数据可视化BI分析工具Superset部署详解

2.应用场景由于Superset能够对接常用的大数据分析工具，如Hive、Kylin、Impala、Druid、mysql等，且支持自定义仪表盘，故可作为数仓的可视化工具。

尚硅谷铁粉·2023-11-21 05:54

clickhouse做mysql从库_ClickHouse MaterializeMySQL 数据库引擎

ClickHouse20.8将新增MaterializeMySQL引擎,可通过binlog日志实时物化mysql数据，极大提升了数仓的查询性能和数据同步的时效性；原有mysql中承担的数据分析工作可交由

赤水.鲁·2023-11-21 05:03

Flink SQL 性能优化实战

由于是实时数仓指标计算上线初期，经常验证作业如果有问题就得重蹈覆辙重新追数，效率很低，于是我开始分析FlinkSQL的优化。问题insertintotableBselecta,max(b),ma

坨坨的大数据·2023-11-21 02:54

数仓建模理论之实体和维度建模

数据建模方式将数据有序的组织和存储起来。1、ER实体关系模型ER实体关系模型：是当前几乎所有的OLTP系统设数据库设计理论基础，当在信息系统中将事物抽象为“实体”，”属性“，”关系“来表示数据关联和事物描述。实体：实体是一个数据对象，指应用中可以区别的客观存在的事物。例如：商品、用户、学生、课程等属性：实体的某一特性称为属性。例如：商品的重量、颜色、尺寸。用户的性别、身高、爱好等。关系：表示一个或

一流觞·2023-11-20 20:36

大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

文章目录什么是数仓仓库建模？

月亮给我抄代码·2023-11-20 20:59

Hive 基于hadoop来构建数仓的工具(三) 概念及原理介绍

参数配置三种方式：配置文件（全局有效默认hive-default.xml自定义配置会覆盖默认配置）命令行参数（对hive启动实例有效bin/hive--hiveconf）参数声明（对hive连接的当前session有效set）注意：系统级别的参数，只能使用2和1，这些参数读取在session建立之前，例如log4j优先级：3>2>1hiveshell命令行bin/hive命令-i初始化hql文件-

章云邰·2023-11-20 19:55

Flink 最锋利的武器：Flink SQL 入门和实战

[TOC]一、FlinkSQL背景FlinkSQL是Flink实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标准SQL语义的开发语言。

tracy_668·2023-11-20 16:02

AWS云服务器EC2实例实现ByConity快速部署

ByConity是字节跳动面向现代数据栈的一款开源数仓

炒香菇的书呆子·2023-11-20 15:48

【知识】可实操使用的数仓建设规范指南

大数据封面.png目录：一、数据模型架构原则数仓分层原则主题域划分原则数据模型设计原则二、数仓公共开发规范层次调用规范数据类型规范数据冗余规范NULL字段处理规范指标口径规范数据表处理规范表的生命周期管理三

笔名辉哥·2023-11-20 14:27

【离线数仓-2-数据采集】

离线数仓-2-数据采集离线数仓-2-数据采集1.用户行为日志数据模拟1.用户行为日志的介绍2.埋点有哪些3.用户行为日志内容4.用户行为日志格式5.用户行为日志数据采集1.节点之间配置免密登录2.linux

Apache Minor Trend·2023-11-20 13:00

docker-compose 使用maxwell实时获取数据

背景空闲使用docker搭建大数据集群，并实现离线、实时数仓。走到了maxwell这边发现点问题，记录下。

初上路的小码农·2023-11-20 13:59

12-海豚调度器DolphinScheduler

Azkaban能做任务调度，任务编排A-->B还可以做定时任务，还能预警（发邮件，发钉钉，打电话）数仓项目因为是分层的，分层的数据之间，是有先后顺序的。

YuPangZa·2023-11-20 12:55

数仓DWS层之旁路缓存优化

优化原因：外部数据源的查询常常是流式计算的性能瓶颈。以本程序为例，每次查询都要连接Hbase，数据传输需要做序列化、反序列化，还有网络传输，严重影响时效性。可以通过旁路缓存对查询进行优化。旁路缓存模式是一种非常常见的按需分配缓存模式。所有请求优先访问缓存，若缓存命中，直接获得数据返回给请求者。如果未命中则查询数据库，获取结果后，将其返回并写入缓存以备后续请求使用。（1）旁路缓存策略应注意两点a）缓

大数据阿嘉·2023-11-20 10:44

大数据流式处理框架Flink介绍

大数据动物园·2023-11-20 01:57

Flink实时计算框架简介

文章目录（一）Flink介绍（二）Flink架构（三）Flink三大核心组件（四）Flink的流出来和批处理（五）大数据实时计算引擎对比（六）计算框架如何选择（一）Flink介绍ApacheFlink是一个开源的分布式

小崔的技术博客·2023-11-20 01:56

大数据研发工程师面试

4.数仓是怎么设计的?5.linux查看进程的命令是什么，如何查看具体某一行的内容（查看第n至m行）?6.从浏览器输入网址到返回页面，中间发生了什么?7.具体说一下三次握手四次挥手?

ChlinRei·2023-11-20 01:43

Hive参数与性能企业级调优（建议收藏）

但是如果我们只局限于会使用Hive，而不考虑性能问题，就难搭建出一个完美的数仓，所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。

坨坨的大数据·2023-11-19 23:58

2011-2022年高职大数据竞赛-赛题内容

本系列共分五篇，内容分别为：第一部分赛题内容第二部分任务剖析第三部分赛题模拟实现-离线数据抽取第四部分赛题模拟实现-离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化第一部分竞赛内容赛项以大数据技术与应用为核心内容和工作基础

xlw2003·2023-11-19 21:54

2011-2022年高职大数据竞赛-赛题任务剖析

本系列共分五篇，内容分别为：第一部分赛题内容第二部分任务剖析第三部分赛题模拟实现-离线数据抽取第四部分赛题模拟实现-离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化（

xlw2003·2023-11-19 21:54

利用ETLCloud自动化流程实现业务系统数据快速同步至数仓

企业需要先获取数据，将业务系统数据同步至数仓进行整合，然后再进行数据分析。为了更好地利用数据，提高工作效率，产出及获得最大利益。

ETLCloud数据集成社区·2023-11-19 19:09

阿里巴巴电商搜索推荐实时数仓演进之路

作者：张照亮（士恒）阿里巴巴搜索事业部高级技术专家1.业务背景阿里巴巴电商搜索推荐实时数据仓库承载了阿里巴巴集团淘宝、淘宝特价版、饿了么等多个电商业务的实时数仓场景，提供了包括实时大屏、实时报表、实时算法训练

阿里云Hologres·2023-11-19 18:38

spark性能调优 | 默认并行度

默认并行度200https://spark.apache.org/docs/2.4.5/sql-performance-tuning.html#other-configuration-options优化在数仓中

Knight_AL·2023-11-19 18:04

数据仓库-数仓架构

1数据仓库建设方法论1.1项目背景数据仓库将建设成为融通全公司数据资产，提供便捷数据分析和数据服务，支持全公司数字化经营与创新。1.2数据仓库概述数据仓库是一个面向主题的、集成的、相对稳定的、反映有历史变化的数据集合，用于支持数字化运营、数字化管理等数据业务。具有以下特点：包含公司生产过程中产生的全量业务数据包含结构化与非结构化形式数据来自于多个数据源、业务操作系统保存一定的时间周期按照企业内业务

终回首·2023-11-19 14:50

大数据发展历程及技术选型

大数据发展历程第一阶段2000年-2010年数仓提供方企业级数据仓库（EDW）IOT(IBM、Oracle、Teradata)提供数据仓库建设从硬件、软件到实施的整体方案需要购买大（中、小）型机配套商用的关系型数据库

平凡人笔记·2023-11-19 14:47

数据仓库之电商数仓-- 1、用户行为数据采集

目录一、数据仓库概念二、项目需求及架构设计2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.4服务器选型2.2.5集群规模2.2.6集群资源规划设计三、数据生成模块3.1目标数据3.1.1页面日志3.1.2事件日志3.1.3曝光日志3.1.4启动日志3.1.5错误日志3.2数据埋点3.2.1主流埋点方式3.2.2埋点数据上报时机3.2.3埋点

FunnyPrince_·2023-11-19 14:10

构建数据湖上低延迟数据 Pipeline 的实践

T摘要·云原生与数据湖是当今大数据领域最热的2个话题，本文着重从为什么传统数仓无法满足业务需求?为何需要建设数据湖？

DolphinScheduler社区·2023-11-19 14:39

数仓开发面试题之Hadoop相关

提纲MapReduce原理，map数、reduce数的参数说一下mapjoin与reducejoinhivesql怎么优spark和hive的区别数据倾斜几种解决方式数据如何清洗说一下udf、udtf、udaf，集成的类、接口，怎么写hive文件存储格式，对比内外表区别hive执行的job数是怎么确定的cube、groupingsets、grouping__idorderby、sortby、dis

话数Science·2023-11-19 13:39

奇瑞金融业务面一面

一、招聘岗位：数仓高级工程师岗位要求：1.数据架构设计与落地。2.模型设计，数据治理。

柳小葱的狂热粉·2023-11-19 12:07

用Airflow调度数仓（CK）的ETL脚本

#安装前提：安装了python，我这里是python3下载按照官网：pip3installapache-airflow包太多，下载太慢改为清华的镜像：pip3install-ihttps://pypi.tuna.tsinghua.edu.cn/simpleapache-airflow又有包找不到最后用豆瓣的镜像（注意要加trusted）：pip3installapache-airflow-ihtt

一篮小土·2023-11-19 09:16

本地数仓项目(四）—— 即席查询

不以物喜2020·2023-11-19 08:09

canal小试牛刀第一篇：canal-server+kafka根据mysql binlog同步数据

数仓搭建必备利器。

凯丨·2023-11-19 07:43

基于canal+kafka+flink的实时增量同步功能1：mysqlTokafka代码实现

使用到的技术有canal同步中间件，kafka消息队列，大数据实时计算流引擎flink以及并发编程等技术。

Hey 锡瑞·2023-11-19 07:02

【硬刚ClickHouse】ClickHouse 高级（二）优化(2)建表优化

1数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串，全String类型在以Hive为中心的数仓建设中常见，但ClickHouse环境不应受此影响。

王知无(import_bigdata)·2023-11-19 06:28

ClickHouse-优化（建表、配置）

1.数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串，全String类型在以Hive为中心的数仓建设中常见，但ClickHouse环境不应受此影响。

嘣嘣嚓·2023-11-19 05:55

推荐频道

实时计算（数仓）