实时计算（数仓）第7页

数据湖和传统数仓区别及湖仓一体

1.数据仓库早期系统采用关系型数据库来存放管理数据，但是随着大数据技术的兴起，人们对于多方面数据进行分析的需求愈加强烈，这就要求建立一个能够面向分析、集成保存大量历史数据的新型管理机制，这一机制就是数据仓库。数据仓库通常存储来自不同源的数据，集成源数据以提供统一的视图。这些资源可以包括事务系统、应用程序日志文件、关系数据库等等。数据仓库特性：面向主题：与传统数据库面向应用进行数据组织的特点相对应，

土豆马铃薯·2024-01-04 20:04

流式湖仓增强，Hologres + Flink构建企业级实时数仓

2023年12月，由阿里云主办的实时计算闭门会在北京举行，阿里云实时数仓Hologres研发负责人姜伟华现场分享Hologres+Flink构建的企业级实时数仓，实现全链路的数据实时计算、实时写入、实时更新

阿里云大数据AI技术·2024-01-04 16:07

数仓工作中的常见问题及解决方案

数据仓库系列文章数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—IDMapping

大数据技术派·2024-01-04 16:34

实时计算大作业kafka+zookeeper+storm+dataV

第一章总体需求1.1.课题背景近年来，大数据称为热门词汇，大数据分析随着互联网技术的发展愈加深入电商营销之中，越来越多的电商企业利用大数据分析技术，利用信息化对产业发展营销方向进行确定，对电子商务行业大数据的特性和背后价值进行深入挖掘，打破传统营销的空间、人群等限制，在电商场景、渠道客户等各个方面洞察用户的精准营销，从而实现个性化营销与服务等，为企业发展注入新的活力。而在大数据分析与电商营销的融合

别被算法PUA·2024-01-04 14:23

实时数仓投放主备链路Diff测试工具落地实践

一、背景目前实时数仓提供的投放实时指标优先级别越来越重要，特别下游为规则引擎提供的数仓数据，直接对投放运营的广告投放产生直接影响，数据延迟或者异常均可能产生直接或者间接的资产损失；从投放管理平台的链路全景图投放全景图来看

得物技术·2024-01-04 08:02

docker搭建Dinky —— 筑梦之路

简介Dinky是一个开箱即用、易扩展，以ApacheFlink为基础，连接OLAP和数据湖等众多框架的一站式实时计算平台，致力于流批一体和湖仓一体的探索与实践。

筑梦之路·2024-01-04 03:40

某人寿保险公司基础架构云化与小机数仓下移实践

随着数据中心IT基础架构的不断演进，云计算、大数据、移动互联的需求日益高涨，快速敏捷、易于维护以及扩展性，逐渐成为金融机构在升级数据中心时重点考虑的方面。某人寿保险公司（以下简称“客户”）过往采用传统三层架构，即IBMPower/x86+FCSAN+集中式存储的组合，在使用多年后面临设备老旧、灵活性与性能无法及时满足业务变化等问题。另外，传统架构也存在使用专用硬件及网络、存储控制器集中、架构及运维

志凌海纳SmartX·2024-01-04 03:09

Flink应用介绍

前言：Flink自2014年开源以来，网上对Flink的介绍不可胜数；作为一个灵活的实时计算框架，Flink到底能用来做什么？

i7杨·2024-01-04 03:37

Doris 数仓使用规范（经验版）

第一部分：字符集规范【强制】数据库字符集指定utf-8，并且只支持utf-8。命令规范【建议】库名统一使用小写方式，中间用下划线（_）分割，长度62字节内【建议】表名称大小写敏感，统一使用小写方式，中间用下划线（_）分割，长度64字节内第二部分：建表规范【强制】确保每个tablet大小为1-3G之间。举例：假设表内单分区数据量在100G，按天分区,bucket数量100个。【强烈建议】不要使用Au

hf200012·2024-01-03 19:30

电商数仓可视化1--数据导入

1、数据来源介绍以及数据文件下载1、业务数据业务数据往往产生于事务型过程处理，所以一般存储在关系型数据库中，如mysql、oracle业务数据源：用户基本信息、商品分类信息、商品信息、店铺信息、订单数据、订单支付信息、活动信息、物流信息等2、埋点数据埋点日志相对业务数据是用于数据分析、挖掘需求，一般以日志形式存储于日志文件中，随后通过采集落地分布式存储介质中如hdfs、hbase用户行为日志：用户

bigdata从入门到放弃·2024-01-03 18:53

我的大数据之路：2023年度总结

2023年度最值得骄傲的事从0到1搭建了离线数仓体系，针对Hadoop生态组件的原理和特性有了深入的理解。

话数Science·2024-01-03 18:07

【大数据】Doris 数仓使用规范原则

第一部分：字符集规范【强制】数据库字符集指定utf-8，并且只支持utf-8。命令规范【建议】库名统一使用小写方式，中间用下划线（_）分割，长度62字节内【建议】表名称大小写敏感，统一使用小写方式，中间用下划线（_）分割，长度64字节内第二部分：建表规范【强制】确保每个tablet大小为1-3G之间。举例：假设表内单分区数据量在100G，按天分区,bucket数量100个。【强烈建议】不要使用Au

奔向理想的星辰大海·2024-01-03 16:48

数睿通2.0：高效的数据处理，主数据与数据表功能全面升级

引言八天很短，七天很长，数睿通2.0数据中台也随之迎来了新一轮的版本迭代，本次更新主要包括：主数据模型（可视化建模）主数据派发（支持派发主数据到下游数据表，rabbitMq，kafka，接口）数据表（数仓分层表信息展示

小螺旋丸·2024-01-03 10:51

Flink实时电商数仓（十）

common模块回顾appBaseApp:作为其他子模块中使用Flink-StreamAPI的父类，实现了StreamAPI中的通用逻辑，在其他子模块中只需编写关于数据处理的核心逻辑。BaseSQLApp:作为其他子模块中使用Flink-SQLAPI的父类。在里面设置了使用SQLAPI的环境、并行度、检查点等固定逻辑。bean：存放其他子模块中使用到的javaBean对象，因为如果一直使用json

十七✧ᐦ̤·2024-01-03 09:50

Hive自定义函数支持国密SM4解密

当前项目背景需要使用到国密SM4对加密后的数据进行解密，Hive是不支持的，尝试了华为DWS数仓，华为只支持在DWS中的SM4加密解密，不支持外部加密数据DWS解密新建Maven工程只需要将引用的第三方依赖打到

4935同学·2024-01-03 08:03

计算机毕业设计吊打导师hadoop+spark+hive知识图谱医生推荐系统医生数据分析可视化大屏医生爬虫医疗可视化医生大数据机器学习大数据毕业设计

mapreduce对mysql中的医生数据进行数据分析，使用高德地图解析地理位置，并将结果转入.csv文件同时上传到hdfs文件系统；3.使用hive建库建表，导入.csv数据集；4.一半指标使用离线数仓

计算机毕业设计大神·2024-01-03 07:53

数据仓库命名规范详解

一、数仓中为什么要在数据开发过程中强调遵守数仓开发命名规范呢？

孤城暮雨@·2024-01-03 04:17

Azkaban+Spark资源调度

本文以利用Azkaban+Spark构建数仓的DWS层和ADS层为例！！！

孤城暮雨@·2024-01-03 04:46

引领大数据进入新时代，腾讯发布第四代数智融合计算平台“天工”

作为国内算力最强、实时计算量最大的腾讯公司，当仁不让。

爱踢边鼓·2024-01-02 12:10

Spark内容分享(二十)：网易基于 Kyuubi + Spark 内核优化以及实践

AQE–History2.AQE–Shuffle3.AQE-SmallReducePartition4.AQE–SkewedReducePartition5.AQE–OptimizePlanKyuubi+Spark数仓类任务优化实践

之乎者也··2024-01-02 10:21

最容易出错的 Hive Sql 详解

前言在进行数仓搭建和数据分析时最常用的就是sql，其语法简洁明了，易于理解，目前大数据领域的几大主流框架全部都支持sql语法，包括hive，spark，flink等，所以sql在大数据领域有着不可替代的作用

奔跑者-辉·2024-01-02 07:30

Flink的优势

主要应用场景包括实时数仓、实时大屏、实时推荐、实时报表、实时风控和实时监控，当然还有其他一些应用场景。总之，实时计算的业务需求，一般都会用Flink进行开发。

有味青年·2024-01-01 13:01

[Flink] Flink的waterMark的通俗理解

导读Flink为实时计算提供了三种时间，即事件时间（eventtime）、摄入时间（ingestiontime）和处理时间（processingtime）。

延眠万里·2024-01-01 05:37

Impala导出csv文件

场景：当数仓环境为大数据集群（impala），临时从数仓取数导出为csv文件使用impala-shell命令把文件导出为本地csv文件--正常导出impala-shell-q"SELECT*FROMyour_table

n_avo7_i·2023-12-31 18:34

详解Lambda和Kappa架构的区别

二、架构详解1、随着大数据的发展，人们逐渐对系统的实时性提出了要求，为了计算一些实时指标，就在原来离线数仓的基础上增加了一个实时计

小枫@码·2023-12-31 18:55

实时数仓应用价值（下）

博客浅析研发支出费用化和资本化的区别-CSDN博客商业银行数据资产估值白皮书，推荐系统源码下载-CSDN博客用友BIP数据资产入表解决方案白皮书，推荐系统源码下载-CSDN博客六、具体五种方案的解析业界常见的实时数仓方案有这几种

Michael_Shentu·2023-12-31 00:46

Flink实时电商数仓（九）

用户注册汇总表需求分析统计各窗口的注册用户数，写入Doris思路分析读取kafka用户注册主题数据转换数据结构string->JSONObject->javaBean使用user_info表中的数据代表用户注册设置水位线开窗聚合写入Doris具体实现创建用户注册统计类继承BaseApp,设置端口，并行度，kafka消费者组，kafka主题（Topic_user_register）启动zookeep

十七✧ᐦ̤·2023-12-30 11:16

Flink实时电商数仓（八）

用户域登录各窗口汇总表主要任务：从kafka页面日志主题读取数据，统计七日回流用户：之前活跃的用户，有一段时间不活跃了，之后又开始活跃，称为回流用户当日独立用户数：同一个用户当天重复登录，只算作一个独立用户。思路分析读取kafka页面主题数据转换数据结构：String->JSONObject过滤数据，uid不为null登录的两种情况用户打开应用后自动登录用户打印应用后没有登录，浏览后跳转到登录页面

十七✧ᐦ̤·2023-12-30 09:55

AI大模型时代下运维开发探索第二篇：基于大模型(LLM)的数据仓库

在SREWorks社区聚集了很多进行运维数仓建设的同学，大家都会遇到类似的挑战和问题：数仓中存储大量数据消耗成本，但很多存储的数据却并没有消费。

阿里云大数据AI技术·2023-12-30 07:39

Spark Streaming

目录一、流计算概述（一）静态数据和流数据（二）批量计算和实时计算（三）流计算概念（四）流计算框架（五）流计算处理流程二、SparkStreaming（一）SparkStreaming设计（二）SparkStreaming

Francek Chen·2023-12-30 06:54

数据中台-架构、构建与体系建设

构建与体系建设数据中台架构数据中台构建方法论技术体系数据体系服务体系运营体系数据中台功能架构数据中台技术架构企业构建数据中台评估统计分析阶段决策支持阶段数据驱动阶段运营优化阶段数据汇集-打破企业数据孤岛数据开发-提取数据价值数据体系建设贴源数据层ODS(OperationalDataStore)统一数仓层

Ybb_studyRecord·2023-12-30 03:53

Flink实时电商数仓之DWS层

需求分析关键词统计关键词出现的频率IK分词进行分词需要引入IK分词器，使用它时需要引入相关的依赖。它能够将搜索的关键字按照日常的使用习惯进行拆分。比如将苹果iphone手机，拆分为苹果，iphone,手机。org.apache.dorisflink-doris-connector-1.17com.janeluoikanalyzer测试代码如下：publicclassIkUtil{publicsta

十七✧ᐦ̤·2023-12-29 17:19

长文解读 "数据仓库" 面试必备知识

数仓分层数仓简介1.数据仓库和数据库的区别数据仓库：数据量特别的大，TB~PB级别会保留历史数据一般使用OLAP分析（On-LineAnalyticalProcessing），联机分析处理（聚合操作），

you的日常·2023-12-29 15:28

数据仓库-数仓优化小厂实践

大数据点滴·2023-12-29 09:25

TSINGSEE青犀智能分析网关V4人体行为检测算法在视频监控中的应用

在智能视频监控行业中，人体行为检测算法可以应用于许多方面，以下是一些主要的应用：1、人员计数与密度分析通过人流量检测算法，可以实时计算人员数量并进行密度分析。这对于公共场所的

TSINGSEE·2023-12-29 01:25

分享7个Python实战项目代码，让你分分钟晋级大老！快收藏_python编程作品

听两个聊天机器人互相聊天：3、分析唐诗的作者是李白还是杜甫：4、彩票随机生成35选7：5、自动写检讨书：6、屏幕录相机，抓屏软件：7、制作Gif动图：一、Python入门二、Python爬虫三、数据分析四、数据库与ETL数仓五

老-程序员·2023-12-28 19:38

银行数仓建模方法论

随着金融行业的不断发展，银行业务越来越复杂，数据量也越来越大。为了更好地管理和利用这些数据，银行数据仓库体系应运而生。在前面的文章中，我们介绍了银行数据仓库体系的基础知识，本篇文章将重点介绍银行数据仓库体系实践（7）—数据模型设计及流程。一、数据模型设计数据模型设计是银行数据仓库体系的核心，它是对银行业务进行抽象和概括的过程。在设计数据模型时，需要考虑以下几个方面：业务需求：数据模型的设计必须符合

添柴少年yyds·2023-12-28 18:56

ODS DW APP DIM 数仓

ODS：通过ETL工具从源端系统抽取数据，存入ODS层；DW：从ODS层数据进行抽取并按主题进行分类存储；DWD（数据明细层）：会对ODS的数据做一定的清洗和汇总，然后生成DWM中间表；DWM（数据中间层）：对DWD中的数据按照一定维度进行汇总后，放到DWS中的一张表；DWS（数据服务层）：从DWM中间表中按主题进行高度汇总业务宽表，满足各项业务需要；APP：依据DWS中的宽表数据，进行应用（可视

p1i2n3g4·2023-12-28 17:41

DolphinDB 即时编译（JIT）详解

DolphinDB是基于高性能时序数据库，支持复杂分析与流式处理的实时计算平台，内置了丰富的计算功能和强大多范式编程语言。

DolphinDB智臾科技·2023-12-28 15:39

Flink 在有赞实时计算的实践

第四部分是将实时计算SQL化，界面化的一些实践。最后的话就

有赞技术团队·2023-12-28 15:11

集度汽车 Flink on native k8s 的应用与实践

本篇内容主要分为四个部分：1.集度实时计算发展2.FlinkSQL实时入仓实践3.Flink计算平台建设4.未来规划Tips：点击「阅读原文」查看原文视频&演讲ppt01集度实时计算发展2021年3月集度汽车成立

Apache Flink·2023-12-28 15:05

数据仓库基本信息

数据仓库基本理论数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。

许一世流年绝不嵩手 cium·2023-12-28 11:46

ETL项目实战--学习笔记

Extract，数据抽取=>抽取的是其他数据源中的数据T:Transform，数据转换=>将数据转换为统一的格式,消除异常值,缺失值,对于错误的逻辑进行修改L:Load，数据加载=>将不同数据源的数据处理后加载到数仓或者输出到指定位置

祈愿lucky·2023-12-28 11:46

UBX M8T-10 DSP开发和NMEA解析

l无约束惯性导航(UDR)解决方案持续测量与监测车辆加速度及其方向变化，再通过传感器融合技术将测量数据与GNSS数据进行整合，实时计算并优化分析出更精准的位置结果。

汪汪星河·2023-12-28 10:30

知乎实时数仓架构演进

从智能商业的角度来讲，数据的结果代表了用户的反馈，获取结果的及时性就显得尤为重要，快速的获取数据反馈能够帮助公司更快的做出决策，更好的进行产品迭代，实时数仓在这一过程中起到了不可替代的作用。

yoku酱·2023-12-27 19:34

什么是Spark开发？

1、核心开发：离线批处理/延迟性的交互式数据处理2、SQL查询：底层都是RDD和计算操作3、实时计算：底层都是RDD和计算操作

一个人一匹马·2023-12-27 17:54

Flink实时电商数仓之Doris框架（七）

主要实现的功能有：实时看板面向企业内部分析师和管理者的报表面向用户或者客户的高并发报表分析即席查询统一数仓构建：替换了原来由Spark,Hive，Kudu,Hbase等旧框架数据湖联邦查询：通过外表的方式联邦分析位于

十七✧ᐦ̤·2023-12-27 16:47

DataFunSummit：2023年数据湖架构峰会-核心PPT资料下载

面对如此大规模的数据，无论是分析型场景、流批一体、增量数仓都得益于湖仓一体等数据湖技术的发展而变得越来越容易解决。从核心架构、性能优化、湖仓一体、最佳实践等方面带来数据湖的最新技术和内容实践经验总结。

百家峰会·2023-12-27 16:03

从报表需求到报表开发的流程

报表开发背后涉及到需求调研和数仓开发的支持。二、目标梳理从报表需求提出到报表需求实现整个生

qq_36120059·2023-12-27 12:55

基于Kettle和帆软Finereport的血缘解析

开发人员排查数据质量问题步骤：首先和业务人员对接了解是哪里数据不准确，要定位是哪张报表，然后查看报表后面数据来源，然后一路排查数仓。往往定位到数据问题耗时比较高，开发断层导致找到相关任务比较难。