数仓项目学习第12页

AntDB“超融合+流式实时数仓”——快速实现企业全链路实时化

AntDB-S流式数据库可以被应用于实时数仓、实时报表、实时告警、异步交易等业务场景，用户可以通过直接使用简单SQL创建复杂的流式数据处理业务逻辑，轻松替代ApacheS

亚信安慧AntDB数据库·2023-11-30 03:01

AntDB“超融合+流式实时数仓”——打造分布式数据库新纪元

（一）前言据统计，在信息化时代的今天，人们一天所接触到的信息量，是古人一辈子所能接收到的信息量的总和。当今社会中除了信息量“多”以外，人们对信息处理的“效率”和“速度”的要求也越来越高。譬如，对于很多企业决策者来说，在当前的经济形势下需要尽一切可能降本增效。过去每周看看经营报表的习惯，现在慢慢转变为利用实时可视化的方式来随时分析企业当前的经营状况。数据库作为信息的核心载体，在过去的半个世纪中，基本

亚信安慧AntDB数据库·2023-11-30 03:57

阿里云数据中台核心引擎

核心引擎MaxCompute阿里离线数据计算平台（离线数仓）原名ODPS,阿里巴巴自主研发的海量数据处理平台MaxCompute处理存储在TableStore的数据（不负责收集数据到TableStore

hsabrina·2023-11-30 00:30

react简书项目学习笔记36页面路由参数的传递

路由是detail/id或者下面这种返回路由detail?id=跳转后的页面可以通过this.props.match.params.参数名去获取到传过来的参数值

MeiLuan_yahoho·2023-11-29 16:22

如何进行指标质量治理——指标系统（提质篇）

作者介绍@小风数据中台产品负责人；UBDC全域大数据峰会“灯塔人物”；擅长埋点模型、指标治理，数仓架构等；“数据人创作者联盟”成员。01指标质量治理概述指标质量治理主要分为两个部分：提质与增效。

一个数据人的自留地·2023-11-29 08:26

Databend 开源周报第 121 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

Databend·2023-11-29 06:21

FPGA学习路线整理

YprgDay·2023-11-29 00:25

vue项目学习笔记（input绑定回车事件、route和router的区别、路由组件传递props参数、编程式路由（参数不变），多次执行报错）

给input框绑定一个回车事件在普通的input框中使用@keyup.enter=“方法名”在elementUI中得使用@keyup.enter.native=“方法名”因为ele框架中本身就有一个默认的类，所以使用.native是表示原生的意思。就是保持原来的用法$route和$router的区别$route一般是在路由中传递参数，$router一般是应用在编程式导航中例如：this.$rout

H-rosy·2023-11-28 18:20

细说数据仓库上篇

在谈数仓之前，先来看下面几个问题：数仓为什么要分层？

派可数据·2023-11-28 18:53

数据仓库建模下篇

在实际业务中，给了我们一堆数据，我们怎么拿这些数据进行数仓建设呢，数仓工具箱作者根据自身多年的实际业务经验，给我们总结了如下四步。

派可数据·2023-11-28 18:10

大数据开发：实时数仓架构层次设计

在大数据实时计算处理领域，数据仓库提供重要的支持，从传统的离线数仓到实时数仓，大数据带动了相应的市场需求，而从架构层次来说，实时数仓也有新的值得挖掘的技术点。

成都加米谷大数据·2023-11-28 16:52

ODPS SQL优化总结

本文结合作者多年的数仓开发经验，结合ODPS平台分享数据仓库中的SQL优化经验。背景数据仓库，是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合。

小二上酒8·2023-11-28 14:09

详解数仓中的数据分层：ODS、DWD、DWM、DWS、ADS

何为数仓DWDatawarehouse（可简写为DW或者DWH）数据仓库，是在数据库已经大量存在的情况下，它是一整套包括了etl、调度、建模在内的完整的理论体系。

禅与计算机程序设计艺术·2023-11-28 00:17

Bazel学习记录

0.安装Bazel构建C++项目学习bazelgithub下载,下载二进制直接安装就行参考备忘#bazel-5.3.0-installer-linux-x86_64.shchmod+xbazel-version-installer-linux-x86

古路·2023-11-27 22:12

数仓分层能减少重复计算，为啥能减少？如何减少？这篇文章包懂！

很多时候，看一些数据领域的文章，说到为什么做数据仓库、数据仓库要分层，我们经常会看到一些结论：因为有ABCD…等等理由，比如降低开发成本、减少重复计算等等好处然后，多数人就记住了ABCD。但是，每每被问起来，为什么，有什么案例，你是怎么理解的，就被问住，傻眼了。概念套概念，没意思，不如返璞归真，从生活案例重新理解起~01从统计班级人数开始本文将用生活化案例，结合粒度的概念，帮你理解常说的减少重复计

数据产品小lee·2023-11-27 12:42

【数据中台】开源项目（2）-Dbus数据总线

1背景企业中大量业务数据保存在各个业务系统数据库中，过去通常的同步数据的方法有很多种，比如：各个数据使用方在业务低峰期各种抽取所需数据（缺点是存在重复抽取而且数据不一致）由统一的数仓平台通过sqoop到各个系统中抽取数据

码农丁丁·2023-11-27 00:44

ClickHouse替换MySQL作为数仓APP层

一、ClickHouse是什么？二、业务问题三、ClickHouse实践四、遇到的坑五、总结一、ClickHouse是什么？ClickHouse：是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)我们首先理清一些基础概念OLTP：是传统的关系型数据库，主要操作增删改查，强调事务一致性，比如银行系统、电商系统OLAP：是仓库型数据库，主要是读取数据，做复杂数据分析，侧重技术决策支持，提供

hzp666·2023-11-26 19:42

StarRocks与ClickHouse

2、开源数仓解决方案接下来

Yuan_CSDF·2023-11-26 19:11

主流数据库/数仓核心要点对比

ClickHouse：官网讲OLAP系统的特点，更像是讲自己的特点，比如关联查询只会有一个大表，写入都是批量等。Global关键字难于被普通用户理解，join的不足（只有broadcastjoin，没有repartitionjoin），分布式表定义的繁琐。需要ZK存储一些元信息，没有master，各节点对等。对delete和upate支持很弱，无事务支持。可插拔存储引擎。稀疏索引。关于为什么快，官

吸积盘·2023-11-26 19:40

技术分享 | ClickHouse & StarRocks 使用经验分享

一.大纲本篇分享下个人在实时数仓方向的一些使用经验，主要包含了ClickHouse和StarRocks这两款目前比较流行的实时数仓，文章仅代表个人拙见，有问题欢迎指出，Thanks♪(･ω･)ﾉ关于实时数仓

爱可生开源社区·2023-11-26 19:08

传统数仓和clickhouse对比

背景传统数仓一般都是Hive+SparkSql作为代表，不过也包括Kylin等，而clickhouse是实时OLAP的代表，我们简单看下他们的对比传统数仓和clickhouse对比Hive+SparkSQL

lixia0417mul2·2023-11-26 19:06

数仓中数据清洗的方法

在数据采集的过程中，需要从不同渠道获取数据并汇集在数仓中，采集的原始数据首先需要进行解析，然后对不准确、不完整、不合理、格式、字符等不规范数据进行过滤清洗，清洗过的数据才能更加符合需求，从而使后续的数据分析应用更为准确

小小哭包·2023-11-26 18:10

Java自学第11课：电商项目（4）重新建立项目

那么下面接着做项目学习。1新建dynamicwebproject建立时把web.xml也生成下，省的右面再添加。会询问是否改为javaee环境？no就行，其实改过来也是可以的。这个不重要。

Intimes·2023-11-26 14:49

漫谈实时数仓架构

|0x00从实时数仓的历史谈起实时数仓的历史，有三个显著的分水岭。

晓阳的数据小站·2023-11-26 08:39

千亿数仓项目--离线部分杂记

sanerbaby·2023-11-26 07:51

离线--千亿级数仓项目-黑马

大数据数仓项目简介业务流程本次数仓业务流程主要分为两类，一类是用户下单、提交订单、支付、退款这一条线，另一类是我们收集用户的页面行为数据：用户搜索商品、添加购物车、提交订单、支付订单的日志数据，分析电商网站常见的

紫金小飞侠·2023-11-26 05:13

【黑马甄选离线数仓day05_核销主题域开发】

1.指标分类通过沟通调研，把需求进行分析、抽象和总结，整理成指标列表。指标有原子指标、派生指标、衍生指标三种类型。原子指标基于某一业务过程的度量值，是业务定义中不可再拆解的指标，原子指标的核心功能就是对指标的聚合逻辑进行了定义。可以得出结论，原子指标包含三要素，分别是业务过程、度量值和聚合逻辑。例如订单总额就是一个典型的原子指标，其中的业务过程为用户下单、度量值为订单金额，聚合逻辑为sum()求和

LKL1026·2023-11-26 05:11

大数据---离线数仓实战项目(一)

离线数仓实战---网站流量日志分析系统一、网站流量日志分析背景1.1、网站分析的意义1.2、如何进行网站分析1.2.1、网站流量质量分析（流量分析）1.2.2、网站流量多维度细分（流量分析）1.2.3、

静_步·2023-11-26 05:41

【黑马甄选离线数仓day04_维度域开发】

1.维度主题表数据导出1.1PostgreSQL介绍PostgreSQL是一个功能强大的开源对象关系数据库系统，它使用和扩展了SQL语言，并结合了许多安全存储和扩展最复杂数据工作负载的功能。官方网址：PostgreSQL:Theworld'smostadvancedopensourcedatabase中文文档：http://www.postgres.cn/docs/14/index.htmlPos

LKL1026·2023-11-26 05:08

Day68 Kafka 快速实战核心原理

Storm/Spark流式处理引擎web/nginx，访问日志消息服务开放统一接口给consumerhadoop,hbase等.装载到hadoop,数仓etl做离线分析和数据挖掘.ScreenShot2022

小周爱吃瓜·2023-11-25 21:31

基于 Flink SQL 和 Paimon 构建流式湖仓新方案

传统数仓包括Hive、Hadoop正在往湖、Lakehouse架构上演进，L

阿里云大数据AI技术·2023-11-25 15:52

Flink CEP 在抖音电商的实践

本文整理自抖音电商实时数仓研发工程师张健，在FlinkForwardAsia实时风控专场的分享。本篇内容主要从FlinkCEP简介、业务场景与挑战、解决方案实践和未来展望四个方面展开介绍。

字节跳动云原生计算·2023-11-25 15:00

同程数科基于 Apache Doris 构建统一实时数仓，查询提速数十倍！

为帮助业务人员提升数据开发的效率与质量，同程数科历经三代架构演进，最终引入ApacheDoris搭建统一实时数仓，在后续的实际应用中，将实时数仓平台化，进一步构建了一站式数据平台Ark，为业务人

SelectDB技术团队·2023-11-25 13:29

史上最全的springboot项目学习！深度学习！

springbootdemo是一个用来深度学习并实战springboot的项目，目前总共包含66个集成demo，已经完成54个。该项目已成功集成actuator(监控)、admin(可视化监控)、logback(日志)、aopLog(通过AOP记录web请求日志)、统一异常处理(json级别和页面级别)、freemarker(模板引擎)、thymeleaf(模板引擎)、Beetl(模板引擎)、En

科学熊·2023-11-25 09:31

物流实时数仓：数仓搭建（ODS）

系列文章目录物流实时数仓：采集通道搭建物流实时数仓：数仓搭建文章目录系列文章目录前言一、IDEA环境准备1.pom.xml2.目录创建二、代码编写1.log4j.properties2.CreateEnvUtil.java3

超哥--·2023-11-25 09:53

【文献学习】异质异构集成

在项目学习遇到“三维异质异构集成，3DHeterogeneousIntegration”这个概念，理解起来很是困难，所以查阅一些文献帮助理解。

早睡早起的CHERY·2023-11-25 01:12

【黑马甄选离线数仓day03_数仓设计和维度域开发】

1.数仓基本概念1-什么是数据仓库呢?存储数据的仓库,主要用于存储过去历史发生过的数据,面向主题,对数据进行统计分析的操作,从而能够对未来提供决策支持2-数据仓库最大的特点是什么呢?

LKL1026·2023-11-24 16:37

【黑马甄选离线数仓day02_数据采集】

1.数仓工具使用-DataX1.1DataX介绍DataX是阿里推出的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP

LKL1026·2023-11-24 16:02

黑马点评项目学习笔记--（4）分布式锁

1.如何实现分布式锁？前面我们已经知道了，每个集群模式下出现线程并发问题，是因为每个集群节点对应一个JVM，没有JVM维护之间的锁监视器，只能将JVM内部的线程锁住。因此，我们现在应该弃用JVM内部的锁监视器，使用一个公用的，脱离JVM之外的锁监视器。2.什么是分布式锁？满足集群模式或者分布式系统下，多进程可见并且互斥的锁。3.分布式锁需要满足的特点1）互斥2）多进程可见3）高可用性->大多数情况

light_code·2023-11-24 15:12

黑马点评项目学习笔记--（5）秒杀优化

1.分析优惠券秒杀的优化方案之前的优惠券秒杀存在什么问题？前段接收的情况经过nginx负载均衡到每个tomcat上，而我们的业务流程中，由单个线程对业务进行串行执行，存在许多需要查询数据库的操作，而查询数据库操作本身是耗时的，而且我们还用到了分布式锁，其实大大降低了执行性能。如何进行秒杀优化？我们先在redis中做能否成功下单的验证，验证通过后，开启一个独立的异步线程，去完成下单的操作。这样一来，

light_code·2023-11-24 15:12

vue3-admin商品管理后台项目(创建vite项目以及配置)

秋招0offer，继续充实自己，学学之前一直想做没做的vue-admin项目，目前是参考网易云课堂的一门课，后续会根据自己的项目学习进度一直更新下去。

mzldustu·2023-11-24 13:21

数仓成本下降近一半，StarRocks 存算分离助力云览科技业务出海

成都云览科技有限公司倾力打造了凤凰浏览器，专注于为海外用户提供服务，公司致力于构建一个全球性的数字内容连接入口，为用户带来更为优质、高效、个性化的浏览体验。作为数据驱动的高科技公司，从数据中挖掘价值一直是公司核心任务，公司以前选用了众多组件来提升内部大数据分析效率，如Trino作为即席查询的工具、用ClickHouse和StarRocks来加速报表业务查询，但经过长期实践，最终决定将所有内部数据分

StarRocks_labs·2023-11-24 12:31

1、数仓模型概述

数仓领域中的模型指的是数据模型，要和商业分析中的模型不同数据模型就是数据组织和存储方法，它强调从业务、数据存取和使用的角度合理的存储数据2、问：模型和表的区别？

广阔天地大有可为·2023-11-24 12:57

大数据基础中台-数据仓库建设

一、数据模型架构原则数仓分层原则优秀可靠的数仓体系，往往需要清晰的数据分层结构，即要保证数据层的稳定又要屏蔽对下游的影响，并且要避免链路过长。那么问题来了，一直在讲数仓要分层，那数仓分几层最好？

SmartBrain·2023-11-24 12:22

3、如何从0到1去建设数据仓库

1、数仓实施过程1.1数据调研数据调研包括：业务调研、需求调研业务调研需要调研企业内有哪些业务线、业务线的业务是否还有相同点和差异点各个业务线有哪些业务模块，每个模型下有哪些业务流程，每个流程下产生的数据是怎样存储的业务调研完后的产出

广阔天地大有可为·2023-11-24 12:50

Flink SQL 1.11新功能详解：Hive 数仓实时化 & Flink SQL + CDC 实践

问题导读1.Flink1.11有哪些新功能？2.如何使用flink-cdc-connectors捕获MySQL和Postgres的数据变更?3.怎样利用FlinkSQL做多流join后实时同步到Elasticsearch中？1Flink1.8~1.11社区发展趋势回顾自2019年初阿里巴巴宣布向Flink社区贡献Blink源码并在同年4月发布Flink1.8版本后，Flink在社区的活跃程度犹如坐

000X000·2023-11-24 06:18

数据中台建设方法论

1、数仓的概念和了解--业务的痛点产生的痛点：数据资产比较模糊、数据的质量比较低、重复建设、代码的耦合性比较强。2、数据仓库中的常见的模型：1、心型模型：中间是一张事实表，周围都是维度表。

新手小农·2023-11-24 02:08

详解Redis的使用及缓存特性

这是springBoot框架的第二篇，REDIS的使用关联文章SpringBoot工程搭建详解缓存Redis详解数仓ElasticSearch详解消息中间件Kafka本文目录回答三个问题SpringBoot

知春路SpideMan·2023-11-23 18:00

离线数仓03——业务数据采集平台

文章目录第1章电商业务简介1.1电商业务流程1.2电商常识1.2.1SKU和SPU1.2.2平台属性和销售属性第2章业务数据介绍2.1电商系统表结构2.1MySQL安装2.1.1安装包准备2.1.2安装MySQL2.1.3配置MySQL2.2业务数据模拟2.2.1连接MySQL2.2.2建表语句2.2.3生成业务数据2.2.4业务数据建模第3章业务数据采集模块3.1采集通道3.2采集工具3.3采集

就是这个范~·2023-11-23 18:11

大数据-数仓-数据采集-业务数据（三）：增量同步采集【MySQL-(Maxwell)-＞Kafka-(Flume)-＞HDFS】【每日增量：每天只将业务数据中新增及变化的数据同步到数据仓库】

增量同步策略解释：每日增量，就是每天只将业务数据中的新增及变化的数据同步到数据仓库中，适用：表数据量大，且每天只会有新的数据插入的场景，特点：采用每日增量的表，通常会在首日先进行一个全量同步。例如：退单表、订单状态表、支付流水表、订单详情表、活动与订单关联表、商品评论表Maxwell的实现原理很简单，就是将自己伪装成Slave，并遵循Mysql主从复制的协议，从master中同步数据。Maxwel

u013250861·2023-11-23 18:41

推荐频道

数仓项目学习