E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓
03
数仓
平台 Kafka
kafka概述定义Kafka是一个开源的分布式事件流平台(EventStreamingPlantform),主要用于大数据实时领域。本质上是一个分布式的基于发布/订阅模式的消息队列(MessageQueue)。消息队列在大数据场景中主要采用Kafka作为消息队列。传统消息队列主要应用场景包括:缓存/削峰、解耦和异步通信。消息队列的模式包含了2种,点对点订阅模式和发布/订阅模式。Kafka采用了发布
kk_io
·
2023-12-04 04:17
数据仓库
kafka
分布式
hql面试题之上海某资深
数仓
开发工程师面试题-求不连续月份的月平均值
1.题目A,B两组产品的月平均值,月平均值是当月的前三个月值的一个平均值,注意月份是不连续的,如果当月的前面的月份不存在,则为0。如A组2023-04的月平均值为2023年1月的数据加2023-02月的数据的平均值,因为没有其他月份则需要再加一个0,再求平均值。要求:求出每个月的月平均值。‘A’,‘2023-01’,3030‘A’,‘2023-02’,5464‘A’,‘2023-04’,5467‘
江南正晓时
·
2023-12-03 12:56
hive
sql
02
数仓
平台Zookeeper
概述ZooKeeper是一种分布式协调服务,用于管理大型主机集。在分布式环境中协调和管理服务是一个复杂的过程。ZooKeeper通过其简单的架构和API解决了这个问题。ZooKeeper允许开发人员专注于核心应用程序逻辑,而不必担心应用程序的分布式性质。Zookeeper工作机制Zookeeper从设计角度来理解,就是一个观察者模式设计的分布式服务管理框架,它负责存储和管理核心数据,接受观察者的注
kk_io
·
2023-12-03 09:52
数据仓库
zookeeper
分布式
云原生
AliExpress基于Flink的广告实时
数仓
建设
摘要:实时
数仓
以提供低延时数据指标为目的供业务实时决策,本文主要介绍基于Flink的广告实时
数仓
建设,主要包括以下内容:1.建设背景2.技术架构3.
数仓
架构4.实时OLAP5.实时保障6.未来规划建设背景广告是目前互联网流量变现的一种
王知无(import_bigdata)
·
2023-12-02 19:01
广告
大数据
编程语言
数据库
人工智能
亚马逊云科技re:Invent Peter DeSantis演讲,数据规模拓展无极限引领Serverless构建之路
Amazon全新发布RedshiftServerless:Al模型预测多维度
数仓
工作负载并自动调度和优化,高达10倍性价比提升。Amazon全新发布ElastiCacheServ
Zaker科技
·
2023-12-02 13:32
科技
serverless
云原生
【Spark
数仓
项目】需求八:MySQL的DataX全量导入和增量导入Hive
【Spark
数仓
项目】需求八:MySQL的DataX全量导入和增量导入Hive文章目录一、mysql全量导入hive[分区表]需求介绍:二、mysql增量导入hive1.增量导入的第一种实现方法2.另一种方法是时间字段
程序终结者
·
2023-12-02 10:22
spark
mysql
hive
2023.11.29 -hmzx电商平台建设项目 -核销主题阶段总结
目录1.准备源数据2.准备
数仓
工具进行源数据同步到ods层,本项目使用Datax3.使用Datax完成数据同步前建表时的方案选择3.1同步方式区别:3.2存储格式和压缩区别:4.在hive中创建表,共31
白白的wj
·
2023-12-02 09:53
数据仓库
大数据
hive
hadoop
数据库开发
etl
etl工程师
用 CloudCanal 快速验证阿里云 EMR for StarRocks 和 Doris
背景StarRocks和Doris是近两年来相当流行的、国产的、开源的实时
数仓
,不仅数据检索、分析能力出众,而且数据准备实时性好、准确度高、使用丝滑,可如同在线数据库般使用。
ClouGence
·
2023-12-02 08:47
CloudCanal
CloudDM
阿里云
云计算
直播电商数据仓库
直播电商数据仓库一.
数仓
及其维度什么是
数仓
数据仓库,简称
数仓
,(DataWarehouse)。
李昊哲小课
·
2023-12-01 21:31
数据分析
大数据
数据库
数据仓库
大数据
数据分析
数据可视化
数据库
数据库开发
finebi
尚硅谷大数据项目《在线教育之实时
数仓
》笔记008
视频地址:尚硅谷大数据项目《在线教育之实时
数仓
》_哔哩哔哩_bilibili目录第10章
数仓
开发之DWS层P066P067P068P069P070P071P072P073P074P075P076P077P078P079P080P081P082
upward337
·
2023-12-01 16:14
#
大数据数仓
大数据
实时数仓
hadoop
zookeeper
kafka
flink
maxwell
1w字详解 ClickHouse漏斗模型实践方案(收藏)
作者:互联网大数据团队-WuYonggang日常工作中做为
数仓
开发工程师、数据分析师经常碰到漏斗分析模型,本文详细介绍漏斗模型的概念及基本原理,并阐述了其在平台内部的具体实现。
浪尖聊大数据-浪尖
·
2023-11-30 21:57
大数据
数据分析
java
python
数据库
Mysql 表结构 到 hive 表结构的转换 (DDL自动生成)
最近在做mysql入hive
数仓
的工作,由于业务表数量较大,单独写hiveDDL太过耗时,就找到了如下方法。
雾岛与鲸
·
2023-11-30 16:56
hive
hive
大数据学习-离线
数仓
项目实战笔记(上)
1.前置1.1.软件版本产品版本Hadoop2.9.2Hive2.3.7Flume1.9DataX3.0Airflow1.10Atlas1.2.0Griffin0.4.0Impalaimpala-2.3.0-cdh5.5.0MySQL5.71.2.软件安装分布情况服务器linux121linux122linux123Hadoop√namenode√√seconderynamenode,resour
ys4tnaf
·
2023-11-30 15:24
hadoop
大数据
数据仓库
hive
flume
01
数仓
平台 Hadoop介绍与安装
Hadoop概述Hadoop是
数仓
平台的核心组件。在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性较大。在Hadoop2.x时代,增加了Yarn。
kk_io
·
2023-11-30 13:38
数据仓库
hadoop
大数据
分布式
数据仓库数据管理模型
数据仓库分为贴源层、数据仓库层、数据服务层,有人叫做
数仓
数据模型,或者叫"数据管理模型”。
zhulangfly
·
2023-11-30 13:52
数据仓库
大数据
深算院YashanDB整体亮相高交会开幕式
开幕式上,深算院重磅推介基于全自研内核的“1+3+3”YashanDB产品体系,即1个自主内核、共享集群数据库、实时
数仓
、空间数据库3大产品,以及迁移平台、运维平台、开发平台3大工具,由此形成具备完整能力的自主创新产品与企业级解决方案
YashanDB
·
2023-11-30 06:15
数据库
database
大数据
AntDB“超融合+流式实时
数仓
”——颠覆50年未变的数据库内核
流式处理引擎,颠覆50年未变的数据库内核流式处理的概念2001年9月11日,美国世贸大楼被袭击,美国国防部第一次将“主动预警”纳入国防的宏观战略规划。而IBM作为当时全球最大的IT公司,承担了大量基础支撑软件研发的任务。其中2009年正式发布的IBMInfoSphereStreams,就是全球最早真正意义上的商业化流数据处理引擎之一。典型的流处理框架,如ApacheStorm、SparkStrea
亚信安慧AntDB数据库
·
2023-11-30 03:01
数据库
antdb数据库
antdb
AntDB“超融合+流式实时
数仓
”——快速实现企业全链路实时化
AntDB-S流式数据库可以被应用于实时
数仓
、实时报表、实时告警、异步交易等业务场景,用户可以通过直接使用简单SQL创建复杂的流式数据处理业务逻辑,轻松替代ApacheS
亚信安慧AntDB数据库
·
2023-11-30 03:01
大数据
antdb数据库
antdb
数据库
AntDB“超融合+流式实时
数仓
”——打造分布式数据库新纪元
(一)前言据统计,在信息化时代的今天,人们一天所接触到的信息量,是古人一辈子所能接收到的信息量的总和。当今社会中除了信息量“多”以外,人们对信息处理的“效率”和“速度”的要求也越来越高。譬如,对于很多企业决策者来说,在当前的经济形势下需要尽一切可能降本增效。过去每周看看经营报表的习惯,现在慢慢转变为利用实时可视化的方式来随时分析企业当前的经营状况。数据库作为信息的核心载体,在过去的半个世纪中,基本
亚信安慧AntDB数据库
·
2023-11-30 03:57
数据库
antdb数据库
antdb
分布式
阿里云数据中台核心引擎
核心引擎MaxCompute阿里离线数据计算平台(离线
数仓
)原名ODPS,阿里巴巴自主研发的海量数据处理平台MaxCompute处理存储在TableStore的数据(不负责收集数据到TableStore
hsabrina
·
2023-11-30 00:30
工程架构
big
data
大数据
如何进行指标质量治理——指标系统(提质篇)
作者介绍@小风数据中台产品负责人;UBDC全域大数据峰会“灯塔人物”;擅长埋点模型、指标治理,
数仓
架构等;“数据人创作者联盟”成员。01指标质量治理概述指标质量治理主要分为两个部分:提质与增效。
一个数据人的自留地
·
2023-11-29 08:26
Databend 开源周报第 121 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2023-11-29 06:21
开源
数据库
细说数据仓库上篇
在谈
数仓
之前,先来看下面几个问题:
数仓
为什么要分层?
派可数据
·
2023-11-28 18:53
数据仓库
数据要素
商业智能
spark
大数据
分布式
商业智能BI
数据仓库
数据仓库建模下篇
在实际业务中,给了我们一堆数据,我们怎么拿这些数据进行
数仓
建设呢,
数仓
工具箱作者根据自身多年的实际业务经验,给我们总结了如下四步。
派可数据
·
2023-11-28 18:10
商业智能
数据要素
数据仓库
数据仓库
大数据
信息可视化
数据库
大数据开发:实时
数仓
架构层次设计
在大数据实时计算处理领域,数据仓库提供重要的支持,从传统的离线
数仓
到实时
数仓
,大数据带动了相应的市场需求,而从架构层次来说,实时
数仓
也有新的值得挖掘的技术点。
成都加米谷大数据
·
2023-11-28 16:52
ODPS SQL优化总结
本文结合作者多年的
数仓
开发经验,结合ODPS平台分享数据仓库中的SQL优化经验。背景数据仓库,是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合。
小二上酒8
·
2023-11-28 14:09
odps
sql
hive
java
开发语言
详解
数仓
中的数据分层:ODS、DWD、DWM、DWS、ADS
何为
数仓
DWDatawarehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。
禅与计算机程序设计艺术
·
2023-11-28 00:17
数仓
分层能减少重复计算,为啥能减少?如何减少?这篇文章包懂!
很多时候,看一些数据领域的文章,说到为什么做数据仓库、数据仓库要分层,我们经常会看到一些结论:因为有ABCD…等等理由,比如降低开发成本、减少重复计算等等好处然后,多数人就记住了ABCD。但是,每每被问起来,为什么,有什么案例,你是怎么理解的,就被问住,傻眼了。概念套概念,没意思,不如返璞归真,从生活案例重新理解起~01从统计班级人数开始本文将用生活化案例,结合粒度的概念,帮你理解常说的减少重复计
数据产品小lee
·
2023-11-27 12:42
大数据
数据仓库
数据建模
产品经理
【数据中台】开源项目(2)-Dbus数据总线
1背景企业中大量业务数据保存在各个业务系统数据库中,过去通常的同步数据的方法有很多种,比如:各个数据使用方在业务低峰期各种抽取所需数据(缺点是存在重复抽取而且数据不一致)由统一的
数仓
平台通过sqoop到各个系统中抽取数据
码农丁丁
·
2023-11-27 00:44
后端技术
#
大数据
开源
数据中台
ClickHouse替换MySQL作为
数仓
APP层
一、ClickHouse是什么?二、业务问题三、ClickHouse实践四、遇到的坑五、总结一、ClickHouse是什么?ClickHouse:是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)我们首先理清一些基础概念OLTP:是传统的关系型数据库,主要操作增删改查,强调事务一致性,比如银行系统、电商系统OLAP:是仓库型数据库,主要是读取数据,做复杂数据分析,侧重技术决策支持,提供
hzp666
·
2023-11-26 19:42
MySQL
PRD
数据库
mysql
ClickHouse
数据库
StarRocks与ClickHouse
2、开源
数仓
解决方案接下来
Yuan_CSDF
·
2023-11-26 19:11
数据库
OLAP
大数据
主流数据库/
数仓
核心要点对比
ClickHouse:官网讲OLAP系统的特点,更像是讲自己的特点,比如关联查询只会有一个大表,写入都是批量等。Global关键字难于被普通用户理解,join的不足(只有broadcastjoin,没有repartitionjoin),分布式表定义的繁琐。需要ZK存储一些元信息,没有master,各节点对等。对delete和upate支持很弱,无事务支持。可插拔存储引擎。稀疏索引。关于为什么快,官
吸积盘
·
2023-11-26 19:40
数据库
数据仓库
技术分享 | ClickHouse & StarRocks 使用经验分享
一.大纲本篇分享下个人在实时
数仓
方向的一些使用经验,主要包含了ClickHouse和StarRocks这两款目前比较流行的实时
数仓
,文章仅代表个人拙见,有问题欢迎指出,Thanks♪(・ω・)ノ关于实时
数仓
爱可生开源社区
·
2023-11-26 19:08
技术分享
实时数仓
ClickHouse
StarRock
传统
数仓
和clickhouse对比
背景传统
数仓
一般都是Hive+SparkSql作为代表,不过也包括Kylin等,而clickhouse是实时OLAP的代表,我们简单看下他们的对比传统
数仓
和clickhouse对比Hive+SparkSQL
lixia0417mul2
·
2023-11-26 19:06
clickhouse
clickhouse
数仓
中数据清洗的方法
在数据采集的过程中,需要从不同渠道获取数据并汇集在
数仓
中,采集的原始数据首先需要进行解析,然后对不准确、不完整、不合理、格式、字符等不规范数据进行过滤清洗,清洗过的数据才能更加符合需求,从而使后续的数据分析应用更为准确
小小哭包
·
2023-11-26 18:10
大数据
数据仓库
数据清洗
漫谈实时
数仓
架构
|0x00从实时
数仓
的历史谈起实时
数仓
的历史,有三个显著的分水岭。
晓阳的数据小站
·
2023-11-26 08:39
千亿
数仓
项目--离线部分杂记
一、电商行业的相关介绍电商行业介绍电商行业技术特点技术新技术范围广分布式高并发、集群、负载均衡、高可用海量数据业务复杂系统安全电商业务系统简介网站采用商家入驻的模式,商家入驻平台提交申请,由平台进行资质审核;审核通过后,商家拥有独立的管理后台录入商品信息,商品经过平台审核后即可发布。大多电商平台由三部分组成:网站前台运营商后台商家管理后台网站前台网站前台通常由这几部分构成:网站首页商家首页商品详细
sanerbaby
·
2023-11-26 07:51
大数据
数据仓库
离线--千亿级
数仓
项目-黑马
大数据
数仓
项目简介业务流程本次
数仓
业务流程主要分为两类,一类是用户下单、提交订单、支付、退款这一条线,另一类是我们收集用户的页面行为数据:用户搜索商品、添加购物车、提交订单、支付订单的日志数据,分析电商网站常见的
紫金小飞侠
·
2023-11-26 05:13
#
大数据项目
【黑马甄选离线
数仓
day05_核销主题域开发】
1.指标分类通过沟通调研,把需求进行分析、抽象和总结,整理成指标列表。指标有原子指标、派生指标、衍生指标三种类型。原子指标基于某一业务过程的度量值,是业务定义中不可再拆解的指标,原子指标的核心功能就是对指标的聚合逻辑进行了定义。可以得出结论,原子指标包含三要素,分别是业务过程、度量值和聚合逻辑。例如订单总额就是一个典型的原子指标,其中的业务过程为用户下单、度量值为订单金额,聚合逻辑为sum()求和
LKL1026
·
2023-11-26 05:11
黑马甄选离线数仓项目
大数据
大数据---离线
数仓
实战项目(一)
离线
数仓
实战---网站流量日志分析系统一、网站流量日志分析背景1.1、网站分析的意义1.2、如何进行网站分析1.2.1、网站流量质量分析(流量分析)1.2.2、网站流量多维度细分(流量分析)1.2.3、
静_步
·
2023-11-26 05:41
#
1.2
大数据_项目
大数据
数据仓库
【黑马甄选离线
数仓
day04_维度域开发】
1.维度主题表数据导出1.1PostgreSQL介绍PostgreSQL是一个功能强大的开源对象关系数据库系统,它使用和扩展了SQL语言,并结合了许多安全存储和扩展最复杂数据工作负载的功能。官方网址:PostgreSQL:Theworld'smostadvancedopensourcedatabase中文文档:http://www.postgres.cn/docs/14/index.htmlPos
LKL1026
·
2023-11-26 05:08
黑马甄选离线数仓项目
数据仓库
大数据
笔记
Day68 Kafka 快速实战 核心原理
Storm/Spark流式处理引擎web/nginx,访问日志消息服务开放统一接口给consumerhadoop,hbase等.装载到hadoop,
数仓
etl做离线分析和数据挖掘.ScreenShot2022
小周爱吃瓜
·
2023-11-25 21:31
基于 Flink SQL 和 Paimon 构建流式湖仓新方案
传统
数仓
包括Hive、Hadoop正在往湖、Lakehouse架构上演进,L
阿里云大数据AI技术
·
2023-11-25 15:52
flink
sql
大数据
Flink CEP 在抖音电商的实践
本文整理自抖音电商实时
数仓
研发工程师张健,在FlinkForwardAsia实时风控专场的分享。本篇内容主要从FlinkCEP简介、业务场景与挑战、解决方案实践和未来展望四个方面展开介绍。
字节跳动云原生计算
·
2023-11-25 15:00
flink
同程数科基于 Apache Doris 构建统一实时
数仓
,查询提速数十倍!
为帮助业务人员提升数据开发的效率与质量,同程数科历经三代架构演进,最终引入ApacheDoris搭建统一实时
数仓
,在后续的实际应用中,将实时
数仓
平台化,进一步构建了一站式数据平台Ark,为业务人
SelectDB技术团队
·
2023-11-25 13:29
最佳实践
大数据
数据仓库
数据分析
doris
mysql
hive
数据库架构
物流实时
数仓
:
数仓
搭建(ODS)
系列文章目录物流实时
数仓
:采集通道搭建物流实时
数仓
:
数仓
搭建文章目录系列文章目录前言一、IDEA环境准备1.pom.xml2.目录创建二、代码编写1.log4j.properties2.CreateEnvUtil.java3
超哥--
·
2023-11-25 09:53
物流实时数仓
flink
大数据
【黑马甄选离线
数仓
day03_
数仓
设计和维度域开发】
1.
数仓
基本概念1-什么是数据仓库呢?存储数据的仓库,主要用于存储过去历史发生过的数据,面向主题,对数据进行统计分析的操作,从而能够对未来提供决策支持2-数据仓库最大的特点是什么呢?
LKL1026
·
2023-11-24 16:37
数据仓库
大数据
笔记
【黑马甄选离线
数仓
day02_数据采集】
1.
数仓
工具使用-DataX1.1DataX介绍DataX是阿里推出的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP
LKL1026
·
2023-11-24 16:02
数据仓库
大数据
笔记
数仓
成本下降近一半,StarRocks 存算分离助力云览科技业务出海
成都云览科技有限公司倾力打造了凤凰浏览器,专注于为海外用户提供服务,公司致力于构建一个全球性的数字内容连接入口,为用户带来更为优质、高效、个性化的浏览体验。作为数据驱动的高科技公司,从数据中挖掘价值一直是公司核心任务,公司以前选用了众多组件来提升内部大数据分析效率,如Trino作为即席查询的工具、用ClickHouse和StarRocks来加速报表业务查询,但经过长期实践,最终决定将所有内部数据分
StarRocks_labs
·
2023-11-24 12:31
后端
1、
数仓
模型概述
数仓
领域中的模型指的是数据模型,要和商业分析中的模型不同数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用的角度合理的存储数据2、问:模型和表的区别?
广阔天地大有可为
·
2023-11-24 12:57
数据仓库建设与企业案例
spark
大数据
分布式
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他