E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
项目从180天缩短至7天的秘诀
众所周知,建设
数仓
向来都是耗时
Yolanda518
·
2023-01-28 03:03
Clickhouse笔记(2022)
Clickhouse是俄罗斯yandex公司开源的用于OLAP的列式数据库管理系统,它是用C++写的,支持SQL实时查询和大型数据库管理系统一般用于后端
数仓
。
这货不是王马勺
·
2023-01-27 17:13
美团OneData建设探索之路:SaaS收银运营
数仓
建设
但由于缺乏前期规划,导致后期
数仓
出现了严重的数据质量问题,这给数据治理工作带来了很大的挑战。
数据智能谷
·
2023-01-27 05:24
使用kylin来分析我们Hbase当中的数据
前面我们已经通过flink将数据介入到了hbase当中去了,那么我们接下来就可以通过hive整合hbase,将hbase当中的数据映射到hive表当中来,然后通过kylin来对hive当中的数据进行预分析,实现实时
数仓
的统计功能第一步
我还不够强
·
2023-01-27 00:20
数据仓库日期维表怎么做
最近终于有点时间了,东拼西凑的设计了一个日期维表,也是
数仓
设计时比较常用的。
乌拉乌拉儿
·
2023-01-26 18:08
数仓
调研app
mp.weixin.qq.com/s/Mhc_vTyR9a9F1BE9uoI9Ww抛弃Hadoop,数据湖才能重获新生(qq.com)详解数据中台的底层架构逻辑(纯干货建议收藏)(qq.com)大数据平台中的企业级
数仓
建设
空凯空凯空空凯
·
2023-01-26 11:32
DataX 自学使用
2.1官方地址2.3安装第3章使用案例3.1从stream流读取数据并打印到控制台3.2读取Mysql中的数据存放到Hdfs3.2.1参数解析3.2.2准备数据3.2.3编写配置文件总结前言数据采集在
数仓
中是指将数据从源数据端采集到目标端的过程
右耳朵耗子
·
2023-01-26 05:59
大数据数仓开发学习
数据库
大数据
java
Firebolt白皮书
Firebolt号称在速度上碾压其他云原生
数仓
,但是网上关于其资料不是很多,而且由于它不是走开源路线,没有办法直接了解它的实现。于是翻译了其官方文档的技术白皮书,方便大家学习。
生命的奋进
·
2023-01-26 04:29
SQL:LATERAL VIEW函数解析多嵌套的json
数据处理中,一遇到json就头大,很长一段时间里,明知lateralview函数是个好东西,但就是很抗拒去学,都是找
数仓
的同事先理好字段直接用,顺便以菜鸡的身份,同情和膜拜一下埋头洗脏数的
数仓
同学,大佬辛苦
小素数
·
2023-01-25 22:46
电商
数仓
笔记5_数据仓库系统(
数仓
分层,
数仓
理论,
数仓
环境搭建)
电商
数仓
一、
数仓
分层1、为什么要分层2、数据集市与数据仓库概念3、
数仓
命名规范(1)表命名(2)脚本命名(3)表字段类型二、
数仓
理论1、范式理论(1)范式概念(2)函数依赖(3)三范式区分2、关系建模与维度建模
明灭18
·
2023-01-23 14:28
笔记
数据仓库
数据库
数据挖掘
电商大数据实时
数仓
项目实战(Photo)
1.电商大数据实时
数仓
项目实战(Photo)1.1框架版本选型1.2服务器选型1.3集群规模1.4人员配置参考1.5项目架构1.6实时
数仓
分层-ODS1.7实时
数仓
分层-DWD1.8实时
数仓
分层-DWS1.9
a-tao必须奥利给
·
2023-01-23 14:58
大数据
数据仓库
数据挖掘
人工智能
【电商
数仓
】关系建模与维度建模、维度表和事实表、几种维度模型、
数仓
建模原则
星型模型(2)雪花模型(3)星座模型(4)模型的选择4数据仓库建模(1)ODS层(2)DIM层和DWD层选择业务过程声明粒度确定维度确认事实(3)DWS层与DWT层(4)ADS层1关系建模与维度建模如何规范
数仓
的表格
OneTenTwo76
·
2023-01-23 14:57
电商数仓
数据仓库
数据库
数据挖掘
PB级企业电商离线
数仓
项目实战【上】- notes
PB级企业电商离线
数仓
项目实战【上】-笔记第一部分数据仓库理论数据仓库四大特征面向主题的:抽象的,逻辑的集成的:为分析服务稳定的:很少更新,只需定期加载反映历史变化的:按照时间顺序追加与数据库区别OLTP
蔷.sir
·
2023-01-23 14:27
数据仓库
数据库
big
data
PB级企业电商离线
数仓
项目实战
项目背景:人类从IT走向DT时代。人们往往可以收集到更多的数据。到2020,全球数据总量将超过40ZB,是2011年的22倍。正在呈爆炸式增长。数据仓库的四大特征:面向主题、集成的、稳定的、反映历史变化的。数据仓库作用:整合企业业务数据,建立统一的数据中心;产生业务报表,了解企业的经营状况;为企业运营、决策提供数据支持;可以作为各个业务的数据源,形成业务数据互相反馈的良性循环;分析用户行为数据,通
大数据人之路
·
2023-01-23 14:27
hive
[电商实时
数仓
] 数据仓库建模过程分析
文章目录1.数据仓库概述1.1数据仓库概念1.2数据仓库核心架构2.数据仓库建模概述2.1数据仓库建模的意义2.2数据仓库建模方法论2.2.1ER模型2.2.2维度模型3.维度建模理论之事实表3.1事实表概述3.2事实表分类3.3事务事实表4.维度建模理论之维度表5.数据仓库设计5.1数据仓库分层设计5.2数据仓库构建流程5.2.1数据调研5.2.2明确数据域5.2.3构建业务总线矩阵5.2.4明
OoZzzy
·
2023-01-23 14:27
数据仓库
hadoop大数据
电商实时数仓
数据仓库
数据挖掘
数据库
在亚马逊云科技上部署无服务器 Apache DolphinScheduler 任务调度系统
背景介绍在
数仓
ETL、离线及实时计算的场景下,数据任务的依赖调度关系越来越复杂。
亚马逊云开发者
·
2023-01-21 20:17
科技
serverless
apache
云原生
中原银行对金融行业实时
数仓
的现状与发展趋势思考
众所周知,实时
数仓
落地是一个难点,尤其是金融行业,还没有出现真正所谓的实时报表。金融行业个别案例的实时
数仓
是在较窄场景、较多限制下的尝试,还不能够称之为实时
数仓
,如银行普遍的实时报表业务都无法满足。
·
2023-01-20 19:45
flink大数据实时计算
传统
数仓
的3大缺陷
本文将对传统
数仓
的缺陷进行总结。一、效率低传统的
数仓
大多构建在Hadoop之上。这位传统的
数仓
带来了近乎无限的横向扩展能力,同时也造成了传统的
数仓
技术效率低的缺陷。效率低主要体现在以下几个方面。
Impl_Sunny
·
2023-01-20 02:16
#
数据存储与管理方案
hadoop
大数据
hbase
可路由计算引擎实现前置数据库
一方面,
数仓
是前端应用的数据后台
小虚竹
·
2023-01-19 05:01
数据库
数据仓库
技术分享 | ClickHouse & StarRocks 使用经验分享
一.大纲本篇分享下个人在实时
数仓
方向的一些使用经验,主要包含了ClickHouse和StarRocks这两款目前比较流行的实时
数仓
,文章仅代表个人拙见,有问题欢迎指出,Thanks♪(・ω・)ノ关于实时
数仓
·
2023-01-18 17:27
clickhouse
干货 | 携程酒店实时
数仓
架构和案例
一、实时
数仓
当前,企业对于数据实时性的需求越来越迫切,因此需要实时
数仓
来满足这些需求。传统的离线
数仓
的数据时效性通常为T+1,并且调度频率以天为单位,无法支持实时场景的数据需求。
携程技术
·
2023-01-18 09:29
架构
数据仓库
数据库
大数据
深入理解大数据架构之——Lambda架构
数据量的变化数据管理系统(DBMS)和
数仓
系统(DW)也在悄然的变化着。传统应用的数据系统架构设计时,应用直接访问数据库
LBJ_小松鼠
·
2023-01-17 15:02
Flink
岁末年初捷报频传 HashData斩获多项行业殊荣
在近期各大机构和媒体举办的年终盘点和评选活动中,HashData凭借在产品、服务、技术研发等方面的创新实践,获得众多机构和媒体的高度认可,领跑云原生
数仓
市场。
·
2023-01-17 15:55
数据库postgresql
揭秘阿里云EB级大数据计算引擎MaxCompute
这是ForresterWave首次发布关于云
数仓
解决方案(CloudDataWarehouse,简称CDW)的测评。
阿里云云栖号
·
2023-01-14 16:44
分布式计算
分布式存储
MaxCompute
数仓
知识11:Hadoop生态及Hive、HBase、Impala、HDFS之间的关系
Hive、HBase、Impala、HDFS是Hadoop生态体系中常用的开源产品,各个产品间是一个什么样的关系,许多人都搞不清楚,本文将进行研究分析。Hadoop生态在了解Hive、HBase、Impala、和HDFS之前,先熟悉一下Hadoop的生态。ApacheHadoop软件库是一个框架,允许使用简单的编程模型在计算机集群之间对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台计算机
维克先生
·
2023-01-14 16:12
数据仓库
hadoop
hive
hdfs
数仓
知识07:数据增量更新的几种方式
1、增量更新的几种方式增量更新的本质,其实是获取源表中数据变化的情况(增、删、改),然后将源表中发生的变化同步至目标表中。不同的方式,获取源表中数据变化的情况不一样,受技术的限制、表结构的限制,某些方式可能无法获取到完整的数据变化情况,因此只能适用于特定的场景。方式简述适用场景详述优点缺点时间戳增量1记录每次读数完成时的最大时间戳,后续读数时只获取源头表中新增的数据,将其增量写入到目标表。源表只增
维克先生
·
2023-01-14 16:42
数据仓库
数据仓库
数据库
database
数仓
知识03:“自上而下“建设
数仓
和“自下而上“建设
数仓
的差异
对于初入
数仓
领域,学习
数仓
相关知识的新人来说,面临的一个困惑可能就是分不清"自上而下"建设
数仓
和"自下而上"建设
数仓
的差异,今天我对这两个理论进行一个简要的梳理,希望能够帮到大家。
维克先生
·
2023-01-14 16:41
数据仓库
数据仓库
数据库
数据挖掘
数仓
知识02:星型模型、雪花模型、星座模型
构建
数仓
的过程中,我们会接触到“星型模型”、“雪花模型”、“星座模型”的概念,对于在这个领域没有相关知识积累的人,可能会感觉到很困惑,今天就对这三个名词进行概念讲解,并简单说一下如何选择,期望大家看完能够有所帮助
维克先生
·
2023-01-14 16:41
数据仓库
数据仓库
数据库
database
数仓
知识06:什么是元数据?
1.概念元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(dataaboutdata),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。举几个简单例子:如果一本书是一个“数据",那么它的书名、封面、出版社、作者、总页码就是它的“元数据”。如果一个电影是一个“数据”,那么它的总时长、制作人、总导演、演员列表就是它的“元数据
维克先生
·
2023-01-14 16:41
数据仓库
数据仓库
数据库
etl
数仓
的主题和主题域应该怎么划分?
一、前言从上面的引言里面,我们其实可以知道主题在
数仓
建设里面绝对是很重要的一环,这的确是的。
数仓
在建设过程中,对数据的组织管理上,不仅仅要进行横向的分层,也需要根据业务情况进行纵向的主题域划分。
catydidd
·
2023-01-13 09:55
数据仓库
big
data
数据挖掘
数仓
(四):数据建模:如何构建主题域/面向主题的建模
数据仓库十大主题;TeraData金融数据模型数据仓库十大主题;TeraData金融数据模型_Jackie的博客-CSDN博客一、什么是主题
数仓
主题(Subject)是在较高层次上将企业信息系统中中某一分析对象的数据进行综合
四月天03
·
2023-01-13 09:24
数仓&数据中台
big
data
数据库
数仓
实践:浅谈 Kimball 维度建模
我们不管是基于Hadoop的数据仓库(如Hive),还是基于传统MPP架构的数据仓库(如Teradata),抑或是基于传统Oracle、MySQL、SQLServer关系型数据库的数据仓库,其实都面临如下问题:怎么组织数据仓库中的数据?怎么组织才能使得数据的使用最为方便和便捷?怎么组织才能使得数据仓库具有良好的可扩展性和可维护性?Kimball维度建模理论很好地回答和解决了上述问题。维度建模理论和
云 祁
·
2023-01-13 09:52
数据仓库
大数据
数据库
机器学习
人工智能
数据仓库系列(三)
数仓
分层的意义价值及如何设计数据分层
文章目录一、前言二、
数仓
建模三、
数仓
分层四、
数仓
的基本特征五、数据仓库用途六、
数仓
分层的好处七、如何分层一、前言现在说
数仓
,更多的会和数据平台或者基础架构搭上,已经融合到整个基础设施的搭建上。
云 祁
·
2023-01-13 09:21
#
----
数仓理论
数据仓库
大数据
数据分析
数仓
建设:数据域和主题域是什么关系?
为什么会有域的概念呢?首先来看看数据仓库的定义吧,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。主题域已经体现出来了主题域用于将数据集市按照分析视角进行划分,通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分至不同的主题域。当然,还有另外一种说法。数据仓库是面向主题(数据综合、归类并进行分析利用的抽象)的应用。数据仓库模型设计除横
云 祁
·
2023-01-13 09:20
数仓实践
数据仓库
大数据
java
python
人工智能
026 数据仓库
1、数据仓库
数仓
分层:ODS(OperationalDataStore)直接存放原始数据,DWD(DataWarehouseDetail)对数据进行清洗,DWS(DataWarehouseService
小哥哥咯
·
2023-01-12 19:00
大数据
数据仓库
数据库
数据挖掘
DAP
数仓
模型及数据集成过程说明
科技飞速发展的时代,企业信息化建设会越来越完善,越来越体系化,当今数据时代背景下更加强调、重视数据的价值,以数据说话,通过数据为企业提升渠道转化率、改善企业产品、实现精准运营,为企业打造自助模式的数据分析成果,以数据驱动决策。数据分析,无论是现在的互联网企业,还是传统型企业,都需要数据分析。公司需要决定一些发展方向或者推出某种新型产品时,就需要数据分析来将一些凌乱的数据进行整合汇总,从而判断出具体
数通畅联
·
2023-01-12 19:59
产品文档
数据仓库
数据分析
DAP组件外部服务开发说明
DAP数据分析平台主要是为了满足企业数据分析的需要而开发的一款产品,不同于一般的BI平台,DAP数据分析平台更侧重数据的聚合,平台预置有数据源注册、ODS注册与管理、
数仓
配置与数据聚合,从而实现企业业务数据的统一
数通畅联
·
2023-01-12 19:59
产品文档
大数据
数据治理
数据分析
DAP质量校验实现及数据应用说明
DAP数据分析平台就是通过企业中的数据构建
数仓
,把从业务系统中获取的数据进行高效采集、校验、计算等操作,将有价值的数据以可视化或者数据服务的形式进行展现或者提供出去,能够帮助企决策者可用通过分析出来
数通畅联
·
2023-01-12 19:57
产品文档
数据仓库
数据分析
数据筛选
企业的数据存储、处理与分析之道
12月30日,SelectDB携手阿里云共同举办云
数仓
专场沙龙,在线上沙龙中,来自SelectDB和阿里云的四位云计算领域专家,深入
数仓
的发展现状和未来趋势,结合企业级的真实场景落地案例,对技术和产品进行了详细的解读
·
2023-01-12 17:14
存储数据存储云计算阿里云
数据仓库的模型设计流程
数仓
模型设计的整体流程涉及需求调研、模型设计、开发测试、模型上线四个主要环节,且规范设计了每个阶段的输出与输入文档。
数仓大山哥
·
2023-01-12 12:29
数据仓库
数仓模型设计
设计流程
需求调研
黑马Hive+Spark离线
数仓
工业项目--项目总结
Grafana集成MySQL监控目标:实现Grafana集成MySQL监控实施选择模板导入报表项目总结:背景需求目标:掌握一站制造的项目背景及项目需求路径-step1:行业背景-step2:项目需求实施项目行业:工业互联网大数据:物联网项目名称:加油站服务商数据运营管理平台-参考别的项目:商业化大数据分析平台:神策公司产品:加油机设备服务公司客户:中石化,中石油,中海油、壳牌,道达尔……整体需求需
骨灰级收藏家
·
2023-01-12 11:26
hive
Spark
大数据
大数据
hive
spark
数仓工业项目
海量数据下查询慢、数据不一致难题如何解?看某游戏公司的技术实践
某游戏公司就面临这样的困境,在寻求解决方案的过程中,携手OceanBase搭建了存储与实时分析的一体化
数仓
架构,替换了ClickHouse,Hive。
OceanBase数据库官方博客
·
2023-01-11 22:27
客户案例
游戏
大数据
hive
阿里妈妈Dolphin智能计算引擎基于Flink+Hologres实践
作者:徐闻春(花名陌奈)阿里妈妈事业部技术专家本文整理至Flink+Hologres实时
数仓
Workshop北京站,点击查看视频回放>>>阿里妈妈数据引擎团队负责广告营销计算引擎Dophin的开发,目前支撑百万级广告主的营销产品
·
2023-01-11 11:19
人工智能flink算法
数据仓库基础知识(维度建模)
数仓
是一个面向主题、集成的、相对稳定、反应历史变化的数据集合,随着大数据技术的发展,其作用不再局限于决策分析、还可以为业务应用、审计、追踪溯源等多方面提供数据支撑,帮助企业完成数字化转型。
大数据点滴
·
2023-01-11 06:14
数据仓库
大数据面试
数据仓库
维度建模
建模模型
万亿数据秒级响应,Apache Doris 在360 数科实时
数仓
中的应用
作者|360数科中间件团队编辑整理|SelectDB作为以人工智能驱动的金融科技平台,360数科携手金融合作伙伴,为尚未享受到普惠金融服务的优质用户提供个性化的互联网消费金融产品,致力于成为连接用户与金融合作伙伴的科技平台。360数科旗下产品主要有360借条、360小微贷、360分期等,截止目前,已累计帮助141家金融机构为4300万用户提供授信服务、为2630万用户提供借款服务、单季促成交易金额
SelectDB技术团队
·
2023-01-10 12:23
大数据
数据库
数据分析
hadoop
hive
离线
数仓
搭建_14_DWT数据构建
文章目录15.0
数仓
搭建-DWT层15.1访客主题15.2用户主题15.3商品主题15.4优惠券主题15.5活动主题15.6地区主题15.7DWT层首日数据导入脚本15.8DWT层每日数据导入脚本上文访问
Fang GL
·
2023-01-09 15:50
#
离线数仓搭建
SQL
数据仓库
DWT层
大数据
离线
数仓
分析
离线
数仓
分析第一步、获取数据源(1)安装nginx(2)上传shop.html文件到/var/www/html目录(3)在浏览器通过192.168.1.11(自己的id)/shop.html访问网页产生日志
^ω^菁菁
·
2023-01-08 13:08
项目解析
flume
数据仓库
大数据之离线
数仓
项目搭建(一)
数据仓库搭建文章目录数据仓库搭建1、开启hadoop的权限验证2、在hive中创建数据库3、在hdfs中创建5个目录4、在linux中创建5个用户5、将目录权限赋值给不同用户6、修改hive权限7、在ods中创建表8、将四个表的数据上传到hdfs9、增加分区10、为每一个用户在hdfs中创建一个目录11、DWD层-位置融合表12、DWS层-停留表13、维表接入1、将维表数据导入到mysql--in
纯欲天花板_
·
2023-01-08 13:53
大数据
big
data
hive
hadoop
Clickhouse+Spark+Flink一体化实时
数仓
(开源)
Clickhouse+Spark+Flink一体化实时
数仓
(开源)模拟环境配置2核心4g腾讯云(spark默认只有300mb内存占用最大处理200w行数据)因cdh6已经收费并且不开源。
qq_37401291
·
2023-01-08 13:19
spark
big
data
clickonce
数据仓库
基于Flink+Hive+Kafka的流批一体
数仓
实践--01架构及思想
基于Flink+Hive+Kafka的流批一体
数仓
实践–01架构及思想最近阅读了李劲松老师的一篇文章,决定基于他的思想实践一把。为什么需要实时
数仓
?
问道2020
·
2023-01-08 12:01
flink
上一页
35
36
37
38
39
40
41
42
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他