E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
一文读懂数据仓库~~~
文章目录1、简介1.1、背景1.2、概念1.3、传统数据库与大数据仓库2、数据仓库、数据库、数据集市2.1、OLTP、OLAP2.2、数据仓库、数据库2.3、数据仓库、数据集市3
数仓
分层架构3.1、ODS
Provence°_博
·
2022-08-23 14:56
大数据
数据仓库
数据库
大数据
hive
基于 Flink x TiDB,智慧芽打造实时分析新方案
摘要:本文整理自智慧芽数据仓库架构师曲明星在FlinkForwardAsia2021实时
数仓
专场的分享。
·
2022-08-23 12:52
数仓
ETL
什么是数据仓库面向主题的集成的非易失的随时间变化的支持管理人员决策的数据集合数据仓库的几个概念OLAP&OLTPODS&数据集市维度粒度立方体及其操作星形模型雪花模型事实星座数据仓库与数据库对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序,重复处理面向主题域、分析应用、支持决策数据特性动态变化,按字段更新静态、不能直接更新、只能定时添加、刷新数据结构高
撸码的xiao摩羯
·
2022-08-23 07:00
编程语言
sql
用户画像构建方法调研和初步解决方案
这是一套偏大数据处理和实时
数仓
领域的解决方案,因为之前对这个领域并不熟悉,因此做了下前期的方案调研和初步的解决方案设计,本文将这个过程做个记录总结,希望能够对同样第一次接触这个领域,需要入门的同学有所帮助
fitzzhang
·
2022-08-22 09:47
用户画像
大数据
新一代分布式实时流处理引擎Flink入门实战之先导理论篇-上
基于JDK11的Flink最新版本v15.1,以官网最新文档入手,从为何选择使用Flink为引导线,介绍实时
数仓
的演变历程,对比Flink和Spark的差异和竞争力。
itxiaoshen
·
2022-08-19 23:00
基于 Impala 的高性能
数仓
建设实践之虚拟
数仓
导读:本文主要介绍网易数帆NDH在Impala上实现的虚拟
数仓
特性,包括资源分组、水平扩展、混合分组和分时复用等功能,可以灵活配置集群资源、均衡节点负载、提高查询并发,并充分利用节点资源。接着上一篇。
·
2022-08-19 17:15
大数据
简述:数据中台、数据仓库、数据湖
一、数据仓库:1、定义:数据仓库之父W.H.Inmon定义
数仓
:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile
傻子般白痴
·
2022-08-19 10:33
看阿里如何搞定实时
数仓
高吞吐实时写入与更新
看阿里如何搞定实时
数仓
高吞吐实时写入与更新导读:Hologres(原交互式分析)是阿里云自研的一站式实时
数仓
,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通
·
2022-08-18 18:05
后端
基于DAP
数仓
建设过程说明
科技飞速发展的时代,企业信息化建设会越来越完善,越来越体系化,当今数据时代背景下更加强调、重视数据的价值,以数据说话,通过数据为企业提升渠道转化率、改善企业产品、实现精准运营,为企业打造自助模式的数据分析成果,以数据驱动决策。DAP数据分析平台是公司的核心产品之一,主要是满足在企业进行数据分析的过程中,进行数据集中化管控、决策分析等需要。通过DAP数据分析平台可以有效支撑企业构建数据仓库,实现企业
数通畅联
·
2022-08-18 15:57
产品文档
数据分析
数据治理
构建数仓
DAP数据加工流程梳理
数据中台通常是按照主题进行数据分析,不同主题分析的数据各不相同,在分析过程中,需要明确数据的来源,通过获取到的数据将会从ODS到
数仓
—>
数仓
中维表和事实表
数通畅联
·
2022-08-18 15:25
产品文档
数据加工
数据分析
DAP数据分析平台
阿里云Hologres助力好未来网校实时
数仓
降本增效
客户介绍好未来(NYSE:TAL)是一家以智慧教育和开放平台为主体,在全球范围内服务公办教育,助力民办教育,探索未来教育新模式的科技教育公司。好未来的前身学而思成立于2003年,2010年在美国纽交所正式挂牌交易。好未来以“爱和科技让教育更美好”为使命,致力成为受尊敬的教育机构。当前,好未来已构建起从工具、平台到内容的多元化教育生态,满足从-1岁到24岁各年龄段人群个性化学习需求。目前,好未来旗下
阿里云大数据AI技术
·
2022-08-18 13:44
阿里云
大数据
云计算
湖仓一体,Hologres加速云数据湖DLF技术原理解析
Hologres(中文名交互式分析)是阿里云自研的一站式实时
数仓
,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析
阿里云大数据AI技术
·
2022-08-18 13:14
sql
大数据
分布式
技术专家说 | 如何基于 Spark 和 Z-Order 实现企业级离线
数仓
降本提效?
【点击了解更多
数仓
知识】市场的变幻,政策的完善,技术的革新……种种因素让我们面对太多的挑战,这仍需我们不断探索、克服。
·
2022-08-18 10:48
大数据
如何保障
数仓
数据质量?
有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它们帮助商家更合理、科学地运营店铺,同时也直接提供分析决策方法供商家使用。并且,每天在跑的底层任务和涉及的数据表已经达到千级别。面对如此庞大的数据体系,作为测试如何制定质量保障策略呢?这篇文章将从:1.有赞数据链路、2.数据层测试、3.应用层测试、4.后续规划这四个方面展开。一、有赞数据链路
000X000
·
2022-08-18 01:40
数据仓库
实战
数据分析
数据仓库
如何保障数仓数据质量?
数仓数据质量
详述Hive企业级开发优化
一、问题背景hive离线
数仓
开发,一个良好的数据任务,它的运行时长一般是在合理范围内的,当发现报表应用层的指标数据总是产出延迟,排查定位发现是有些任务执行了超10小时这样肯定是不合理的,此时就该想想如何优化数据任务链路
000X000
·
2022-08-18 01:10
数据仓库
实战
HIVE
hive
hadoop
数据仓库
详述Hive企业级开发优化
大数据技术面试-项目架构与涉及技术
第3章项目架构3.1
数仓
概念数据仓库的输入数据源和输出系统分别是什么?
000X000
·
2022-08-18 01:09
大数据
数据仓库
大数据技术面试
项目架构与涉及技术
实时
数仓
建设项目概述
本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时
数仓
与离线
数仓
的对比六个方面全面分享关于
数仓
的详细内容。
000X000
·
2022-08-18 01:08
实时计算
大数据
数据仓库
实时
数据仓库
技术专家说 | 如何基于 Spark 和 Z-Order 实现企业级离线
数仓
降本提效?
【点击了解更多大数据知识】市场的变幻,政策的完善,技术的革新……种种因素让我们面对太多的挑战,这仍需我们不断探索、克服。今年,网易数帆将持续推出新栏目「金融专家说」「技术专家说」「产品专家说」等,聚集数帆及合作伙伴的数字化转型专家天团,聚焦大数据、云原生、人工智能等科创领域,带来深度技术解读及其
网易数帆
·
2022-08-17 19:00
个推TechDay直播预告 | 8月24日晚19:30,实时
数仓
搭建保姆级教程开课
相比离线
数仓
,实时
数仓
有哪些特性?如何进行实时
数仓
的技术选型?[**个推TechDay“治数训练营”系列直播课第二期来了!
·
2022-08-17 17:20
数据仓库(07)
数仓
规范设计
规范设计在这里取《大数据之路:阿里巴巴大数据实践》中的定义,这里记录一下本人对这一块自己的理解。规范定义指以维度建模作为理论基础构建总线矩阵,划分和定义数据域、业务过程、维度、度量原子指标、修饰类型、修饰词、时间周期、派生指标。所谓的规范的定义,简单理解,如果把数据当作货物,那就是货物的分类,以及对应相关的属性,比如生产日期,某个原料的含量等,我们可以把相近或者相同货物,按照一定的规律,放在一起,
·
2022-08-17 14:05
三端一体计算方案:Unify SQL Engine
简介:本文将介绍
数仓
建设过程中面对三种计算模式,较低的研发效率、不可控的数据质量,以及臃肿数据接口服务的困境的解决方案。
·
2022-08-15 18:07
后端
数仓
4.0笔记——
数仓
环境搭建——Hive on Spark
1Hive环境搭建---HiveonSpark配置注意:官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive3.1.2支持的Spark版本是2.4.5,所以需要我们重新编译Hive3.1.2版本。[zhang@hadoop102~]$cd/opt/module/hive/lib/[zhang@hadoop102lib]$ls-al|grepspark现在就可以正式部署Hi
丝丝呀
·
2022-08-13 18:47
hive
spark
大数据
数仓
4.0(数据仓库系统)--续集二
目录十:全流程调度10.1Azkaban部署10.2创建MySQL数据库和表10.3Sqoop导出脚本10.4全调度流程10.4.1数据准备10.4.2编写Azkaban工作流程配置文件10.4.3Azkaban多Executor模式下注意事项十:全流程调度10.1Azkaban部署这里就不部署了,可以参考我的其他文章,里面有专门的讲azkaban的部署。10.2创建MySQL数据库和表1)创建g
JiaXingNashishua
·
2022-08-13 18:09
数据库
sql
数仓
4.0(三)------数据仓库系统(续)
四:
数仓
搭建-ODS层首先,先了解一下ODS层的任务即其功能:1)保持数据原貌不做任何修改,起到备份数据的作用。2)数据采用LZO压缩,减少磁盘存储空间。100G数据可以压缩到10G以内。
JiaXingNashishua
·
2022-08-13 18:38
数据仓库
数据系统架构-10.
数仓
开发平台
数仓
开发平台1.背景数据仓库是存储各种数据的仓库,形同于现实当中存储货物的仓库,不可避免的存在“乱放”、“不方便存取”、“浪费空间”等情况。
·
2022-08-11 15:36
大数据系统架构数据仓库
StarRocks 在 58 集团全业务线的深度实践
随着业务的高速发展,越来越多的分析需求涌现,例如:安全分析、商业智能分析、
数仓
报表等。这些场景的数据体量都较大,对数据分析平台提出了很高的要求。为了满足这些分析型业务的
·
2022-08-11 15:05
数据库
数据库, 数据仓库, 数据集市,数据湖,数据中台
数据仓库和数据库的区别作者:南宫蓉出处:简书第一篇:数据仓库概述第二篇:数据库关系建模作者:穆晨出处:CNBLOS数据仓库、数据湖、数据集市、和数据中台的故事作者:Murkey学习之旅出处:csdn数据中台和
数仓
的关系作者
Gauss松鼠会
·
2022-08-11 10:09
数据科学
大数据
数据库
数据结构
数据挖掘
深度学习
新零售项目及离线
数仓
核心面试,,220807,,
新零售=线上下单+线下配送售后叮咚买菜、盒马鲜生、鲜丰、百果园、朴朴、每日优鲜业务流程类比与,外卖平台,,两个项目选spark即席查询???画技术架构图,,???可以加上软件版本嘛取决于简历项目时间,,至少前一年,,cdh6,18,19年出来的,事实指标值的分类可累加、半可累加、不可累加UV半可累加,时间维度不可累加,地区维度可累加uv重复(1个用户三十天都访问,只统计1个)比率类不可累加如果不可
啊六六六
·
2022-08-10 13:32
Python
大数据
DataGrip数据仓库工具
DataGrip是数据仓库工具,
数仓
开发工具。
大数据小理
·
2022-08-10 13:32
大数据
数据仓库
数据仓库
hive
大数据
StarRocks on AWS 回顾 | Data Everywhere 系列活动深圳站圆满结束
2022/7/30DataEverywhere深圳想到实时
数仓
,很多人的第一印象就是架构复杂、操作困难、维护成本高。
·
2022-08-10 12:14
数据库
百度用户产品流批一体的实时
数仓
实践
作者|郑德来导读:本文主要介绍如何基于流批一体的技术架构构建实时
数仓
,在严格的资源成本限制下,满足业务对于数据时效性、准确性的需求。
·
2022-08-10 12:42
大数据数据库
数仓
4.0笔记——
数仓
环境搭建—— DataGrip准备和数据准备
1DataGrip准备1.1启动HiveServer2[zhang@hadoop102hive]$hiveserver21.2配置DataGrip连接启动DataGrip,创建连接配置连接属性所有属性配置,和Hive的beeline客户端配置一致即可。初次使用,配置过程会提示缺少JDBC驱动,按照提示下载即可。测试时,根据提示下载驱动。测试使用创建数据库gmall,并观察是否创建成功。注意当前使用
丝丝呀
·
2022-08-05 14:36
hive
大数据
hadoop
数仓
4.0笔记——
数仓
建模
1
数仓
分层
数仓
命名规范ODS层命名为ods_表名DIM层命名为dim_表名DWD层命名为dwd_表名DWS层命名为dws_表名DWT层命名为dwt_表名ADS层命名为ads_表名临时表命名为tmp_表名脚本命名数据源
丝丝呀
·
2022-08-05 14:06
数据库
sql
mysql
离线
数仓
-伪分布虚拟机 (所有组件部署完成,全流程运行成功)(
数仓
4.0-2.0,CDH)
离线
数仓
-伪分布虚拟机(所有组件部署完成,全流程运行成功)(
数仓
4.0-2.0,CDH)所有组件部署好的镜像下载(在下面),仅供参考学习。
《@书山有径%》
·
2022-08-05 14:05
大数据
数据仓库
linux
大数据
尚硅谷离线
数仓
4.0镜像以及项目执行流程(3个虚拟机)
与尚硅谷项目完全一致,用户是atguigu,所有密码设置为root其中IP是192.168.10.xxx,例如:192.168.10.102运行前一定要设置好网络由于时间有限,项目只做到可视化展示部分,运行前看一下文档里面有脚本的全流程为了方便,只写了Azkaban的启动脚本数据是生成的日期为2020-06-14的数据,目前2020-06-16的数据已经装载完。
程序员颜柒
·
2022-08-05 14:32
hive
hadoop
spark
flume
kafka
大数据电商离线
数仓
项目-下篇
上一篇:电商
数仓
系统1文章目录第5章
数仓
搭建-DWS层5.1业务术语5.2系统函数5.2.1nvl函数5.2.2日期处理函数5.2.3复杂数据类型定义5.3DWS层5.3.1每日设备行为5.3.2每日会员行为
工藤-新二
·
2022-08-05 14:02
离线数仓
数据仓库
hive
大数据
数仓
(五):数据建模--ER模型/维度建模,概念模型/逻辑模型/ 物理模型
一、
数仓
建模的目标访问性能:能够快速查询所需的数据,减少数据I/O。数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。
四月天03
·
2022-08-05 14:01
Hive
数仓&数据中台
大数据
数据仓库
【尚硅谷】电商
数仓
V4.0丨大数据数据仓库项目实战【学习记录】第二节
注意多表关联必须选择不为null的值进行关联需要函数:nvlcoalesce不使用的全外联的优化方法(全为数字类型的表可以这样做):将字段补零,union,然后分组聚合电商数据仓库系统第6章
数仓
搭建-DWD
在学习的王哈哈
·
2022-08-05 14:01
大数据项目
大数据
【尚硅谷】电商
数仓
V4.0丨大数据数据仓库项目实战【学习记录】第一节
【尚硅谷】电商
数仓
V4.0丨大数据数据仓库项目实战【学习记录】思考问题?1.为什么用hiveonspark来处理数据?2.什么是零点漂移问题,怎么解决?3.事实表有哪几类?4.维度建模的四个过程?
在学习的王哈哈
·
2022-08-05 14:31
大数据项目
大数据
数仓
4.0总结
文章目录
数仓
4.0总结整体架构采集flume用法flume自定义拦截器flume配置文件sqoop用法碰到的问题hive无法使用load导入hdfs采集的数据vim本质是创建新文件hive仓库ODSDIMDWDDWSDWTADS
CODE20220318
·
2022-08-05 14:01
离线数仓
python
java
大数据
构建实时
数仓
- 当 TiDB 偶遇 Pravega
早期
数仓
多为离线模式,主要处理的是T+1的
TiDB_PingCAP
·
2022-08-05 14:00
TiDB
User
Group
创作集
数据库
分布式
数仓
4.0(二)------ 业务数据采集平台
目录一:电商业务简介1.1电商业务流程1.2电商常识二:业务数据采集模块2.1安装MySQL及配置2.2业务数据生成2.2.1连接Mysql以及建表2.2.2生成业务数据2.3安装Sqoop2.3.1安装2.3.2修改配置文件2.3.3拷贝JDBC驱动2.3.4验证Sqoop2.3.5测试Sqoop是否能够成功连接数据库2.3.6Sqoop基本使用2.4同步策略2.4.1全量同步策略2.5业务数据
JiaXingNashishua
·
2022-08-05 14:29
数据库
数据仓库
hive
数仓
4.0(三)------数据仓库系统
目录一:
数仓
分层1.1为什么要分层1.2数据集市与数据仓库概念二:
数仓
理论2.1范式理论2.1.1范式概念2.1.2函数依赖2.2关系建模与维度建模2.2.1关系建模2.2.2维度建模2.3维度表和事实表
JiaXingNashishua
·
2022-08-05 14:58
数据仓库
数据仓库(06)
数仓
分层设计
目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构。分别为数据贴源层(ods)、数据仓库明细层(dw)、多维明细层(dws)和数据集市层(dm)。 下面是架构图: 数据分层的目的是:减少重复计算,避免烟囱式开发,节省计算资源,靠上层次,越对应用友好,也对用户友好,希望大部分(80%以上)的需求,都用DWS,DW的表来支持就行,所以ODS层数据不能被DM层任务引用,需要
·
2022-08-04 19:22
阿里云云原生一体化
数仓
--数据安全能力解读
简介:云原生一体化
数仓
数据安全能力基于MaxCompute与DataWorks的组合能力,包括数据分级机制、敏感数据识别算法、用户权限级别和数据安全级别自动映射、数据脱敏、审批和权限回收流程、审计机制、
·
2022-08-04 18:48
后端
IDC:阿里云稳居中国大数据平台公有云市场第一位
纵观2021全年,中国大数据平台公有云服务市场实现了53.8%的快速增长,实时
数仓
、湖仓一体、流批一体、大数据与AI一体化等技术成为市场关注重点。
·
2022-08-04 16:32
大数据云计算阿里云
数仓
4.0(一)
目录一:数据仓库概念二:项目需求及架构设计2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.4服务器选型2.2.5集群规模2.2.6集群资源规划设计三:数据生成模块3.1目标数据3.1.1页面3.1.2事件3.1.3曝光3.1.4启动3.1.5错误3.2数据埋点3.2.1主流埋点方式(了解)3.2.2埋点数据上报时机3.2.3埋点数据日志结构
JiaXingNashishua
·
2022-08-04 15:08
数据仓库
数据挖掘
数据库
HashData云
数仓
元数据服务设计及实现
HashData云
数仓
作为一款面向多种数据分析场景的高性能分析型数据库,采用元数据、计算和存储三者分离的架构,能够更好地适应跨集群、跨中心以及跨云中心的数据访问。
·
2022-08-04 11:08
数据库
大数据开发选择之技术路线 or 业务路线?
如果是
数仓
开发,那么会偏向业务,会涉及维度建模,ETL,报表开发等等。
数仓
开发又分传统的离线
数仓
和实时
数仓
。1)离线
数仓
的话写HiveSQL或者SparkSQL比较多,但也不是单纯的写写SQ
sheep8521
·
2022-07-31 10:10
技术路线
【SQL】SQL的基础语法
数仓
建模过程中用到Hive,其实也是通过写类SQL的语句,通过底层的引擎将其翻译成MapReduce程序,减少了程序员的开发量。除此之外,Spark、Flink等计算框架也支持使用SQL来实现查询。
和风与影
·
2022-07-29 19:51
大数据
SQL
sql
mysql
上一页
44
45
46
47
48
49
50
51
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他