E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
--------【数据仓库】
个推TechDay直播预告 | 8月24日晚19:30,实时数仓搭建保姆级教程开课
当下,企业的实时计算需求越来越高频,很多企业和组织选择建设实时
数据仓库
,以敏捷支撑实时报表分析、智能算法推荐、系统风险预警等多元业务场景需求。相比离线数仓,实时数仓有哪些特性?
·
2022-08-17 17:20
数据仓库
(07)数仓规范设计
规范设计在这里取《大数据之路:阿里巴巴大数据实践》中的定义,这里记录一下本人对这一块自己的理解。规范定义指以维度建模作为理论基础构建总线矩阵,划分和定义数据域、业务过程、维度、度量原子指标、修饰类型、修饰词、时间周期、派生指标。所谓的规范的定义,简单理解,如果把数据当作货物,那就是货物的分类,以及对应相关的属性,比如生产日期,某个原料的含量等,我们可以把相近或者相同货物,按照一定的规律,放在一起,
·
2022-08-17 14:05
kylin源码调试_Apache Kylin 命令注入漏洞调试分析(CVE-2020-1956)
原标题:ApacheKylin命令注入漏洞调试分析(CVE-2020-1956)1、前言ApacheKylin是一个开源的、分布式的分析型
数据仓库
,提供Hadoop/Spark之上的SQL查询接口及多维分析
weixin_39554290
·
2022-08-16 19:37
kylin源码调试
大数据入门-大数据技术概述(一)
目录大数据入门系列文章1.大数据入门-大数据是什么一、概念二、技术详解1.基础架构:Hadoop2.分布式文件系统:HDFS3.
数据仓库
:Hive4.存储引擎:Kudu5.分布式数据库:HBase6.实时框架
水坚石青
·
2022-08-15 09:34
大数据理论
大数据
实时大数据
hadoop
hdfs
hive
数仓4.0(
数据仓库
系统)--续集二
目录十:全流程调度10.1Azkaban部署10.2创建MySQL数据库和表10.3Sqoop导出脚本10.4全调度流程10.4.1数据准备10.4.2编写Azkaban工作流程配置文件10.4.3Azkaban多Executor模式下注意事项十:全流程调度10.1Azkaban部署这里就不部署了,可以参考我的其他文章,里面有专门的讲azkaban的部署。10.2创建MySQL数据库和表1)创建g
JiaXingNashishua
·
2022-08-13 18:09
数据库
sql
数仓4.0(三)------
数据仓库
系统(续)
四:数仓搭建-ODS层首先,先了解一下ODS层的任务即其功能:1)保持数据原貌不做任何修改,起到备份数据的作用。2)数据采用LZO压缩,减少磁盘存储空间。100G数据可以压缩到10G以内。3)创建分区表,防止后续的全表扫描,在企业开发中大量使用分区表。4)创建外部表。在企业开发中,除了自己用的临时表,创建内部表外,绝大多数场景都是创建外部表。4.1ODS层(用户行为数据)4.1.1创建日志表ods
JiaXingNashishua
·
2022-08-13 18:38
数据仓库
Hive实践 | Hive MetaStore 在快手遇到的挑战与优化
导读:快手基于Hive构建
数据仓库
,并把Hive的元数据信息存储在MySql中,随着业务发展和数据增长,一方面对于计算引擎提出了更高的要求,同时也给Hive元数据库的服务稳定性带来了巨大的挑战。
大数据技术架构
·
2022-08-13 12:58
大数据
分布式
数据库
hive
java
Hive MetaStore 在遇到的挑战与优化
导读:快手基于Hive构建
数据仓库
,并把Hive的元数据信息存储在MySql中,随着业务发展和数据增长,一方面对于计算引擎提出了更高的要求,同时也给Hive元数据库的服务稳定性带来了巨大的挑战。
浪尖聊大数据-浪尖
·
2022-08-13 12:57
大数据
分布式
数据库
java
hive
SQL on Hadoop在快手大数据平台的实践与优化
1、HIVEHIVE,一个
数据仓库
系统。它将数据结构映射到存储的数据中,通过SQL
Hadoop技术博文
·
2022-08-13 12:54
2022年系统分析师论文模拟题--押题
):论企业应用集成第3题(论文题):论软件开发模型及应用第4题(论文题):论软件系统测试及其应用第2套第1题(论文题):论信息系统项目的风险管理第2题(论文题):论软件的可靠性设计第3题(论文题):论
数据仓库
技术的应用第
喜欢猪猪
·
2022-08-12 07:39
软件工程
2021.4.26
数据仓库
之
数据仓库
分层设计与命名规范
复习:上节课从维度建模开始说的,维度建模是源自于数据集市,数据集市的概念是由拉尔夫金博尔提出来的,维度建模主要应用的领域是OLAP的领域,就是数据分析的场景,维度建模里面只有事实表和维度表,事实表就是现实世界中的操作型事件就放在事实表里面,事实表是由维度和度量来组成的,维度就是看数据的角度,他和主题的区别就主题是一个更大的角度,维度就是主题底下的某一些小的角度去观察度量,事实表中的每一个维度,都是
超可爱慕之
·
2022-08-11 21:13
大数据
Arctic开源!网易数帆×华泰证券,推动湖仓一体落地
现实的问题是,企业
数据仓库
存储、数据湖多种技术并存的局面将长期存在,如何才能摆脱技术协同的内耗,让大数据直通生产力的彼岸?
·
2022-08-11 20:24
开源数据库大数据
数据系统架构-10.数仓开发平台
数仓开发平台1.背景
数据仓库
是存储各种数据的仓库,形同于现实当中存储货物的仓库,不可避免的存在“乱放”、“不方便存取”、“浪费空间”等情况。
·
2022-08-11 15:36
大数据系统架构数据仓库
独家下载|《阿里云MaxCompute百问百答》 解锁SaaS模式云
数据仓库
尽在本电子手册!
简介:为了帮助MaxCompute用户更顺畅的使用产品,阿里云MaxCompute团队基于开发者社区和其他渠道总结归纳出相关功能点的常见问题,联合阿里云开发者社区共同打造了《阿里云MaxCompute百问百答》电子手册,希望可以给正在学习和使用MaxCompute产品的用户提供一些帮助\>>快来免费下载《阿里云MaxCompute百问百答》!<<为了帮助MaxCompute用户更顺畅的使用产品,阿
·
2022-08-11 13:58
详解hive常见表结构
RCFILE4.ORC5.Parquet6.总结5.表的行存储格式(rowformat)6.表属性1.压缩1.为什么要压缩2.压缩常见的格式3.压缩性能比较hive简介hive是基于Hadoop的一个
数据仓库
工具
·
2022-08-11 11:16
论数据湖与
数据仓库
一体化设计的必要性
数据湖概念数据湖最早是由Pentaho的创始人兼CTO,JamesDixon,在2010年10月纽约HadoopWorld大会上提出来的。当时Pentaho刚刚发布了Hadoop的第一个版本。在这样的一个大背景下,可以合理的猜测,当时JamesDixon提出数据湖的概念,是为了推广自家的Pentaho产品以及Hadoop的。Pentaho是个BI分析组件。当时的BI分析主要是基于数据市场(Data
咬定青松
·
2022-08-11 10:10
数据仓库
大数据
分布式
编程语言
hadoop
全网最全数据湖面试题
本文目录:一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与
数据仓库
的区别七、为什么要做数据湖?区别在于?
无精疯
·
2022-08-11 10:10
数据仓库
大数据
编程语言
hadoop
数据库
数据库,
数据仓库
, 数据集市,数据湖,数据中台
转载声明本文大量内容系转载自以下文章,有删改,并参考其他文档资料加入了一些内容:
数据仓库
和数据集市的区别作者:修鹏李出处:CSDN大数据:
数据仓库
和数据库的区别作者:南宫蓉出处:简书第一篇:
数据仓库
概述第二篇
Gauss松鼠会
·
2022-08-11 10:09
数据科学
大数据
数据库
数据结构
数据挖掘
深度学习
hive数据倾斜及优化
转化为MapReduce过程二、hive数据倾斜1.数据倾斜是什么2.数据倾斜的原因3.数据倾斜的底层原理三.hive优化3.1架构优化3.2参数优化3.3SQL优化前言Hive是基于Hadoop的一个
数据仓库
工具
小陈CZY
·
2022-08-10 13:03
hive
大数据
DataGrip
数据仓库
工具
DataGrip是
数据仓库
工具,数仓开发工具。
大数据小理
·
2022-08-10 13:32
大数据
数据仓库
数据仓库
hive
大数据
浅谈
数据仓库
架构设计
简介:简单的比较了一下数据中台架构与
数据仓库
、BI、DSS之间的关系,并对比了一下BillInmon和RalphKimball架构的差异。
·
2022-08-10 12:12
后端
Hive基于UDF进行文本分词
hive通过HiveServer2访问HiveSpringBoot连接Hive实现自助取数hive关联hbase表Hiveudf使用方法Hive基于UDF进行文本分词Hive窗口函数rownumber的用法
数据仓库
之拉链表本文大纲
忍者1
·
2022-08-08 21:18
大数据
hive
数据仓库
udf
【尚硅谷】电商数仓V4.0丨大数据
数据仓库
项目实战【学习记录】第二节
注意多表关联必须选择不为null的值进行关联需要函数:nvlcoalesce不使用的全外联的优化方法(全为数字类型的表可以这样做):将字段补零,union,然后分组聚合电商
数据仓库
系统第6章数仓搭建-DWD
在学习的王哈哈
·
2022-08-05 14:01
大数据项目
大数据
【尚硅谷】电商数仓V4.0丨大数据
数据仓库
项目实战【学习记录】第一节
【尚硅谷】电商数仓V4.0丨大数据
数据仓库
项目实战【学习记录】思考问题?1.为什么用hiveonspark来处理数据?2.什么是零点漂移问题,怎么解决?3.事实表有哪几类?4.维度建模的四个过程?
在学习的王哈哈
·
2022-08-05 14:31
大数据项目
大数据
构建实时数仓 - 当 TiDB 偶遇 Pravega
数据仓库
是公司数据发展到一定规模后必然需要提供的一种基础服务,也是“数据智能”建设的基础环节。早期数仓多为离线模式,主要处理的是T+1的
TiDB_PingCAP
·
2022-08-05 14:00
TiDB
User
Group
创作集
数据库
分布式
数据仓库
4.0
仅用于自己学习数据流程设计搭建版本选择Apache:运维麻烦,组件间兼容性需要自己调研CDH:国内使用最多的版本,6.32之前免费,从2021年开始收费。1个节点1万美元云服务选择阿里云的EMR(不用搭建平台和考虑兼容性问题),MaxCompute,DataWorks亚马逊云的EMR腾讯云EMR华为云EMR(市场份额少)物理机和云主机选择集群规模计算例子用户100万,每个用户平均100条数据,每条
编程爱上我吧
·
2022-08-05 14:00
大数据
大数据
数仓4.0(三)------
数据仓库
系统
目录一:数仓分层1.1为什么要分层1.2数据集市与
数据仓库
概念二:数仓理论2.1范式理论2.1.1范式概念2.1.2函数依赖2.2关系建模与维度建模2.2.1关系建模2.2.2维度建模2.3维度表和事实表
JiaXingNashishua
·
2022-08-05 14:58
数据仓库
直播预约丨流式湖仓服务,大数据的终结?这场开源发布会为你揭晓!
湖仓一体,顾名思义是数据湖和
数据仓库
优势的结合。随着企业数智化
·
2022-08-05 11:56
数据结构架构设计架构模式大数据
数据仓库
(06)数仓分层设计
目前主流的
数据仓库
分层大多为四层,也有五层的架构,这里介绍基本的四层架构。分别为数据贴源层(ods)、
数据仓库
明细层(dw)、多维明细层(dws)和数据集市层(dm)。
·
2022-08-04 19:22
数仓4.0(一)
目录一:
数据仓库
概念二:项目需求及架构设计2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.4服务器选型2.2.5集群规模2.2.6集群资源规划设计三
JiaXingNashishua
·
2022-08-04 15:08
数据仓库
数据挖掘
数据库
HashData云数仓元数据服务设计及实现
在提供高性能
数据仓库
业务的同时,HashData拥有更好的资源配
·
2022-08-04 11:08
数据库
Hadoop HDFS
数据仓库
技术
作为大数据领域的始祖,开源项目Hadoop已经诞生了近15年了,虽然今天大数据技术已经层出不穷,市场上涌现出了很多优秀的大数据架构和产品,但是Hadoop中的很多技术实现仍然有借鉴意义,本篇我们就来看下HDFS的架构与实现原理。如果让我们来设计一个分布式文件系统,我们会考虑到哪些点呢?1、首先,我们的应用场景是什么?是大数据集,处理超大文件。这里的超大文件通常是指百MB、设置数百TB大小的文件。目
Java云海.
·
2022-08-02 09:30
hadoop
hdfs
数据仓库
大数据开发写sql写烦了,要不要转?
瞅瞅方向:如数据分析师、大数据开发工程师、大数据分析师、数据开发工程师、大数据架构师、大数据运维工程师、ELT工程师、
数据仓库
工程师、大数据BI工程师等。丰富自己的能力,到处都机会。
embelfe_segge
·
2022-08-01 13:29
面试
学习路线
阿里巴巴
android
前端
后端
大数据开发写sql写烦了,要不要转?
瞅瞅方向:如数据分析师、大数据开发工程师、大数据分析师、数据开发工程师、大数据架构师、大数据运维工程师、ELT工程师、
数据仓库
工程师、大数据BI工程师等。丰富自己的能力,到处都机会。
m0_67403188
·
2022-07-31 10:38
面试
学习路线
阿里巴巴
android
前端
后端
软考 --- 数据库(6)
数据仓库
、分布式数据库
1.1
数据仓库
1.1.1概念是一个用以更好地支持企业(或组织)决策分析处理的数据集合;本质上和数据库一样,是长期储存在计算机内的、有组织、可共享的数据集合;1.1.2数据操控的数据特征
数据仓库
的数据是面向主题的
想写程序的毛毛虫
·
2022-07-31 07:43
数据库
数据库
HIve 和 MySQL 的区别 转载博客
由于SQL被广泛的应用在
数据仓库
中,因此,专门针对Hive的特性设计了类SQL的查询语言
z18829345207
·
2022-07-30 11:04
Hive跟MySQL的区别
Hive与mysql的区别
数据库可以用在OLTP的应用中,但是Hive是为
数据仓库
而设计的,清楚这一点,有助于从应用角度理解Hive的特性。Hive不适合用于联机事务处理(OLTP),也不提供实时查询功能。
鸭梨山大哎
·
2022-07-30 11:29
hive
mysql
hive
Hadoop总结
目录大数据概述Hadoop大数据开发平台资源管理YARN分布式文件系统HDFS非关系型数据库NOSQL分布式数据库HBASE批处理和MapReduce
数据仓库
查询分析和Hive基于内存计算的Spark流计算和
m0_67403240
·
2022-07-29 19:09
面试
学习路线
阿里巴巴
android
前端
后端
怎么理解数据网格(Data Mesh)
大约在20世纪80年代,组织开始通过使用专门用于决策支持的数据库来构建
数据仓库
解决方案。这些解决方案长期以来为组织提供了良好的服务。然而,随着业务的变化以及生成的数
·
2022-07-28 18:44
数据
Hadoop总结
目录大数据概述Hadoop大数据开发平台资源管理YARN分布式文件系统HDFS非关系型数据库NOSQL分布式数据库HBASE批处理和MapReduce
数据仓库
查询分析和Hive基于内存计算的Spark流计算和
m0_54853420
·
2022-07-28 11:51
面试
学习路线
阿里巴巴
android
前端
后端
如何设计好数仓?数仓到底是什么?---详解
数据仓库
1、什么是数仓?
一只楠喃
·
2022-07-28 10:17
大数据
数据仓库
数据挖掘
big
data
数据仓库
与数仓建模
1.
数据仓库
的概念
数据仓库
,英文名称为DataWarehouse,可简写为DW或DWH。
数据仓库
,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。
扫地增
·
2022-07-28 10:43
数据仓库
大数据
数据仓库
数仓建模
数据仓库
工程师面试题
什么是
数据仓库
?
lz_N_one
·
2022-07-28 10:40
sql语句
数据仓库
大数据
数仓建模—埋点设计与管理
数据仓库
系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系
数据仓库
之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—IDMapping
大数据技术派
·
2022-07-28 10:08
大数据
编程语言
数据库
python
机器学习
资料网址收藏
2014-6-17bluenight专栏-博客频道-CSDN.NETmysql查询语句(mysql学习笔记七)-H&K-博客园用于挖掘Web日志的
数据仓库
系统实现-微软ERP技术-搜狐博客Hadoop集群
cloud-2014
·
2022-07-27 21:22
网址收藏
一份来自清华的「Python+数据分析」学习资料,拿走不谢!
亦或是对数据库、
数据仓库
、数据挖掘工具了如指掌,分析任何量级的数据都不在话下?抱歉,这些被你对标为「高级」的能力,其实只是数据分析师的入门技能。想进阶为高级,你忽略了,技能之外,对业务能力的锤炼。
Sim1480
·
2022-07-27 07:12
可视化
数据分析
数据挖掘
编程语言
人工智能
数据仓库
:详解维度建模之事实表
每个
数据仓库
都包含一个或者多个事实数据表。其中可能包含业务销售数据,如现金登记事务所产生的数据,通常包含大量的行。
·
2022-07-25 19:55
数据
以“升舱”之名,谈谈云原生
数据仓库
AnalyticDB的核心技术
简介:企业级云原生
数据仓库
AnalyticDB提出了升舱计划,旨在承担和帮助金融、运营商、政务等行业构建下一代数据管理和分析系统,以应对不断增长的数据规模,业务数字化转型,和传统数仓替换升级需求。
·
2022-07-25 16:43
后端
如何构建面向海量数据、高实时要求的企业级OLAP数据引擎?
因此,字节跳动在ClickHouse引擎基础上重构了技术架构,实现了云原生环境的部署和运维管理、存储计算分离、多租户管理等能力,推出了云原生
数据仓库
ByteHouse。
·
2022-07-25 16:09
olapcli
独家下载|《阿里云MaxCompute百问百答》 解锁SaaS模式云
数据仓库
尽在本电子手册!
简介:为了帮助MaxCompute用户更顺畅的使用产品,阿里云MaxCompute团队基于开发者社区和其他渠道总结归纳出相关功能点的常见问题,联合阿里云开发者社区共同打造了《阿里云MaxCompute百问百答》电子手册,希望可以给正在学习和使用MaxCompute产品的用户提供一些帮助\>>快来免费下载《阿里云MaxCompute百问百答》!<<为了帮助MaxCompute用户更顺畅的使用产品,阿
·
2022-07-25 13:25
上一页
68
69
70
71
72
73
74
75
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他