E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
Hive优化的基本方法
概念首先说一个老生常谈的但是很重要的问题,Hive不是
数仓
!!!Hive不是
数仓
!!!Hive不是
数仓
!!!重要的事情说三遍。
数仓
是一个抽象的理论性的概念,Hive只是实现
数仓
建设的工具之一。
Gospelanswer
·
2017-12-04 23:35
hadoop
优化
hive
sql
数据技术
压力测试软件入门基础
作为一个菜鸟,突然说要做一个实时
数仓
的压力测试,蒙蔽呀,只有度娘可以拯救我!!!下面是我整理的一点测试基础知识,希望可以帮到大家!
Simon_my
·
2017-12-04 22:58
测试
centos7下完全式hadoop集群搭建
初入
数仓
坑,搭建hadoop集群折腾了几天险些让我崩溃,好歹是让我看到了结果:当然虽然过程坑了点耗费了相当心力,但好处是对配置的理解更明白了些,当然流程更是烂熟于心了。
Saint-at-home
·
2017-11-08 17:02
服务器
Logtail技术分享(一) : Polling + Inotify 组合下的日志保序采集方案
包括硬盘上的历史数据,用户网页的点击,传感器等等存储:以各种适合计算的模式集中式存储数据,其中既包含大规模的存储系统(例如
数仓
),也有例如临时的存储(例如Kafka类消息中间件
hanningxue
·
2017-09-14 14:15
HIVE
数仓
ETL之MongoDB
前状:平台目前还没有完善的mongodb数据同步方式,在拉取公司埋点系统countly数据时,起初通过编写MapReduce读取mongodb数据转化成BSONObject写入到HDFS,在hive中创建映射表,使得BSON格式数据可以通过hivesql方式进行查询通过这种方式存在弊端:1.执行MapReduce耗时太长,这里一部分是网络原因,还有一部分是起了太多的map任务,也就是将任务切分的过
流水无心恋落花
·
2017-09-10 20:46
数据仓库
特征工程:机器学习中的特征与标签nlp化
一种大大降低模型开发及
数仓
建设人力成本,同时提高模型精度的解决方案。在机器学习科研领域中,往往可以看到的是在规整及缺失率低特征的数据集下,固定的生产线解决一个特定的问题。
Ying_zz
·
2017-09-10 17:51
机器学习
自然语言
神经网络
数据仓库
特征工程
机器学习
历程剖析:阿里云自研HTAP数据库的技术发展之路
阿里云高级数据库技术专家队皓庭分享了高度兼容MySQL,并且能免去传统
数仓
ETL过程实现数据分析,同时支持高并发、大吞吐量的在线事务处理的PB级数据存储数据库是如何实现的,帮助大家了解了同时支持海量数据在线事务
Mc顽固份子
·
2017-09-05 15:11
大数据
阿里云
5个保护MySQL数据仓库的小技巧
任何
数仓
安全方面的妥协都会给入侵者或网络罪犯以可乘之机,造成销售、营销、客户信息等业务数据的毁坏泄露。今年爆发的WannaCry
CSDN郭芮
·
2017-08-24 11:37
hive中拉链表
一般在
数仓
中通过增加begin_da
奔跑-起点
·
2017-07-17 12:11
hive
Hive
数仓
导入导出
Hive
数仓
导入导出,分隔符移除点击此处添加图片说明文字首先看下导出吧,我们准备sql。那么首先我们看到,两张表给运营提供数据。另一方面,让我们看看hive的强大。
大壮vip
·
2017-07-06 14:20
大数据
hive
大数据之
数仓
平台设计思路01
对于大数据来说,
数仓
的作用不言而喻,承载着整个公司全业务线的数据,现阶段,在hadoop上的
数仓
主要是用来解决企业内部数据的分析,尤其是各种各样的统计分析报表。
hxiao1317098
·
2017-06-23 12:37
数仓
数仓
相关文章索引(1)
基本常识数据仓库的源数据类型数据仓库的多维数据模型BI数据仓库数据分层即席查询算法架构浅谈数据仓库的基本架构【好文!】阿里巴巴数据产品经理工作总结篇大数据环境下互联网行业数据仓库/数据平台的架构之漫谈大数据平台任务调度与监控系统数据仓库架构:星形模型PK雪花形模型
BlackEnn
·
2017-06-16 15:00
大数据
数仓
数仓
相关文章索引(1)
基本常识数据仓库的源数据类型数据仓库的多维数据模型BI数据仓库数据分层即席查询算法架构浅谈数据仓库的基本架构【好文!】阿里巴巴数据产品经理工作总结篇大数据环境下互联网行业数据仓库/数据平台的架构之漫谈大数据平台任务调度与监控系统数据仓库架构:星形模型PK雪花形模型
BlackEnn
·
2017-06-16 15:00
大数据
数仓
HAWQ取代传统
数仓
实践(十九)——OLAP
一、OLAP简介1.概念 OLAP是英文是On-LineAnalyticalProcessing的缩写,意为联机分析处理。此概念最早由关系数据库之父E.F.Codd于1993年提出。OLAP允许以一种称为多维数据集的结构,访问业务数据源经过聚合和组织整理后的数据。以此为标准,OLAP作为单独的一类技术同联机事务处理(On-LineTransactionProcessing,OLTP)得以明显
wzy0623
·
2017-06-14 13:00
HAWQ取代传统
数仓
实践(十八)——层次维度
一、层次维度简介 大多数维度都具有一个或多个层次。例如,示例数据仓库中的日期维度就有一个四级层次:年、季度、月和日。这些级别用date_dim表里的列表示。日期维度是一个单路径层次,因为除了年-季度-月-日这条路径外,它没有任何其它层次。为了识别数据仓库里一个维度的层次,首先要理解维度中列的含义,然后识别两个或多个列是否具有相同的主题。例如,年、季度、月和日具有相同的主题,因为它们都是关于日
wzy0623
·
2017-06-12 17:00
HAWQ取代传统
数仓
实践(十七)——事实表技术之累积度量
累积度量指的是聚合从序列内第一个元素到当前元素的数据,例如统计从每年的一月到当前月份的累积销售额。本篇说明如何在销售订单示例中实现累积月销售数量和金额,并对数据仓库模式、初始装载、定期装载做相应地修改。累积度量是半可加的,而且它的初始装载要复杂一些。一、建立累积度量事实表 执行下面的脚本创建month_end_balance_fact事实表,用来存储销售订单金额和数量的月累积值。se
wzy0623
·
2017-06-09 18:00
HAWQ取代传统
数仓
实践(十六)——事实表技术之迟到的事实
一、迟到的事实简介 数据仓库通常建立于一种理想的假设情况下,这就是数据仓库的度量(事实记录)与度量的环境(维度记录)同时出现在数据仓库中。当同时拥有事实记录和正确的当前维度行时,就能够从容地首先维护维度键,然后在对应的事实表行中使用这些最新的键。然而,各种各样的原因会导致需要ETL系统处理迟到的事实数据。例如,某些线下的业务,数据进入操作型系统的时间会滞后于事务发生的时间。再或者出现某些极端
wzy0623
·
2017-06-08 17:00
????????OSS???_+_??????
阅读原文请点击:http://click.aliyun.com/m/19148/摘要:看到标题,可能有用户要问:OSS不是用来存图片、视频、及文件的吗,还可以在上面建表、
数仓
?
????666
·
2017-06-07 18:27
hadoop
Access
Facebook
???
糖豆数据仓库模型
先给出糖豆
数仓
模型,给出糖豆
数仓
的理论依据;再在此基础上根据糖豆各业务线的实际需求,给出各个业务
VentLam
·
2017-06-06 15:24
HAWQ取代传统
数仓
实践(十五)——事实表技术之无事实的事实表
一、无事实事实表简介 在多维数据仓库建模中,有一种事实表叫做“无事实的事实表”。普通事实表中,通常会保存若干维度外键和多个数字型度量,度量是事实表的关键所在。然而在无事实的事实表中没有这些度量值,只有多个维度外键。表面上看,无事实事实表是没有意义的,因为作为事实表,毕竟最重要的就是度量。但在数据仓库中,这类事实表有其特殊用途。无事实的事实表通常用来跟踪某种事件或者说明某些活动的范围。
wzy0623
·
2017-06-06 11:00
HAWQ取代传统
数仓
实践(十四)——事实表技术之累积快照
一、累积快照简介 累积快照事实表用于定义业务过程开始、结束以及期间的可区分的里程碑事件。通常在此类事实表中针对过程中的关键步骤都包含日期外键,并包含每个步骤的度量,这些度量的产生一般都会滞后于数据行的创建时间。累积快照事实表中的一行,对应某一具体业务的多个状态。例如,当订单产生时会插入一行。当该订单的状态改变时,累积事实表行被访问并修改。这种对累积快照事实表行的一致性修改在三种类型的事实表(
wzy0623
·
2017-06-05 14:00
存储与计算分离:OSS构建表_+_计算引擎对接
阅读原文请点击:[url]http://click.aliyun.com/m/19148/[/url]摘要:看到标题,可能有用户要问:OSS不是用来存图片、视频、及文件的吗,还可以在上面建表、
数仓
?
阿里巴巴_晓神
·
2017-06-05 14:11
存储与计算分离:OSS构建表_+_计算引擎对接
阅读更多阅读原文请点击:http://click.aliyun.com/m/19148/摘要:看到标题,可能有用户要问:OSS不是用来存图片、视频、及文件的吗,还可以在上面建表、
数仓
?
骑猪逛街666
·
2017-06-05 14:00
access
facebook
互联网
hadoop
存储与计算分离:OSS构建表_+_计算引擎对接
阅读更多阅读原文请点击:http://click.aliyun.com/m/19148/摘要:看到标题,可能有用户要问:OSS不是用来存图片、视频、及文件的吗,还可以在上面建表、
数仓
?
骑猪逛街666
·
2017-06-05 14:00
access
facebook
互联网
hadoop
HAWQ取代传统
数仓
实践(十三)——事实表技术之周期快照
一、周期快照简介 周期快照事实表中的每行汇总了发生在某一标准周期,如一天、一周或一月的多个度量。其粒度是周期性的时间段,而不是单个事务。周期快照事实表通常包含许多数据的总计,因为任何与事实表时间范围一致的记录都会被包含在内。在这些事实表中,外键的密度是均匀的,因为即使周期内没有活动发生,通常也会在事实表中为每个维度插入包含0或空值的行。 周期快照是在一个给定的时间对事实表进行一段时期的
wzy0623
·
2017-06-02 15:00
HAWQ取代传统
数仓
实践(十二)——维度表技术之分段维度
一、分段维度简介 在客户维度中,最具有分析价值的属性就是各种分类,这些属性的变化范围比较大。对某个个体客户来说,可能的分类属性包括:性别、年龄、民族、职业、收入和状态,例如,新客户、活跃客户、不活跃客户、已流失客户等。在这些分类属性中,有一些能够定义成包含连续值的分段,例如年龄和收入这种数值型的属性,天然就可以分成连续的数值区间,而象状态这种描述性的属性,可能需要用户根据自己的实际业务仔细定
wzy0623
·
2017-06-01 11:00
HAWQ取代传统
数仓
实践(十一)——维度表技术之维度合并
有一种合并维度的情况,就是本来属性相同的维度,因为某种原因被设计成重复的维度属性。例如,在销售订单示例中,随着数据仓库中维度的增加,我们会发现有些通用的数据存在于多个维度中。客户维度的客户地址相关信息、送货地址相关信息里都有邮编、城市和省份。下面说明如何把客户维度里的两个邮编相关信息合并到一个新的维度中。一、修改数据仓库表结构 为了合并维度,需要改变数据仓库表结构。图1显示了修改后的
wzy0623
·
2017-05-31 15:00
HAWQ取代传统
数仓
实践(十)——维度表技术之杂项维度
一、什么是杂项维度 简单地说,杂项维度就是一种包含的数据具有很少可能值的维度。事务型商业过程通常产生一系列混杂的、低基数的标志位或状态信息。与其为每个标志或属性定义不同的维度,不如建立单独的将不同维度合并到一起的杂项维度。这些维度,通常在一个模式中标记为事务型概要维度,一般不需要所有属性可能值的笛卡尔积,但应该至少包含实际发生在源数据中的组合值。 例如,在销售订单中,可能存在有很多离散
wzy0623
·
2017-05-27 13:00
美团点评酒旅数据仓库建设实践
我们把它们简称为三代
数仓
模型层次。在
美团点评技术团队
·
2017-05-27 04:00
美团
数据仓库
建设
美团点评酒旅数据仓库建设实践
我们把它们简称为三代
数仓
模型层次。在
美团点评技术团队
·
2017-05-26 20:00
数据仓库
建设
HAWQ取代传统
数仓
实践(九)——维度表技术之退化维度
退化维度技术减少维度的数量,简化维度数据仓库模式。简单的模式比复杂的更容易理解,也有更好的查询性能。 有时,维度表中除了业务主键外没有其它内容。例如,在本销售订单示例中,订单维度表除了订单号,没有任何其它属性,而订单号是事务表的主键,这种维度就是退化维度。业务系统中的主键通常是不允许修改的。销售订单只能新增,不能修改已经存在的订单号,也不会删除订单记录。因此订单维度表也不会有历史数据
wzy0623
·
2017-05-26 13:00
HAWQ取代传统
数仓
实践(八)——维度表技术之角色扮演维度
单个物理维度可以被事实表多次引用,每个引用连接逻辑上存在差异的角色维度。例如,事实表可以有多个日期,每个日期通过外键引用不同的日期维度,原则上每个外键表示不同的日期维度视图,这样引用具有不同的含义。这些不同的维度视图具有唯一的代理键列名,被称为角色,相关维度被称为角色扮演维度。 当一个事实表多次引用一个维度表时会用到角色扮演维度。例如,一个销售订单有一个是订单日期,还有一个请求交付日
wzy0623
·
2017-05-25 15:00
HAWQ取代传统
数仓
实践(七)——维度表技术之维度子集
有些需求不需要最细节的数据。例如更想要某个月的销售汇总,而不是某天的数据。再比如相对于全部的销售数据,可能对某些特定状态的数据更感兴趣等。此时事实数据需要关联到特定的维度,这些特定维度包含在从细节维度选择的行中,所以叫维度子集。维度子集比细节维度的数据少,因此更易使用,查询也更快。 有时称细节维度为基本维度,维度子集为子维度,基本维度表与子维度表具有相同的属性或内容,称这样的维度表具
wzy0623
·
2017-05-24 14:00
HAWQ取代传统
数仓
实践(六)——增加列
业务的扩展或变化是不可避免的,尤其像互联网行业,需求变更已经成为常态,唯一不变的就是变化本身,其中最常碰到的扩展是给一个已经存在的表曾加列。 以销售订单为例,假设因为业务需要,在操作型源系统的客户表中增加了送货地址的四个字段,并在销售订单表中增加了销售数量字段。由于数据源表增加了字段,数据仓库中的表也要随之修改。本篇说明如何在客户维度表和销售订单事实表上添加列,并在新列上应用SCD2
wzy0623
·
2017-05-23 17:00
当你学会抄菜的时候,你就学会了大数据
最近在学习
数仓
跟BI,突然发现,结合自己所学会抄的菜。试着把学过的大数据重新理解一番,希望各位都能来一起讨论,共同进步。
bingyang87628
·
2017-05-09 11:08
锅碗瓢盆
抽油烟机
大冬瓜
大数据
干货:解码OneData,阿里的
数仓
之路
摘要:据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的“新能源”,变革我们的生产,影响我们生活。当我们面对如此庞大的数据之时,如果我们不能有序、有结构的进行分类组织免费开通大数据服务:https://www.aliyun.com/product/odps据IDC报告
xiaoL_clo
·
2017-04-26 10:29
工作
一个hive
数仓
清洗小案例:单词统计
【需求】统计某一款产品的用户中,分别有多少用户是同一个年龄。例如25岁的有100人,60岁的有20人。//我已提前在hive数据仓库中建表customers,也已经把本地文件加载到了hive仓库里hive>desccustomers;OKidintnamestringageintTimetaken:0.044seconds,Fetched:3row(s)hive>select*fromcustom
Tony_仔
·
2017-03-24 12:01
大数据
企业大数据平台下
数仓
建设思路
http://click.aliyun.com/m/13927/免费开通大数据服务:https://www.aliyun.com/product/odps介然(李金波),阿里云高级技术专家,现任阿里云大数据
数仓
解决方案总架构师
云栖技术
·
2017-03-15 10:07
互联网
解决方案
软件开发
干货:解码OneData,阿里的
数仓
之路。
原文链接:http://click.aliyun.com/m/13928/免费开通大数据服务:https://www.aliyun.com/product/odps据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的“新能源”,变革我们的生产,影响我们生活。当我们面对如
云栖技术
·
2017-03-15 10:31
秘密武器
成本
阿里
解读基于数加的大数据仓库解决方案
原文链接:http://click.aliyun.com/m/13958/数加是阿里云为企业大数据实施提供的一套完整的一站式大数据解决方案,覆盖了企业
数仓
、商业智能、机器学习、数据可视化等领域,助力企业在
云栖技术
·
2017-03-15 10:03
解决方案
网络安全
阿里云
hive 中的拉链表 1
一般在
数仓
中通过增加
weixin_34293911
·
2017-03-01 15:52
hive 中的拉链表 1
一般在
数仓
中通过增加
jackwxh
·
2017-03-01 15:52
空间
历史
拉链
2.20盘前:被套后的解救方法
在深套、超跌之后,多
数仓
位宜保持不变,只选择一部分仓位实施操作,等大盘和个股跳水时“果断行动”买进目标个股,当反弹时再卖掉补进的仓位。这样,如果做对了,可以摊低成本,减少亏损。2、“杀熟”操作。
艾尚说股市
·
2017-02-20 09:57
2.20盘前:被套后的解救方法
在深套、超跌之后,多
数仓
位宜保持不变,只选择一部分仓位实施操作,等大盘和个股跳水时“果断行动”买进目标个股,当反弹时再卖掉补进的仓位。这样,如果做对了,可以摊低成本,减少亏损。2、“杀熟”操作。
艾尚说股市
·
2017-02-20 09:57
数据系统架构——Lambda architecture(Lambda架构)
数据量的变化数据管理系统(DBMS)和
数仓
系统(DW)也在悄然的变化着。传统应用的数据系统架构设计时,应用直接访问数据库
永不言弃01
·
2016-06-28 20:36
云计算与大数据
Oracle数据仓库创建教程
如何创建一个数据仓库,创建实例,以为毕业设计要求,最近开始Oracle的
数仓
建模实践,详细记录了图形界面下的Oracledatabase12C数据仓库创建过程。
dream_an
·
2016-03-22 21:00
oracle
数据仓库
建模
毕业设计
大数据仓库-kudu
阅读更多数据仓库里面存储引擎是非常重要的,存储引擎的好坏,基本决定了整个
数仓
的基础。kudu目标cloudera公司最近发布了一个kudu存储引擎。
jiezhu2007
·
2015-11-21 16:00
kudu
hadoop
大数据仓库-kudu
数据仓库里面存储引擎是非常重要的,存储引擎的好坏,基本决定了整个
数仓
的基础。 kudu目标cloudera公司最近发布了一个kudu存储引擎。
jiezhu2007
·
2015-11-21 16:00
hadoop
kudu
大数据仓库-kudu
阅读更多数据仓库里面存储引擎是非常重要的,存储引擎的好坏,基本决定了整个
数仓
的基础。kudu目标cloudera公司最近发布了一个kudu存储引擎。
jiezhu2007
·
2015-11-21 16:00
kudu
hadoop
大数据仓库-kudu
数据仓库里面存储引擎是非常重要的,存储引擎的好坏,基本决定了整个
数仓
的基础。 kudu目标cloudera公司最近发布了一个kudu存储引擎。
jiezhu2007
·
2015-11-21 08:00
大数据
仓库
kudu
上一页
79
80
81
82
83
84
85
86
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他