HAWQ 第3页

让我们一起走进大数据开源项目--第1节

最近大数据领域最火的消息莫过于Pivotal兑现了其年初对于开源其大数据核心产品GemFire，HAWQ，GreemplumDB的承诺。

哈斗篷·2018-05-11 14:04

数据生成器

如果你在从事大数据BI的工作，想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse

yangshangchuan·2018-04-29 23:00

数据生成器

如果你在从事大数据BI的工作，想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse

yangshangchuan·2018-04-29 23:00

CDN对流媒体和应用分发的支持及优化 | 高可用CDN架构详解

马涛，前迅雷网络CDN系统研发工程师，也曾任EMC/Pivotal大数据处理系统Hawq研发工程师。从事CDN之前主要做数据库内核，平时关注大数据处理、并行系统容错和优化、后台服务性能优化。

JackLiu16·2018-03-10 22:27

HAWQ取代传统数仓实践（十九）——OLAP

一、OLAP简介1.概念 OLAP是英文是On-LineAnalyticalProcessing的缩写，意为联机分析处理。此概念最早由关系数据库之父E.F.Codd于1993年提出。OLAP允许以一种称为多维数据集的结构，访问业务数据源经过聚合和组织整理后的数据。以此为标准，OLAP作为单独的一类技术同联机事务处理（On-LineTransactionProcessing，OLTP）得以明显

wzy0623·2017-06-14 13:00

HAWQ取代传统数仓实践（十八）——层次维度

一、层次维度简介大多数维度都具有一个或多个层次。例如，示例数据仓库中的日期维度就有一个四级层次：年、季度、月和日。这些级别用date_dim表里的列表示。日期维度是一个单路径层次，因为除了年-季度-月-日这条路径外，它没有任何其它层次。为了识别数据仓库里一个维度的层次，首先要理解维度中列的含义，然后识别两个或多个列是否具有相同的主题。例如，年、季度、月和日具有相同的主题，因为它们都是关于日

wzy0623·2017-06-12 17:00

HAWQ取代传统数仓实践（十七）——事实表技术之累积度量

累积度量指的是聚合从序列内第一个元素到当前元素的数据，例如统计从每年的一月到当前月份的累积销售额。本篇说明如何在销售订单示例中实现累积月销售数量和金额，并对数据仓库模式、初始装载、定期装载做相应地修改。累积度量是半可加的，而且它的初始装载要复杂一些。一、建立累积度量事实表执行下面的脚本创建month_end_balance_fact事实表，用来存储销售订单金额和数量的月累积值。se

wzy0623·2017-06-09 18:00

HAWQ取代传统数仓实践（十六）——事实表技术之迟到的事实

一、迟到的事实简介数据仓库通常建立于一种理想的假设情况下，这就是数据仓库的度量（事实记录）与度量的环境（维度记录）同时出现在数据仓库中。当同时拥有事实记录和正确的当前维度行时，就能够从容地首先维护维度键，然后在对应的事实表行中使用这些最新的键。然而，各种各样的原因会导致需要ETL系统处理迟到的事实数据。例如，某些线下的业务，数据进入操作型系统的时间会滞后于事务发生的时间。再或者出现某些极端

wzy0623·2017-06-08 17:00

HAWQ取代传统数仓实践（十五）——事实表技术之无事实的事实表

一、无事实事实表简介在多维数据仓库建模中，有一种事实表叫做“无事实的事实表”。普通事实表中，通常会保存若干维度外键和多个数字型度量，度量是事实表的关键所在。然而在无事实的事实表中没有这些度量值，只有多个维度外键。表面上看，无事实事实表是没有意义的，因为作为事实表，毕竟最重要的就是度量。但在数据仓库中，这类事实表有其特殊用途。无事实的事实表通常用来跟踪某种事件或者说明某些活动的范围。

wzy0623·2017-06-06 11:00

HAWQ取代传统数仓实践（十四）——事实表技术之累积快照

一、累积快照简介累积快照事实表用于定义业务过程开始、结束以及期间的可区分的里程碑事件。通常在此类事实表中针对过程中的关键步骤都包含日期外键，并包含每个步骤的度量，这些度量的产生一般都会滞后于数据行的创建时间。累积快照事实表中的一行，对应某一具体业务的多个状态。例如，当订单产生时会插入一行。当该订单的状态改变时，累积事实表行被访问并修改。这种对累积快照事实表行的一致性修改在三种类型的事实表（

wzy0623·2017-06-05 14:00

HAWQ取代传统数仓实践（十三）——事实表技术之周期快照

一、周期快照简介周期快照事实表中的每行汇总了发生在某一标准周期，如一天、一周或一月的多个度量。其粒度是周期性的时间段，而不是单个事务。周期快照事实表通常包含许多数据的总计，因为任何与事实表时间范围一致的记录都会被包含在内。在这些事实表中，外键的密度是均匀的，因为即使周期内没有活动发生，通常也会在事实表中为每个维度插入包含0或空值的行。周期快照是在一个给定的时间对事实表进行一段时期的

wzy0623·2017-06-02 15:00

HAWQ取代传统数仓实践（十二）——维度表技术之分段维度

一、分段维度简介在客户维度中，最具有分析价值的属性就是各种分类，这些属性的变化范围比较大。对某个个体客户来说，可能的分类属性包括：性别、年龄、民族、职业、收入和状态，例如，新客户、活跃客户、不活跃客户、已流失客户等。在这些分类属性中，有一些能够定义成包含连续值的分段，例如年龄和收入这种数值型的属性，天然就可以分成连续的数值区间，而象状态这种描述性的属性，可能需要用户根据自己的实际业务仔细定

wzy0623·2017-06-01 11:00

HAWQ取代传统数仓实践（十一）——维度表技术之维度合并

有一种合并维度的情况，就是本来属性相同的维度，因为某种原因被设计成重复的维度属性。例如，在销售订单示例中，随着数据仓库中维度的增加，我们会发现有些通用的数据存在于多个维度中。客户维度的客户地址相关信息、送货地址相关信息里都有邮编、城市和省份。下面说明如何把客户维度里的两个邮编相关信息合并到一个新的维度中。一、修改数据仓库表结构为了合并维度，需要改变数据仓库表结构。图1显示了修改后的

wzy0623·2017-05-31 15:00

HAWQ取代传统数仓实践（十）——维度表技术之杂项维度

一、什么是杂项维度简单地说，杂项维度就是一种包含的数据具有很少可能值的维度。事务型商业过程通常产生一系列混杂的、低基数的标志位或状态信息。与其为每个标志或属性定义不同的维度，不如建立单独的将不同维度合并到一起的杂项维度。这些维度，通常在一个模式中标记为事务型概要维度，一般不需要所有属性可能值的笛卡尔积，但应该至少包含实际发生在源数据中的组合值。例如，在销售订单中，可能存在有很多离散

wzy0623·2017-05-27 13:00

HAWQ取代传统数仓实践（九）——维度表技术之退化维度

退化维度技术减少维度的数量，简化维度数据仓库模式。简单的模式比复杂的更容易理解，也有更好的查询性能。有时，维度表中除了业务主键外没有其它内容。例如，在本销售订单示例中，订单维度表除了订单号，没有任何其它属性，而订单号是事务表的主键，这种维度就是退化维度。业务系统中的主键通常是不允许修改的。销售订单只能新增，不能修改已经存在的订单号，也不会删除订单记录。因此订单维度表也不会有历史数据

wzy0623·2017-05-26 13:00

HAWQ取代传统数仓实践（八）——维度表技术之角色扮演维度

单个物理维度可以被事实表多次引用，每个引用连接逻辑上存在差异的角色维度。例如，事实表可以有多个日期，每个日期通过外键引用不同的日期维度，原则上每个外键表示不同的日期维度视图，这样引用具有不同的含义。这些不同的维度视图具有唯一的代理键列名,被称为角色，相关维度被称为角色扮演维度。当一个事实表多次引用一个维度表时会用到角色扮演维度。例如，一个销售订单有一个是订单日期，还有一个请求交付日

wzy0623·2017-05-25 15:00

HAWQ取代传统数仓实践（七）——维度表技术之维度子集

有些需求不需要最细节的数据。例如更想要某个月的销售汇总，而不是某天的数据。再比如相对于全部的销售数据，可能对某些特定状态的数据更感兴趣等。此时事实数据需要关联到特定的维度，这些特定维度包含在从细节维度选择的行中，所以叫维度子集。维度子集比细节维度的数据少，因此更易使用，查询也更快。有时称细节维度为基本维度，维度子集为子维度，基本维度表与子维度表具有相同的属性或内容，称这样的维度表具

wzy0623·2017-05-24 14:00

HAWQ取代传统数仓实践（六）——增加列

业务的扩展或变化是不可避免的，尤其像互联网行业，需求变更已经成为常态，唯一不变的就是变化本身，其中最常碰到的扩展是给一个已经存在的表曾加列。以销售订单为例，假设因为业务需要，在操作型源系统的客户表中增加了送货地址的四个字段，并在销售订单表中增加了销售数量字段。由于数据源表增加了字段，数据仓库中的表也要随之修改。本篇说明如何在客户维度表和销售订单事实表上添加列，并在新列上应用SCD2

wzy0623·2017-05-23 17:00

HAWQ技术解析（十八） —— 问题排查

（原文地址：http://hawq.incubator.apache.org/docs/userguide/2.1.0.0-incubating/troubleshooting/Troubleshooting.html

wzy0623·2017-04-28 15:00

HAWQ技术解析（十七） —— 最佳实践

一、HAWQ参数配置最佳实践（原文地址：http://hawq.incubator.apache.org/docs/userguide/2.1.0.0-incubating/bestpractices/

wzy0623·2017-04-27 17:00

HAWQ技术解析（十六） —— 运维监控

与任何IT系统一样，为了保证HAWQ集群的高可用和高性能，需要进行一系列监控与维护活动。本篇讨论HAWQ推荐的运维与监控活动。

wzy0623·2017-04-27 16:00

HAWQ技术解析（十一） —— 数据管理

一、基本操作1.INSERT 在常用的增删改查数据库操作中，HAWQ仅支持INSERT和SELECT两种，不支持UPDATE和DELETE，这主要是因为HDFS是一个只能追加数据而不能更新的文件系统

wzy0623·2017-04-06 14:00

CSDN日报20170401 ——《如果你还是“程序员”，我劝你别创业！》

【数据存储】用HAWQ轻松取代传统数据仓库（七）——存

CSDN官方博客·2017-04-01 00:00

HAWQ技术解析（六） —— 定义对象

HAWQ本质上是一个数据库系统，所以这里所说的对象指的是数据库对象。和其它关系数据库类似，HAWQ中有数据库、表空间、表、视图、自定义数据类型、自定义函数、序列等对象。

wzy0623·2017-03-07 18:00

实时查询引擎 - 构建于HDFS之上的Greenplum： HAWQ

1.HAWQ是什么如果你知道Greenplum是什么，那么你就能很简单的明白HAWQ是什么。

CQ阿甘·2016-11-22 23:58

HAWQ ——功能强大的SQL-on-Hadoop引擎

分享主要分为以下五个部分：HAWQ基本介绍；HAWQ架构以及各重要组件的基本原理；HAWQ的中短期规划；如何贡献到HAWQ和成为ApacheCommitter；Q&A。

u012965373·2016-07-05 09:00

Inspiration from Apache HAWQ

AspectsInterconnectUDP(UserDatagramProtocol),additionalpacketverification,thereliabilityisequivalenttoTCP(TransmissionControlProtocol),andtheperformanceandscalabilityexceedsthatofTCPExecutionRuntimedy

zbf8441372·2016-05-26 15:00

Apache HAWQ集群的安装部署

今天我们就来聊聊怎么部署强大的HAWQ2.0吧。企业版的HAWQ你花了钱基本就可以躺着等它安装好了，所以这里先不讨论，我们来讲讲社区版HAWQ的多节点集群的安装部署。

bigdatacommunity·2016-05-23 14:00

大数据分析工具盘点-你不知道的15个新技术

虽然这些技术都还只是蓝图规划，但是一些常见的主题还是对其贯穿始终：为用户提供简单的获得数据的访问方式，更好的管理大规模数据以及预先分析的功能，例如Spark、HAWQ和Geode等新兴的大数据技术来实现更多的功能

yujianta14·2016-04-28 13:00

HAWQ安装步骤

HAWQ安装步骤#installdocumentwithyumsed-i's/tsflags=nodocs//g'/etc/yum.conf#installjdkyuminstall-ywget#没有安装包时取安装包

stevendu·2016-01-10 11:00

hawq 遇到难题了

今天把hawq安装好了，但是为什么一开始进入数据库的时候，他尽然没有postgres数据库我只能重模板template0进入并且template1也是没有的有人能解答吗我在网上看到别人都有而且还有dfs_default

做好自己·2015-07-03 18:00

分布式SQL数据库引擎基于Hadoop HDFS

GPFXExternalTables接口，使用SQL透明访问Hadoop上各类数据-HDFS,HBase,Hive,Parquet等等，还支持SQL透明访问NFS,HTTP其他格式的数据（可自定义）HAWQ

李航421·2015-05-28 09:00

分布式SQL数据库引擎基于Hadoop HDFS-王伟珣

GPFXExternalTables接口，使用SQL透明访问Hadoop上各类数据-HDFS,HBase,Hive,Parquet等等，还支持SQL透明访问NFS,HTTP其他格式的数据（可自定义）HAWQ

李航421·2015-05-14 13:00

Pivotal开源其大数据处理的核心组件

近日，Pivotal宣布将其大数据套件的三个核心组件开源，即基于内存的分布式NoSQL数据库GemFire、基于Hadoop架构的大规模并行SQL分析处理引擎HAWQ、大规模并行处理分析数据库Greenplum

李小兵·2015-02-28 00:00

Pivotal开源其大数据处理的核心组件

近日，Pivotal宣布将其大数据套件的三个核心组件开源，即基于内存的分布式NoSQL数据库GemFire、基于Hadoop架构的大规模并行SQL分析处理引擎HAWQ、大规模并行处理分析数据库Greenplum

李小兵·2015-02-28 00:00

XenServer服务器操作系统创建ISO库

：(现在也可以使用一键部署脚本的任务3进行ISO库的创建)SSH登录连接上服务器，使用vgdisplay命令查看并记录存储的UUID和可用空间vgdisplay复制代码[root@xenserver-hawq

coolner·2014-12-02 20:28

SQL on Hadoop系统的总结分析（二）

上篇主要讨论了Hive, Stinger/Tez, Impala, Shark这些SQL on Hadoop产品，这篇接着讨论Phoenix, Hadapt, Hawq。

coolsunchen·2014-01-26 09:00

SQL on Hadoop系统的总结分析（一）

architecture of Hadoop 目前SQL on Hadoop产品主要有以下几种： Hive, Tez/Stinger, Impala, Shark/Spark, Phoenix, Hawq

coolsunchen·2014-01-26 09:00

SQL on Hadoop最新进展2-转载

p=407上篇主要讨论了Hive,Stinger/Tez,Impala,Shark这些SQLonHadoop产品，这篇接着讨论Phoenix,Hadapt,Hawq。

人月神话·2013-10-23 12:00

SQL on Hadoop最新进展2-转载

p=407上篇主要讨论了Hive,Stinger/Tez,Impala,Shark这些SQLonHadoop产品，这篇接着讨论Phoenix,Hadapt,Hawq。

人月神话·2013-10-23 04:00

SQL on Hadoop最新进展-转载

目前SQLonHadoop产品主要有以下几种：Hive,Tez/Stinger,Impala,Shark/Spark,Phoenix,Hawq/Greenplum,HadoopDB,Citusdata等

人月神话·2013-10-22 13:00

SQL on Hadoop系统的最新进展（1）

therobustandscalablearchitectureofHadoop目前SQLonHadoop产品主要有以下几种：Hive,Tez/Stinger,Impala,Shark/Spark,Phoenix,Hawq

szyangxiao·2013-10-15 10:12

实时性Hadoop

Cloudera:Impala EMCGreenplum:Hawq Hortonworks:Hive 以上三者宣称不仅可以把Hadoop转入真正的迭代分析环境，还支持SQL或类

cloudeagle_bupt·2013-08-28 19:00

EMC Hawq安装问题，Greeplum安装问题

阅读更多Hawq的安装遇到以下问题，谁能解答一下？？

guiyu0856·2013-05-28 09:00

EMC Hawq安装问题，Greeplum安装问题

阅读更多Hawq的安装遇到以下问题，谁能解答一下？？

guiyu0856·2013-05-28 09:00

EMC Hawq安装问题，Greeplum安装问题

Hawq的安装遇到以下问题，谁能解答一下？？

guiyu0856·2013-05-28 09:00

Greenplum Pivotal HD结合了SQL和Hadoop的优势

PivotalHD支持标准Hadoop发型版本的常用特性（包括HDFS、Pig、Hive、Mahout和Map-Reduce等），但又加入了一些其他的组件，具体如下面结构图所示： Pivotal的主要组件是HAWQ

·2013-03-01 08:00

Greenplum Pivotal HD结合了SQL和Hadoop的优势

PivotalHD支持标准Hadoop发型版本的常用特性（包括HDFS、Pig、Hive、Mahout和Map-Reduce等），但又加入了一些其他的组件，具体如下面结构图所示： Pivotal的主要组件是HAWQ

Abel Avram·2013-03-01 00:00

推荐频道

HAWQ

让我们一起走进大数据开源项目--第1节

数据生成器

数据生成器

CDN对流媒体和应用分发的支持及优化 | 高可用CDN架构详解

HAWQ取代传统数仓实践（十九）——OLAP

HAWQ取代传统数仓实践（十八）——层次维度

HAWQ取代传统数仓实践（十七）——事实表技术之累积度量

HAWQ取代传统数仓实践（十六）——事实表技术之迟到的事实

HAWQ取代传统数仓实践（十五）——事实表技术之无事实的事实表

HAWQ取代传统数仓实践（十四）——事实表技术之累积快照

HAWQ取代传统数仓实践（十三）——事实表技术之周期快照

HAWQ取代传统数仓实践（十二）——维度表技术之分段维度

HAWQ取代传统数仓实践（十一）——维度表技术之维度合并

HAWQ取代传统数仓实践（十）——维度表技术之杂项维度

HAWQ取代传统数仓实践（九）——维度表技术之退化维度

HAWQ取代传统数仓实践（八）——维度表技术之角色扮演维度

HAWQ取代传统数仓实践（七）——维度表技术之维度子集

HAWQ取代传统数仓实践（六）——增加列

HAWQ技术解析（十八） —— 问题排查

HAWQ技术解析（十七） —— 最佳实践

HAWQ技术解析（十六） —— 运维监控

HAWQ技术解析（十一） —— 数据管理

CSDN日报20170401 ——《如果你还是“程序员”，我劝你别创业！》

HAWQ技术解析（六） —— 定义对象

实时查询引擎 - 构建于HDFS之上的Greenplum： HAWQ

HAWQ ——功能强大的SQL-on-Hadoop引擎

Inspiration from Apache HAWQ

Apache HAWQ集群的安装部署

大数据分析工具盘点-你不知道的15个新技术

HAWQ安装步骤

hawq 遇到难题了

分布式SQL数据库引擎基于Hadoop HDFS

分布式SQL数据库引擎基于Hadoop HDFS-王伟珣

Pivotal开源其大数据处理的核心组件

Pivotal开源其大数据处理的核心组件

XenServer服务器操作系统创建ISO库

SQL on Hadoop系统的总结分析（二）

SQL on Hadoop系统的总结分析（一）

SQL on Hadoop最新进展2-转载

SQL on Hadoop最新进展2-转载

SQL on Hadoop最新进展-转载

SQL on Hadoop系统的最新进展（1）

实时性Hadoop

EMC Hawq安装问题，Greeplum安装问题

EMC Hawq安装问题，Greeplum安装问题

EMC Hawq安装问题，Greeplum安装问题

Greenplum Pivotal HD结合了SQL和Hadoop的优势

Greenplum Pivotal HD结合了SQL和Hadoop的优势