HAWQ 第2页

Postgresql之Madlib安装

Postgresql源码安装由于MADlib支持多个平台，如postgresql，Greenplum和HAWQ，本次主要在postgresql中选择安装。

主攻PHP·2020-07-31 15:22

OushuDB入门（一）——安装篇

OushuDB是由ApacheHAWQ创始团队基于HAWQ打造的新一代数据仓库(NewDataWarehouse)。

wzy0623·2020-07-30 05:15

Pivotal大数据新玩法

日前，Pivotal宣布推出了自己的大数据套件，该套件由Greenplum数据库、GemFire、SQLFire、GemFireXD、HAWQ和HD共同组成。这是一个全面的数据管理解

weixin_34122604·2020-07-30 03:23

汲取Linux灵感 Pivotal开源大数据套件

此次决策将把HAWQ、Greenplum数据库以及PivotalGemFire的“核心”代码发布给任何一位有意愿将时间投入相关开发工作的技术人士。

weixin_34081595·2020-07-30 03:12

记一次多线程读取文件并进行URL爬取的代码设计

第一个完成的任务是从HAWQ的数据表中拉取千万级别数量的URL到文件中，程序对不同URL进行爬取相关内容，爬取内容很简单，无非是文章标题、摘要等，比较复杂的是千万级别数量URL的爬取速度以及文件读取方式

知微在路上·2020-07-30 00:01

一次去2019开源峰会上的小计

HAWQ的技术与构架源自于业界顶尖的MPP数据库Greenplum，是传统的高性能分析型数据库与Hadoop相结合的一次尝试，其兼具了MPP架构数据库卓越的分析性能与Hado

序冢--磊·2020-07-29 22:38

6大主流开源SQL引擎总结，遥遥领先的是谁？

背景介绍本文涵盖了6个开源领导者：Hive、Impala、SparkSQL、Drill、HAWQ以及Presto，还加上Calcite、Kylin、Phoenix、Tajo和Trafodi

weixin_33860553·2020-07-28 18:09

对比MPP计算框架和批处理计算框架

计算框架和批处理计算框架标签（空格分隔）：翻译大数据技术交流QQ群：543190166欢迎各位加入学习讨论，共同进步原文链接：https://content.pivotal.io/blog/apache-hawq-next-step-in-massively-parallel-processingMPP

bigdatar·2020-07-28 11:45

大数据数据库：MPP vs MapReduce

hadoop和MapReduce技术的流行，大数据的数据库中Hive和Spark等新型数据库脱颖而出；而另一个技术流派是基于传统的并行数据库技术演化而来的大规模并行处理（MPP）数据库比如GreenPlum和HAWQ

Dreamy_lin·2020-07-15 17:35

数据生成器

如果你在从事大数据BI的工作，想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse

sdfjlkjsdfsaldfsdf·2020-07-12 17:35

SQL on Hadoop的最新进展及7项相关技术分享

xiyf2046·2020-07-12 17:55

利用Flume将MySQL表数据准实时抽取到HDFS

一、为什么要用到Flume在以前搭建HAWQ数据仓库实验环境时，我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS，然后用HAWQ的外部表进行访问。

wzy0623·2020-07-12 16:31

SQL on Hadoop系统的最新进展（1）

therobustandscalablearchitectureofHadoop目前SQLonHadoop产品主要有以下几种：Hive,Tez/Stinger,Impala,Shark/Spark,Phoenix,Hawq

weixin_33981932·2020-07-12 08:06

SQL on Hadoop系统的最新进展

therobustandscalablearchitectureofHadoop目前SQLonHadoop产品主要有以下几种：Hive,Tez/Stinger,Impala,Shark/Spark,Phoenix,Hawq

mumuxd·2020-07-11 13:27

HAWQ技术解析（十一） —— 数据管理

一、基本操作1.INSERT在常用的增删改查数据库操作中，HAWQ仅支持INSERT和SELECT两种，不支持UPDATE和DELETE，这主要是因为HDFS是一个只能追加数据而不能更新的文件系统。

wzy0623·2020-07-10 12:13

【HAWQ】【行列转换】插件tablefunc安装和使用

说明此功能只在测试环境论证过，没有在生产环境论证，如需使用，请自行评估风险HAWQ版本PostgreSQL8.2.15(GreenplumDatabase4.2.0build1)(HAWQ2.4.0.0builddev

晓_mini·2020-07-10 03:45

HAWQ + MADlib 玩转数据挖掘之（六）——主成分分析与主成分投影

一、主成分分析（PrincipalComponentAnalysis，PCA）简介在数据挖掘中经常会遇到多个变量的问题，而且在多数情况下，多个变量之间常常存在一定的相关性。例如，网站的“浏览量”和“访客数”往往具有较强的相关关系，而电商应用中的“下单数”和“成交数”也具有较强的相关关系。这里的相关关系可以直观理解为当浏览量较高（或较低）时，应该很大程度上认为访客数也较高（或较低）。这个简单的例子中

wzy0623·2020-07-09 01:37

使用Flume将MySQL表数据实时抽取到hadoop

一、为什么要用到Flume在以前搭建HAWQ数据仓库实验环境时，我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS，然后用HAWQ的外部表进行访问。

空着这扇窗·2020-07-07 22:33

HAWQ取代传统数仓实践（十九）——OLAP

一、OLAP简介1.概念OLAP是英文是On-LineAnalyticalProcessing的缩写，意为联机分析处理。此概念最早由关系数据库之父E.F.Codd于1993年提出。OLAP允许以一种称为多维数据集的结构，访问业务数据源经过聚合和组织整理后的数据。以此为标准，OLAP作为单独的一类技术同联机事务处理（On-LineTransactionProcessing，OLTP）得以明显区分。在

wzy0623·2020-07-06 08:23

HAWQ技术解析（一） —— HAWQ简介

一、SQLonHadoop过去五年里，许多企业已慢慢开始接受Hadoop生态系统，将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范，但随着时间的推移，MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途径，企业需要一种更简单的方式来连接要查询、分析、甚至要执行深度数据分析的数据，以便发掘存储在Hadoop中的所有数据的真正

wzy0623·2020-07-06 08:23

DBeaver连接hive、impala、phoenix、HAWQ、redis

目录一、DBeaver简介二、下载与安装三、连接hive四、连接impala五、连接phoenix六、连接HAWQ七、连接redis伴随着技术的不断发展与进步，我们会接触和使用越来越多的数据源。

wzy0623·2020-07-06 08:22

在大数据圈你不知道的15个新技术

虽然这些技术都还只是蓝图规划，但是一些常见的主题还是对其贯穿始终：为用户提供简单的获得数据的访问方式，更好的管理大规模数据以及预先分析的功能，例如Spark、HAWQ和Geode等新兴的大数据技术来实现更多的功能

wuqiongrj·2020-07-06 07:43

新一代数据仓库HAWQ的体系架构

从首次提出到发展至今，数据仓库大概可以分为三个阶段，第一阶段是采用共享架构的传统数据仓库，这类数仓主要是面向传统的BI分析，可扩展性较差，大概是十几个节点；第二阶段是无共享架构的MPP，这类数仓主要是面向有复杂需求的传统BI分析，典型的代表有Teradata、Vertica、Greenplum等等；前两个阶段的数据仓库架构都存在缺乏弹性、不易调整、难以实现秒级扩容等问题，而新一代数据仓库克服了这些

偶数科技·2020-07-05 01:44

大数据评测报告：开源OLAP引擎综评（HAWQ、Presto、ClickHouse）

大家都知道开源大数据组件种类众多，其中开源OLAP引擎包含Hive、SparkSQL、Presto、HAWQ、ClickHouse、Impala、Kylin等。

Percent_bigdata·2020-07-04 07:33

开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum) ...

本文为博主公司原创文章，仿冒必究，转载请回复留言**开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)易观CTO郭炜序现在大数据组件非常多

weixin_33724659·2020-06-28 04:04

实时数仓 | 你需要的是一款强大的 OLAP 引擎

大数据领域开源OLAP引擎包括不限于Hive、Hawq、Presto、Kylin、Impala、SparkSQL、Druid、Clickhouse、Greeplum等等。

GitChat的博客·2020-06-27 10:28

hadoop使用Yarn进行资源队列划分管理

最近在做一个使用sqoop抽取数据最终存进hawq里面的一个项目，然后在做项目的过程，因为经验等一系列的问题，碰到了不少坑，现在将我最近碰到的一个坑写一下，现象大致是这样的，数据在通过sqoop跑量时，

沉默的迷茫·2020-06-22 03:53

开源OLAP引擎综评：HAWQ、Presto、ClickHouse

大家都知道开源大数据组件种类众多，其中开源OLAP引擎包含Hive、SparkSQL、Presto、HAWQ、ClickHouse、Impala、Kylin等。

百分点大数据团队·2020-06-21 14:00

CDN对流媒体和应用分发的支持及优化 | 高可用CDN架构详解

马涛，前迅雷网络CDN系统研发工程师，也曾任EMC/Pivotal大数据处理系统Hawq研发工程师。从事CDN之前主要做数据库内核，平时关注大数据处理、并行系统容错和优化、后台服务性能优化。

高可用架构·2020-06-20 21:29

【HAWQ】oracle兼容函数orafunc

参考https://docs.oracle.com/en/database/oracle/oracle-database/18/sqlrf/ABS.html#GUID-D8D3489A-44EA-4FEC-A6F0-B5E312FFC231测试的软件版本PostgreSQL8.2.15(OushuDB3.4.0.0)(ApacheHAWQ2.4.0.0)(GreenplumDatabase4.2.

晓_mini·2020-06-02 22:16

【HAWQ】外部表

参考文献http://www.oushu.io/docs/ch/g...http://www.oushu.io/docs/ch/h...测试的软件版本PostgreSQL8.2.15(OushuDB3.4.0.0)(ApacheHAWQ2.4.0.0)(GreenplumDatabase4.2.0build1)onx86_64-unknown-linux-gnu,compiledbyGCCclan

晓_mini·2020-05-28 00:52

【HAWQ】分区表

参考文献>http://www.oushu.io/docs/ch/S...以及其他大牛的文章(不记得了)range创建range分区表createtabletest_partition_range(idnumeric,namevarchar(32),dw_end_datedate)partitionbyrange(dw_end_date)(partitionp20111230start('2011

晓_mini·2020-05-28 00:50

【HAWQ】源码编译ApacheHAWQ

参考https://cwiki.apache.org/conf...源码编译hawq下载#https://github.com/apache/hawq添加用户gpadmin>#groupadd-g3030gpadmin

晓_mini·2020-05-27 23:01

百分点大数据评测报告：开源OLAP引擎综评（HAWQ、Presto、ClickHouse）

大家都知道开源大数据组件种类众多，其中开源OLAP引擎包含Hive、SparkSQL、Presto、HAWQ、ClickHouse、Impala、Kylin等。

wx5e2559231090a·2020-03-09 16:39

Apache HAWQ部署与初步测试

HAWQ的技术与构架源自于业界顶尖的MPP数据库Greenplum，是传统的高性能分析型数据库与Hadoop相结合的一次尝试，其兼具了MPP架构数据库卓越的分析性能与Hadoop的可高扩展性，容错性。

小白_18M·2020-02-02 20:27

使用gpfdist导入文本到HAWQ

本例中HAWQ环境采用Ambari方式搭建，实例分布bd1:HAWQ-Master,Segmentbd2:Segmentbd3:Segment准备工作在3台主机上分别创建/data/hawq/files

dzgdp888·2019-12-12 23:31

HAWQ取代传统数仓实践（十四）——事实表技术之累积快照

https://blog.csdn.net/wzy0623/article/details/72867167一、累积快照简介累积快照事实表用于定义业务过程开始、结束以及期间的可区分的里程碑事件。通常在此类事实表中针对过程中的关键步骤都包含日期外键，并包含每个步骤的度量，这些度量的产生一般都会滞后于数据行的创建时间。累积快照事实表中的一行，对应某一具体业务的多个状态。例如，当订单产生时会插入一行。当

秉寒CHO·2019-07-30 16:04

全方位测评Hive、SparkSQL、Presto 等七个大数据查询引擎

flylynne·2019-06-09 21:00

MADlib——基于SQL的数据挖掘解决方案

https://blog.csdn.net/wzy0623/column/info/15741原HAWQ与Hive查询性能对比测试一、实验目的本实验通过模拟一个典型的应用场景和实际数据量，测试并对比HAWQ

鏡澤·2019-06-05 14:40

MADlib——基于SQL的数据挖掘解决方案

https://blog.csdn.net/wzy0623/column/info/15741原HAWQ与Hive查询性能对比测试一、实验目的本实验通过模拟一个典型的应用场景和实际数据量，测试并对比HAWQ

鏡澤·2019-06-05 14:40

HAWQ取代传统数仓实践

1.为什么选择HAWQ2.HAWQ技术解析（二）——安装部署HAWQ取代传统数仓实践（十一）——维度表技术之维度合并有一种合并维度的情况，就是本来属性相同的维度，因为某种原因被设计成重复的维度属性。

鏡澤·2019-06-05 14:56

HAWQ取代传统数仓实践

1.为什么选择HAWQ2.HAWQ技术解析（二）——安装部署HAWQ取代传统数仓实践（十一）——维度表技术之维度合并有一种合并维度的情况，就是本来属性相同的维度，因为某种原因被设计成重复的维度属性。

鏡澤·2019-06-05 14:56

Greenplum 5.16.0初探

另外数仓/数据集市方面还有性能强悍的HAWQ，支持更大数据规模Hadoop。

我的二狗呢·2019-03-30 23:00

hadoop集群使用gpcheckperf检测整个集群的性能

在使用gpcheckperf工具之前，我们需要先source一下hawq的配置文件source/usr/local/hawq/greenplum_path.sh然后在vim一个seg_host文件，这个文件名可以随意在该文件中

沉默的迷茫·2019-01-18 17:01

ambari在线安装偶数HAWQ

环境清单：主机1:内网:192.168.6.165主机2:内网:192.168.6.166主机3:内网:192.168.6.167系统配置清单：IPHOSTNAMECPUMEMDISKRELEASE192.168.6.165ambari012核4G50GCentOSLinuxrelease7.3.1611(Core)192.168.6.166ambari022核4G50GCentOSLinuxre

xiao_mini·2018-10-12 23:50

HAWQ适应场景总结

blog.csdn.net/wzy0623/article/details/55047696最后总结如下：1、OLAP（联机分析处理(On-LineAnalyticalProcessing）领域，请选择HAWQ

达微·2018-09-19 10:53

Apache HAWQ 创建使用SSD磁盘的表

HDFS启用SSD存储1.配置HDFS的数据节点[DISK]/hadoop/hdfs/data,[SSD]/hadoop/hdfs/ssd在所有的数据节点上挂载ssd盘到路径/hadoop/hdfs/ssd下并保证/hadoop/hdfs/ssd路径的owner为hdfs:hadoopdrwxr-x---3hdfshadoop4096Oct1719:10/hadoop/hdfs/ssd重启数据节点

Lynn_Yuan·2018-08-16 17:29

PostgreSQL GreenPlum HAWQ三者的关系及演变过程

这个日程安排同时也是我们公司核心团队的技术进阶史。公司创始团队成员有幸以核心开发者的角色参与，从单机版的关系型数据库（PostgreSQL），大规模并行处理（MPP）数据库（GreenplumDatabase）到SQLonHadoop解决方案（ApacheHAWQ），以及最新的SQLonCloud数据仓库（HashData）。通过回顾这个技术演进的历程，我们将阐述如何一步一步地解决联机分析（OLA

YYDU_666·2018-06-27 12:35

HAWQ

HAWQ是一个hadoop原生的sql引擎同时拥有MPP的优点，同时具有很好的扩展性，HAQW将数据保存HDFSfeature本地或者云端部署sql兼容SQL-92,SQL-99,SQL-2003高性能数倍于其他

chuanzhongdu1·2018-06-16 10:53

主流开源SQL（on Hadoop）总结

“SQL-in-Hadoop”也不适用，虽然Hive和Impala主要使用Hadoop，但是Spark、Drill、HAWQ和Presto还可以和各种其他的数据存储系统配合使用。不像关系型数据库，

宁哥说·2018-05-13 10:35

推荐频道

HAWQ

Postgresql之Madlib安装

OushuDB入门（一）——安装篇

Pivotal大数据新玩法

汲取Linux灵感 Pivotal开源大数据套件

记一次多线程读取文件并进行URL爬取的代码设计

一次去2019开源峰会上的小计

6大主流开源SQL引擎总结，遥遥领先的是谁？

对比MPP计算框架和批处理计算框架

大数据数据库：MPP vs MapReduce

数据生成器

SQL on Hadoop的最新进展及7项相关技术分享

利用Flume将MySQL表数据准实时抽取到HDFS

SQL on Hadoop系统的最新进展（1）

SQL on Hadoop系统的最新进展

HAWQ技术解析（十一） —— 数据管理

【HAWQ】【行列转换】插件tablefunc安装和使用

HAWQ + MADlib 玩转数据挖掘之（六）——主成分分析与主成分投影

使用Flume将MySQL表数据实时抽取到hadoop

HAWQ取代传统数仓实践（十九）——OLAP

HAWQ技术解析（一） —— HAWQ简介

DBeaver连接hive、impala、phoenix、HAWQ、redis

在大数据圈你不知道的15个新技术

新一代数据仓库HAWQ的体系架构

大数据评测报告：开源OLAP引擎综评（HAWQ、Presto、ClickHouse）

开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum) ...

实时数仓 | 你需要的是一款强大的 OLAP 引擎

hadoop使用Yarn进行资源队列划分管理

开源OLAP引擎综评：HAWQ、Presto、ClickHouse

CDN对流媒体和应用分发的支持及优化 | 高可用CDN架构详解

【HAWQ】oracle兼容函数orafunc

【HAWQ】外部表

【HAWQ】分区表

【HAWQ】源码编译ApacheHAWQ

百分点大数据评测报告：开源OLAP引擎综评（HAWQ、Presto、ClickHouse）

Apache HAWQ部署与初步测试

使用gpfdist导入文本到HAWQ

HAWQ取代传统数仓实践（十四）——事实表技术之累积快照

全方位测评Hive、SparkSQL、Presto 等七个大数据查询引擎

MADlib——基于SQL的数据挖掘解决方案

MADlib——基于SQL的数据挖掘解决方案

HAWQ取代传统数仓实践

HAWQ取代传统数仓实践

Greenplum 5.16.0初探

hadoop集群使用gpcheckperf检测整个集群的性能

ambari在线安装偶数HAWQ

HAWQ适应场景总结

Apache HAWQ 创建使用SSD磁盘的表

PostgreSQL GreenPlum HAWQ三者的关系及演变过程

HAWQ

主流开源SQL（on Hadoop）总结