MADlib——基于SQL的数据挖掘解决方案

https://blog.csdn.net/wzy0623/column/info/15741


HAWQ与Hive查询性能对比测试

一、实验目的        本实验通过模拟一个典型的应用场景和实际数据量,测试并对比HAWQ内部表、外部表与Hive的查询性能。二、硬件环境1. 四台VMware虚机组成的Hadoop集群。2. 每台机器配置如下:(1)15K RPM SAS 100GB(2)Intel(R) Xeon(R) E5-2620 v2 @ 2.10GHz,双核双CPU(3)8G内存,8GSwap(4)10000Mb/s


HAWQ技术解析(十八) —— 问题排查

(原文地址:http://hawq.incubator.apache.org/docs/userguide/2.1.0.0-incubating/troubleshooting/Troubleshooting.html)        本章描述如何解决HAWQ系统中常见的错误和问题。一、查询性能问题        问题:查询慢。        原因:一个查询执行缓慢可能有多个原因。例如,数据分布的

HAWQ技术解析(十七) —— 最佳实践

一、HAWQ参数配置最佳实践(原文地址:http://hawq.incubator.apache.org/docs/userguide/2.1.0.0-incubating/bestpractices/config_hawq_bestpractices.html)        在$GPHOME/etc/hawq-site.xml文件中维护HAWQ的配置参数。该文件存在于所有HAWQ实例上,并可以

HAWQ技术解析(十六) —— 运维监控

与任何IT系统一样,为了保证HAWQ集群的高可用和高性能,需要进行一系列监控与维护活动。本篇讨论HAWQ推荐的运维与监控活动。一、推荐的监控与维护任务        表1至表5是HAWQ向系统管理员推荐定期执行的活动,包括系统与数据库监控、数据与数据库的维护、补丁与升级等,目的是要确认系统的所有组件都可以正常工作。监控工作有助于在早期发现和诊断问题。维护任务帮助用户保持系统是最新的,应用了所有错误

HAWQ技术解析(十五) —— 备份恢复

一、为什么还需要备份        HAWQ作为一个数据库管理系统,备份与恢复是其必备功能之一。HAWQ的用户数据存储在HDFS上,系统表存储在master节点主机本地。HDFS上的每个数据块缺省自带三份副本,而且一个数据块的三份副本不会存储在同一个DataNode上,因此一个DataNode节点失效不会造成数据丢失。而配置了HDFS NameNode HA与HAWQ master HA后,Nam

HAWQ技术解析(十四) —— 高可用性

一、HAWQ高可用简介        HAWQ作为一个传统数仓在Hadoop上的替代品,其高可用性至关重要。通常硬件容错、HAWQ HA、HDFS HA是保持系统高可用时需要考虑并实施的三个层次。另外实时监控和定期维护,也是保证集群所有组件健康的必不可少的工作。        总的来说,HAWQ容错高可用的实现方式包括:硬件冗余master镜像双集群1. 硬件级别的冗余(RAID和JBOD)

HAWQ技术解析(十三) —— 资源管理

一、HAWQ如何管理资源        HAWQ使用多种机制管理CPU、内存、I/O、文件句柄等系统资源,包括全局资源管理、资源队列、强制资源使用限额等。1. 全局资源管理        Hadoop通常使用YARN全局管理资源。YARN是一个通用的资源管理框架,为MapReduce作业或其它配置了YARN的应用提供资源。在YARN环境中,资源分配的单位被称为容器(container),YARN还

HAWQ技术解析(十二) —— 查询优化

即便对SELECT等数据库查询语句已经很熟悉了,但HAWQ里的查询有其自己的特点,还是需要研究一下。一、HAWQ的查询处理流程        理解HAWQ的查询处理过程有助于写出更加优化的查询。与任何其它数据库管理系统类似,HAWQ也有如下的查询执行步骤:用户使用客户端应用(如psql)连接到HAWQ master主机上的数据库实例,并向系统提交SQL语句。master接收到查询后,由查询编译器解

HAWQ技术解析(十一) —— 数据管理

一、基本操作1. INSERT        在常用的增删改查数据库操作中,HAWQ仅支持INSERT和SELECT两种,不支持UPDATE和DELETE,这主要是因为HDFS是一个只能追加数据而不能更新的文件系统。SELECT语句最熟悉不过,它应该是数据库中最常用的语句了,在下一篇“查询优化”时再进一步讨论。INSERT语句用于创建表行,该命令需要表名和表中每个列的值。在HAWQ中,该命令有四种

HAWQ技术解析(十) —— 过程语言

HAWQ支持用户自定义函数(user-defined functions,UDF),还支持给HAWQ内部的函数起别名。编写UDF的语言可以是SQL、C、Java、Perl、Python、R和pgSQL。其中除SQL和C是HAWQ的内建语言,其它语言通常被称为过程语言(PLs),支持过程语言编程是对HAWQ核心的功能性扩展。HAWQ我所使用过的SQL-on-Hadoop解决方案中唯一支持过程化编程的

2017-03-24 19:48:57 阅读数:3524 评论数:1

HAWQ技术解析(九) —— 外部数据

HAWQ不但可以读写自身系统中的表,而且能够访问HDFS、Hive、HBase等外部系统的数据。这是通过一个名为PXF的扩展框架实现的。大部分的外部数据是以HAWQ外部表的形式进行访问的,但对于Hive,除外部表方式,PXF还能够与HCatalog整合直接查询Hive表。PXF内建多个连接器,用户也可以按照PXF API,创建自己的连接器,访问其它并行数据存储或处理引擎。一、安装配置PXF如果使用

HAWQ技术解析(八) —— 大表分区

一、HAWQ中的分区表        与大多数关系数据库一样,HAWQ也支持分区表。这里所说的分区表是指HAWQ的内部分区表,外部分区表在后面“外部数据”篇讨论。在数据仓库应用中,事实表通常有非常多的记录,分区可以将这样的大表在逻辑上分为小的、更易管理的数据片段。HAWQ的优化器支持分区消除以提高查询性能。只要查询条件中可以使用分区键作为过滤条件,那么HAWQ只需要扫描满足查询条件的分区,而不必进

2017-03-15 14:34:25 阅读数:5119 评论数:0

HAWQ技术解析(七) —— 存储分布

在HAWQ中创建一个表时,应该预先对数据如何分布、表的存储选项、数据导入导出方式和其它HAWQ特性做出选择,这些都将对数据库性能有极大影响。理解有效选项 的含义以及如何在数据库中使用它们,将有助于做出正确的选择。一、数据存储模型        create table的with子句用于设置表的存储选项。例如:db1=# create table t1 (a int) with db1-#

2017-04-01 16:53:14 阅读数:7456 评论数:2

HAWQ技术解析(六) —— 定义对象

HAWQ本质上是一个数据库系统,所以这里所说的对象指的是数据库对象。和其它关系数据库类似,HAWQ中有数据库、表空间、表、视图、自定义数据类型、自定义函数、序列等对象。本篇将简述这些对象的创建与管理。对HAWQ中表的存储方式与分布策略等特性的选择,会对数据库性能产生极大的影响,同时这也是一个复杂的话题,将在下一篇单独讨论。一、创建和管理数据库        HAWQ中数据库的概念与MySQL类似,

2017-03-07 18:31:39 阅读数:3521 评论数:0

HAWQ技术解析(五) —— 连接管理

服务器启动后,还要经过一系列配置,才能被客户端程序所连接。本篇说明如何配置客户端身份认证,HAWQ的权限管理机制,HAWQ最常用的命令行客户端工具psql及与mysql命令行常用命令类比,最后还将列举一些客户端连接HAWQ数据库的常见问题排查。一、配置客户端身份认证        上一篇曾经提到,HAWQ系统初始安装后,数据库包含一个预定义的超级用户。这个用户和安装HAWQ的操作系统用户用户具有相

2017-03-03 17:46:49 阅读数:6119 评论数:4

HAWQ技术解析(四) —— 启动停止

前面已经完成了HAWQ的安装部署,也了解了HAWQ的系统架构与主要组件,下面开始使用它。HAWQ作为Hadoop上的一个服务提供给用户,与其它所有服务一样,最基本的操作就是启动、停止、重启服务。要完成这些操作,需要适当的环境设置。下面就HAWQ管理的一些基础概念、操作环境、启动停止及其推荐的操作进行讨论。一、基础概念        如果组织中能够做到系统管理与开发分离,那这部分内容严格说应该是HA

2017-03-02 17:54:25 阅读数:5345 评论数:0

HAWQ技术解析(三) —— 基本架构

HAWQ是一个Hadoop原生的SQL查询引擎,它结合了MPP数据库的关键技术和Hadoop的可扩展性。HAWQ在原生的HDFS上读写数据,MPP架构使HAWQ表现出超越其它SQL on Hadoop解决方案的查询性能,Hadoop又为HAWQ提供了传统数据库所不具备的线性扩展能力。一、HAWQ的架构        在一个典型的HAWQ部署中,每个slave节点上会安装有一个HAWQ物理段,一个H

2017-02-17 17:19:35 阅读数:5799 评论数:0

HAWQ技术解析(二) —— 安装部署

一、安装规划1. 选择安装介质        HAWQ的安装介质有两种选择,一是下载源码手工编译,二是使用Pivotal公司提供的HDB安装包。源码的下载地址为http://apache.org/dyn/closer.cgi/incubator/hawq/2.0.0.0-incubating/apache-hawq-src-2.0.0.0-incubating.tar.gz,目前最新版本是2.0.

2017-02-15 17:56:06 阅读数:11714 评论数:19

HAWQ技术解析(一) —— HAWQ简介

一、SQL on Hadoop        过去五年里,许多企业已慢慢开始接受Hadoop生态系统,将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范,但随着时间的推移,MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途径,企业需要一种更简单的方式来连接要查询、分析、甚至要执行深度数据分析的数据,以便发掘存储在Hadoo

2017-02-13 13:55:03 阅读数:22138 评论数:0

你可能感兴趣的:(MADlib——基于SQL的数据挖掘解决方案)