初识Postgresql和Sqoop

1 在CentOS 6.4上安装PostgreSql 9.3

1.1 用yum安装PostgreSql Server:

CentOS 6.4yum默认安装的PostgreSql版本是8.x,比目前最新的9.3差了一代,需要更新yum repository之后,才能用yum安装。用yum安装的好处是方便、模块化,而且以后比较好卸载。

首先到http://yum.postgresql.org/repopackages.php找到对应操作系统的合适的yum repository版本,我使用的服务器环境是CentOS 6.4 x86_64,找到该版本对用的rpm url后,用rpm安装yum repository

sudo rpm –i http://yum.postgresql.org/9.3/redhat/rhel-6-x86_64/pgdg-centos93-9.3-1.noarch.rpm

然后就可以通过yum安装PostgreSql 9.3了:

sudo yum install postgresql93-server postgresql93 postgresql93-contrib postgresql93-devel

这几个安装包分别对应的是:

  • postgresql93-serverPostgreSql的服务器端;
  • postgresql93PostgreSql的客户端程序和库;
  • postgresql93-contrib:一些外部扩展;
  • postgresql93-devel:库和头文件,对于一般使用,这个是可选的;但是如果后面需要以编译源文件的形式安装一些PostgreSql的扩展(例如Multicorn),它们在编译过程中需要这些文件,那么这个一定要有。

安装程序会创建postgres用户和postgres组,为了安全起见,建议将这个用户禁止从远程登录(具体方法请自行查找)。然后设置postgres用户的密码:

sudo passwd postgres

至此,postgresql9.3安装过程完成。

提醒:这个postgres用户是操作系统的用户,和后面将会讲到的数据库登录用户postgres不是一个东西,千万不要混淆。

1.2 设置PostgreSql Server:

1.2.1 首先初始化数据库:

sudo service postgresql-9.3 initdb

对于使用yum安装的PostgreSql Server,默认配置是服务器会将数据库的数据文件放在/var/lib/pgsql/9.3/data目录下,初始化数据库后,这个目录下保存有最基本的数据和配置文件;通常这个目录都是在磁盘的系统分区中,如果服务器有可靠性更高、速度更快的存储空间(例如磁盘阵列),最好把数据文件目录移到那里,移动的方法是:假设有一个磁盘阵列已经挂载在了/dwdata下,我们想将数据文件放在/dwdata/data/postgresql/目录下,则我们需要做如下移动:

sudo mkdir –p /dwdata/data

sudo cp –r /var/lib/pgsql/9.3/data/ /dwdata/data

sudo mv /dwdata/data/data /dwdata/data/postgresql

设置新数据目录及其所有内容的ownergrouppostgres

sudo chowm –r postgres /dwdata/data/postgresql

sudo chgrp –r postgres /dwdata/data/postgresql

1.2.2 然后修改PostgreSql Server的启动配置文件/etc/init.d/postgresql-9.3:

Sudo vi /etc/init.d/postgresql-9.3

找到如下字样的行:

# Set defaults for configuration variables

PGENGINE=/usr/pgsql-9.3/bin

PGPORT=5432

PGDATA=/var/lib/pgsql/9.3/data

PGLOG=/var/lib/pgsql/9.3/pgstartup.log

# Log file for pg_upgrade

PGUPLOG=/var/lib/pgsql/$PGMAJORVERSION/pgupgrade.log

这里面值得改的几个参数及其含义是:

  • PGPORTPostgreSql Server蹲守的TCP端口,一般用默认值即可;
  • PGDATA:数据文件目录,对于DW生产来说,要指定到磁盘阵列上;
  • PGLOGPostgreSql Server启动日志的位置,是一个全路径文件名;
  • PGUPLOGPostgreSql升级日志的位置,也是一个全路径文件名;

这里我需要将其中几个参数修改为新的数据文件目录:

PGDATA=/dwdata/data/postgresql

PGLOG=/dwdata/data/postgresql/pgstartup.log

PGUPLOG=/dwdata/data/postgresql/pgupgrade.log

PostgreSql就会将数据文件和关键的log文件放到创建的数据目录中。

1.2.3 启动和停止PostgreSql Server:

上述设置完成后,就可以用下述命令启动PostgreSql Server了:

sudo service postgresql-9.3 start

下述命令停止PostgreSql Server

sudo service postgresql-9.3 stop

下述命令检查PostgreSql Server的运行状态:

sudo service postgresql-9.3 status

下述命令重新启动PostgreSql Server

sudo service postgresql-9.3 restart

1.2.4 配置PostgreSql Server的网络参数:

PostgreSql Server的配置文件在数据文件目录中(在这里即为/dwdata/data/postgresql目录)。最主要的配置文件是postgresql.conf,里面有关于网络、性能、缓存大小等各类设置,对于具备多块网卡的服务器来说,最主要的设置是服务器监听的地址,在配置文件中可以找到如下条目:

#listen_addresses = ‘localhost’ # what IP address(es) to listen on;

# comma-separated list of addresses;

# defaults to ‘localhost’; use ‘*’ for all

# (change requires restart)

一般情况况下,要求PostgreSql Server在所有网卡上均监听,可以将此条目前的“#”注释符去掉,并改为:

listen_addresses=’*’即可监听来自所有网卡的请求。如果需要监听特定的网卡,则可以用网卡的IP地址替换“*”字符。

如需修改监听的端口,则可以找到#port=5432这一条目,去掉“#”注释符并按需要修改之。对于不直接暴露在公网上的服务器,不需要修改这个端口。

上述配置修改后,需要重新启动PostgreSql Server才能生效。

1.2.5 控制PostgreSql Server的访问权限:

为了保证安全,PostgreSql Server在安装后,仅允许来自服务器本机的连接,如果需要对PostgreSql Server进行网络访问(比如用另一台服务器访问,或者用图形化的管理工具从远程管理服务器),就需要对访问权限进行设置。

控制网络访问权限的配置文件是pg_hba.conf,在文件末尾会有如下条目:

# TYPE DATABASE USER ADDRESS METHOD

# “local” is for Unix domain socket connections only

local all all peer

# IPv4 local connections:

host all all 127.0.0.1/32 ident

# IPv6 local connections:

……

为了打开PostgreSql Server的外部访问,需要向文件末尾添加内容。例如:假如我们安装PostgreSql Server的服务器IP地址是192.168.66.23,我们希望该子网内(即IP192.168.66.*)所有计算机都能连接这台PostgreSql Server,并且都需要用户名/密码登录,则可以添加如下行:

host all all 192.168.66.1/24 md5

这个例子中,“192.168.66.1/24”表示允许所有IP“192.168.66.*”的计算机对服务器进行访问,“24”IP的掩码有24个二进制的“1”,就是子网掩码的概念;例如,如果我们希望所有IP“192.168.*.*”的计算机对服务器进行访问,则可以写为“192.168.1.1/16”

第一个all表示允许访问所有数据库,第二个all表示允许所有用户名的用户登录;这两个域的设置可以参阅该文件前面长长的说明内容,本文不再赘述。

最后的md5表示用加密后的密码进行用户名/密码匹配的认证,这里的“用户名”是指数据库的用户,而不是操作系统的用户。常用的几种其他认证方式有ident(与操作系统的用户名做映射,采用操作系统的认证,数据库用户与操作系统用户之间的映射在pg_ident.conf文件中配置)、password(在网络传送明文密码认证,不安全)、trust(完全信任)、peer(取客户端操作系统的用户名,一般仅用来做本地连接)。

通常,采用数据库用户的用户名和密码进行认证,即md5

1.2.6 使用psql命令行界面设置postgres用户的密码:

PostgreSql Server安装后,数据库中会有一个默认的用户叫postgres(注意这里是数据库登陆用户postgres,不是上面提到的操作系统用户postgres),具备管理员级别的权限。如果我们想通过图形化的管理界面登录到PostgreSql Server上对服务器进行管理,就需要先设置这个用户的密码,首先要切换到操作系统的postgres用户,该用户具有使用psql进行数据库管理的权限:

su postgres

然后执行psql,进入PostgreSql Server的命令行界面,提示符是“postgres=#”,这时我们就可以键入PostgreSql的命令了,例如用来修改用户密码的ALTER USER命令,我们将数据库用户postgres的密码修改为abcdefg

psql

postgres=#ALTER USER postgres with password ‘abcdefg‘;

ALTER ROLE

postgres=#\q

exit

上面一段命令中,粗体蓝色表示我们要键入的操作系统命令,灰色表示psql的提示与输出,蓝色表示我们要键入的PostgreSql命令。psql界面用\q命令退出。

于是PostgreSql Server具备了一个超级用户postgres,其密码是abcdefg。可以从远程用各种客户端工具连接这台服务器了。

1.2.7 在客户端安装图形化管理界面并连接PostgreSql Server:

目前PostgreSql比较成熟的图形化管理界面是PgAdmin,具有WindowsMacLinux等多种版本,网站是http://www.pgadmin.org/,支持PostgreSql Server 9.3需要PgAdmin 1.18.0或更高的版本。我们可以用自己的笔记本作为客户端,安装管理界面,前提是笔记本与服务器之间的网络是直接连通的,5432端口能够正常通信。

下载安装都是图形化的。安装完成并运行,由于尚未连接过任何服务器,所以Server Groups中是空的。

点击左上角的“Add a connection to a server”按钮:

初识Postgresql和Sqoop_第1张图片

在弹出的对话框中,填入PostgreSql Server的地址和用户信息:

初识Postgresql和Sqoop_第2张图片

Name一栏可以自行填写易于识别的名字;HostPostgreSql Server的机器名或IP地址;PortServer的端口(默认是5432);Service一栏留空;Maintenance DB留默认的postgres即可;Username填入postgres,这是上面被设定过密码的数据库用户;Password填入上面设定的密码,并勾选Store password。由于我是在Windows下安装PgAdmin来连接虚拟机中CentOS中的postgresql,因此需要利用VirtualBox的端口转发规则:Host是我在Windows下的IP地址(cmd->ipconfig);然后在VirtualBox中设置->网络->端口转发->插入新规则,如下图所示添加端口转发规则,自定义主机端口,子系统IPCentOSifconfig)中的IP地址,子系统端口是postgresql server端口,默认是5432


完成后点击OK按钮,即可看到Server Groups列表中多了一台服务器,点击它,即可一级一级的展开各种数据库对象:

初识Postgresql和Sqoop_第3张图片

         在使用pgAdmin连接postgresql数据库的过程中,总是出现“端口监听未开启”等的问题连接不上,经过各种排错,我把CentIOS中的防火墙关闭,并且关闭了SELinux功能,同时修改了postgresql的配置文件pg-hba.conf,添加host all all 10.0.2.2/24 md5,这样才最后成功连接。

至此,在CentOSPostgreSql 6上安装PostgreSql 9.3的过程就成功完成了,而且也具有了能够管理该PostgreSql Server的图形化管理界面,可以进行任何服务器管理、监控、用户增删、数据查询、存储过程编写和运行等各类工作了。

 

2 将文件放到HDFS上并使用Hive查询:

现有一份一千万条数据记录的文件FakeData,需要部署到HDFS上,先创建一个文件夹命名为FakeDataDirhadoop dfs –mkdir FakeDataDir

然后使用命令将文件放到HDFS上:hadoop dfs –put FakeData FakeDataDir

使用命令查看HDFS下的文件:hadoop dfs –ls

初识Postgresql和Sqoop_第4张图片

         进入hive的所在路径,我的是/usr/local/hive/hive-0.12.0/bin,输入以下命令:

./hive

初识Postgresql和Sqoop_第5张图片

创建外部表:

create external table if not exists fakedata(JULIAN_DATE string, PLATFORM string,…, LOG_ID double) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ location ‘/user/root/FakeDataDir’

注意由于LOG_ID字段是一个20位整随机数,所以使用double类型。

由于数据文件是由逗号分隔,所以TERMINATED BY ‘,’

最后定位数据文件所在位置,被放在HDFS路径/user/root/FakeDataDir下,注意location只要写文件所在目录即可。

         这样就可以通过hive对数据文件进行查询了,如下图所示:

初识Postgresql和Sqoop_第6张图片

 

3 安装Sqoop1.3.0并将数据从HDFS导入到Postgresql数据库:

首先需要在postgresql中创建表fakedata;然后在CentOS 6.4上安装Sqoop

yum install sqoop

并且下载postgresql-9.3-1100.jdbc41.jarhadoop-0.20.2-CDH3B4.tar.gz,放入sqoop所在路径的lib文件夹下/usr/lib/sqoop/lib。同时需要修改配置文件configure-sqoop,将hbasezookeeper注释掉检查:(除非需要使用HBaseHadoop组件)

初识Postgresql和Sqoop_第7张图片
初识Postgresql和Sqoop_第8张图片

并且确保sqoop所需的HADOOP_HOME正确指向hadoop安装目录,执行echo $HADOOP_HOME查看HADOOP_HOME是否正确配置。

然后使用命令将之前部署在HDFS上的数据文件导入postgresql

./sqoop export --connect jdbc:postgresql://localhost:5432/postgres --username postgres --password 123456 --table fakedata--fields-terminated-by ',' --export-dir /user/root/FakeDataDir

这样就可以使用pgAdminpostgresql中进行查询了。

需要注意的是,sqoophadoop可能会出现连接失败,提示:ident authenation failed for user postgres,这时需要修改postgresql的配置文件pg_hba,conf,修改postgresql的认证方式为trust:

local all all trust

host all all 127.0.0.1/32 trust

这样终于能够将postgresql连接到hadoop。


       然后我对fakedata文件中的数据进行计算,并需要把计算结果导出到postgresql数据库中,按照如下步骤进行:

1、通过pgAdmin在postgresql中创建表,建表的字段和数据类型要符合计算结果的字段和数据类型。

2、然后在hive中创建相应的表作为存储计算结果的临时表。在浏览器输入localhost:50070,browse the filesystem,hive内部表默认位置在hive安装路径conf下的hive-site.xml中规定,设置为/user/hive/warehouse。输入下面命令建表:

create table success(pv bigint, uv bigint) row format delimited fields terminated by ‘,’;(不设置行分隔符默认为\001,是8进制的ASCII码序始字符SOH,start of header)

show tables;

desc success;

insert into success select sum(pv), count(distinct uv) from testdata group by julian_date;

3、然后通过sqoop将hive的表中的数据导出到postgresql数据库中:

./sqoop export –connect jdbc:postgresql://localhost:5432/postgres –username postgres –password 123456 –table testdata –fields-terminated-by ‘,’ –export-dir /user/hive/warehouse/success

注意:由于是初学者,我在实践过程中在分隔符上栽了大跟头,还是要注意这些命令的细节!这篇文档也不完全是自己完成的,当然要感谢提供我材料和解决方案的技术人员!!!

你可能感兴趣的:(hdfs,PostgreSQL,sqoop)