postgresSQL的FDE加密

postgresql数据库的应用越来越广泛，为了提高数据库的安全性，可以对数据库进行加密，下面介绍一种对postgresql数据库加密的方法FDE，这种加密方法针对磁盘文件进行加密，对于用户完全透明，在启动之后不需要用户做额外的操作就可以使用，很方便。

FDE概述：

FDE全称Full database encryption，是全数据库加密，也可以叫全磁盘加密。FDE加密对客户端完全透明，当数据从sharedbuffer中写入到磁盘中时，进行加密，反之，进行解密，加解密的单位为一个page页。

FDE的加密范围包含表、索引、序列、FSM（free space maps空闲空间映射表）文件、VM（visibility maps可见性映射到表）文件，以及系统表、预写式日志（WAL），SLRU文件（clog、commit_ts, multixact, notify, subtrans）和查询时产生的临时文件。

FDE加密可以指定加密算法进行数据加密。可选的算法有 AES128，AES192，AES256，Blowfish des 3des cast5。

FDE的算法/秘钥通过秘钥管理工具管理，这里使用LDAP服务器作为秘钥管理工具。

LDAP服务器的配置方法在另外的文章里有介绍：https://my.oschina.net/ashnah/blog/845499

FDE加密基于pgcryto实现，启用加密的方法为：在初始化时通过参数--data-encryption（-K）指定加密使用的模块，即--data-encryption pgcryto 或 -K pgcryto。

使用方法：

数据库加密只能在初始化的时候启动。启动加密时需要指定以下的参数：

通过initdb的参数--data-encryption(-K) 指定需要的模块；（必须指定）

通过--key-url(-P)指定存储秘钥的LDAP服务器的url; （必须指定）

通过 --encryption-algo(-C)指定加密算法；（必须指定）

可选的选项：aes-128、aes-192、aes-256、blowfish、des、3des、cast5

通过--new-key(-e)指定是否使用新的秘钥; （可选，当使用--new-key参数时，表示需要指定新的秘钥，否则，使用LDAP中既存的秘钥。）

比如：initdb --data-encryption pgcrypto --key-url ldaps://192.168.10.40:636?cn=Manager,dc= example,dc=com?123 -a blowfish --new-key -D ../data

--key-url结构：

ldaps://ip:port?binddn?bindpassword

binddn为连接LDAP的用户，也是存储秘钥的根节点。

以上指定的信息会存储在配置文件postgresql.conf中：

encryption_library = 'pgcrypto' //指定的加密模块，启动时会根据该参数加载pgcrypto模块

keystore_url = 'ldaps://192.168.10.40:636?cn=Manager,dc=example,dc=com?123'

initdb中指定的-key-url ，在配置文件中是加密存储的

keyDn = 'uid=9,dc=blowfish,dc=keyManager,cn=Manager,dc=example,dc=com'

数据库对应的秘钥的dn，秘钥写入LDAP后，把相应的dn并存储（使用既存的秘钥时，存储使用的秘钥对应的dn）。

加密的效果：

启用FDE对数据库进行加密有什么效果呢？我们对启用FDE的数据库和未启用FDE的数据库做同样的操作：

create table p(name text);

insert into p values('aaaaaaa');

insert into p values('bbbbbbb');

看一下二者磁盘中的文件：

未启用FDE加密：

启用FDE加密：

可以看出在未启用FDE的数据文件中，可以看到我们插入的数据；而启用FDE加密后的磁盘文件成了我们不认识的乱码。

启用FDE加密后，磁盘中文件都是加密的，即使得到数据库的磁盘，没有秘钥也无法知道数据库中的内容。FDE把秘钥存储在另一台LDAP服务器上，且是加密存储的，大大提高了数据库的安全性。

那启用FDE加密会不会影响数据库的性能呢？答案是肯定的，但是数据运行一段时间之后，这种影响将会越来越小，后面可以忽略不计。为什么呢？我们从原理看起：

FDE的原理：

如上图，当数据库初始化时，用户指定加密的秘钥和算法，并存储到LDAP服务器中。当数据库启动时，从秘钥管理工具(LDAP)中取得算法和秘钥(algo&key)，存入全局变量中。当需要从sharedBuffer中向磁盘中刷入page块时，使用全局变量中的算法和秘钥进行加密；当需要把磁盘中的page读入到sharedBuffer中时，进行解密。

从加解密的时机可以看出，只有读写磁盘的时候才会加解密，其他时候正常运行，不会造成额外负担。当数据库刚启动时，需要从磁盘向shared buffers中读取很多的数据，此时需要解密，负担较重，如果我们设定一个较大shared buffer，随着数据库的运行，很多page都已经读取到shared Bufer中，读写磁盘的次数会大大减小，此时，启用的FDE加密对性能的影响已经很小了。

数据校验：

在数据库初始化时，使用取得的algo&key加密了一个已知的字符串并存储在pg_control文件中

当数据库启动时，判断取得的algo&key能否正确加密pg_control文件中的加密字符串，若能，则可以正常启动，否则，将无法启动并提示错误信息。

加密算法：

FDE支持多种加密算法，可以在初始化数据时指定。

FDE支持的加密算法和对应的模式有以下几种：

算法	模式
AES-128	XTS
AES-192	XTS
AES-256	XTS
BlowFish	CBC
DES	CBC
3DES	CBC
CAST5	CBC

以上的加密算法都是对称加密算法。

CBC是对称算法的一种常见的模式，具体原理可以参照：https://my.oschina.net/ashnah/blog/870509，此处不再赘述。

以下我们重点看一下XTS模式：

XTS模式：

XTS模式是一种适用于AES加密算法的加密模式。有如下的特点：

1、明文被分成固定长度的cipher block(如AES-128的128bit)

FDE中，以page为单位加密，把一个page分成多个128bit的cipher block；

2、每个cipher block之间相互独立

3、以cipher block为单位进行加密，加密时使用该cipher block的index信息(即Tweak，通常为位置信息)作为输入，使得同样的明文，在同样的算法和秘钥之下，得到的密文不相同，增加加密的安全性。

在FDE加密中，Tweak为page的位置信息，由page所在的文件和page在文件中的位置计算而来。

XTS加密的原理如下：

如上图，对于每个cipher block的，都依照以上的方式加密：

用随机字符串计算出256bit的key，分成key1 key2，分别用来加密tweak和page。

用key1加密后的tweak(128位)，在每一个cipher block加密时与之进行两次异或运算，即：明文→与tweak密文异或→用key2加密→再与tweak密文异或→密文。

秘钥管理及使用方法：

LDAP中的存储结构：

FDE的秘钥使用LDAP服务器进行管理，在LDAP服务器的结构如下：

在域keyManeger下面根据算法分为不同的域，算法域下面使用对象类account存储秘钥。属性uid标记秘钥的编号，属性description存储秘钥的内容。

在属性description中存储以‘encryptionkey=’开头的秘钥,秘钥是加密存储的；数据库方面存储相应秘钥的dn，并通过dn取得相应的秘钥和算法

一条数据的dn为：uid=9,dc=blowfish,dc=keyManager,cn=Manager,dc=example,dc=com

标黄部分为binddn。

由前面的原理图可以看出，在初始化阶段把用户指定的秘钥和算法存入LDAP服务器，在启动时读取算法和秘钥，具体的过程如下图所示：

正常启动数据库时，过程也如标黄部分。

结语：

从上面的介绍中可以知道：

FDE加密时对用户完全透明的一种加密，只需要在初始化时通过参数指定加密的信息，之后的使用不需要做额外的操作，方便易用；

FDE加密加密磁盘，且把秘钥存储在远端的LDAP服务器上，安全性较高；

FDE加密虽然在数据库启动之初的一段时间对性能有一定的影响，但随着数据库的运行，对性能的影响会变得很小。

另外，除了使用LDAP进行秘钥管理，还可以使用环境变量或者指定命令来管理秘钥：

环境变量

设定环境变量PGENCRYPTIONKEY为随机的字符串，当数据库初始化/启动的时候，读取环境变量的字符串，使用hash算法生成秘钥，使用该秘钥进行数据的加解密。

使用这种方法进行数据库加密，秘钥存储在本地的环境变量中，安全性不高。

指定的命令

设定一个可以取得key的命令，在配置文件postgresql.conf的keysetup_command中指定该命令。比如在文件key中写入：

encryptionkey=3bac85f2bf75b046228f39a2a2bbaafba960b4d84959fd22d64b2ef7feb05d77

设定keysetup_command =‘cat ~/key’。

则在数据库初始化/启动的时候,会根据该命令读到key的值。

和使用环境变量一样，使用这种方法进行数据库加密，只要执行命令就可以得到秘钥，安全性不高。