BDB的全称Berkeley DB,是一套开放源码的嵌入式数据库的程序库。它为应用程序提供可伸缩的、高性能的、有事务保护功能的数据管理服务。Berkeley DB为数据的存取和管理提供了一组简洁的函数调用API接口。
BDB为多种编程语言提供了API接口,其中包括C、C++、Java、Perl、Tcl、Python和PHP,所有的数据库操作都在程序库内部发生。多个进程,或者同一进程的多个线程可同时使用数据库,有如各自单独使用,底层的服务如加锁、事务日志、共享缓冲区管理、内存管理等等都由程序库透明地执行。
BDB物理结构:
BDB所管理数据的逻辑组织单位是若干个独立或有一定关系的数据库(database),每个数据库由若干记录组成,这些记录全都被表示成(key,value)的形式。
如果把一组相关的(key,value)对也看作一个表的话,那么每一个数据库只允许存放一个table,这一点不同于一般的关系数据库。实际上,在Berkeley DB中所提到的“数据库”,相当于一般关系数据库系统中的表;而“key/data”对相当于关系数据库系统中的行(rows);Berkeley DB不提供关系数据库中列直接访问的功能,而是在“key/data”对中的data项中通过实际应用来封装字段(列)。
在物理组织上,每一个数据库在创建的时候可以由应用程序根据其数据特点来选择一种合适的存储结构。可供选择的四种文件存储结构分别是:哈希、B树、定长记录(队列)和变长记录(基于记录号的简单存储方式)。
其中定长记录和变长记录存储方法必须使用逻辑记录号(logical record numbers,本质上就是一个整数)做为key。
哈希和B树存储方法对key没有特别的要求。当数据量非常多时(内存不能放下所有数据时),建议使用哈希,因为哈希比B树的索引信息小,会少一些I/O操作。
BDB由五个主要的子系统构成.包括: 存取管理子系统、内存池管理子系统、事务子系统、锁子系统以及日志子系统。
数据存取(Access Methods)子系统为创建和访问数据库文件提供了多种支持。Berkeley DB提供了以下四种文件存储方法:
哈希文件、B树、定长记录(队列)和变长记录(基于记录号的简单存储方式),应用程序可以从中选择最适合的文件组织结构。
创建表时可以使用任意一种结构,并且可以在同一个应用程序中对不同存储类型的文件进行混合操作。
内存池(Memory pool)子系统对Berkeley DB所使用的共享缓冲区进行有效的管理。它允许同时访问数据库的多个进程或者进程的多个线程共享一个高速缓存,负责将修改后的页写回文件和为新调入的页分配内存空间。
它也可以独立于Berkeley DB系统之外,单独被应用程序使用,为其自己的文件和页分配内存空间。
内存池管理子系统适用于需要灵活的、面向页的、缓冲的共享文件访问的应用。
内存数据和硬盘文件的同步有两种方式:
1. 需要程序显式条用同步函数才能完成,当数据量比较大时同步比较慢,会造成大量的I/O操作,而且由于内部锁的原因,会对查询造成影响。
2. 在BDB打开时会设置一个cache的大小,也就是BDB使用内存的大小。如果超过这个大小,BDB会自动同步数据到硬盘文件。
事务(Transaction)子系统为Berkeley DB提供事务管理功能。它允许把一组对数据库的修改看作一个原子单位,这组操作要么全做,要么全不做。在默认的情况下,系统将提供严格的ACID事务属性,但是应用程序可以选择不使用系统所作的隔离保证。该子系统使用两段锁技术和先写日志策略来保证数据库数据的正确性和一致性。
它也可以被应用程序单独使用来对其自身的数据更新进行事务保护。事务子系统适用于需要事务保证数据的修改的应用。
在本次项目里,并没有用到事务,所以对此研究也不够深入。
锁(Locking)子系统为BDB提供锁机制,为系统提供多用户读取和单用户修改同一对象的共享控制。
数据存取子系统可利用该子系统获得对页或记录的读写权限;事务子系统利用锁机制来实现多个事务的并发控制。
该子系统也可被应用程序单独采用。锁子系统适用于一个灵活的、快速的、可设置的锁管理器。
目前的使用上来看,当使用BDB的进程异常终止时,所占用的锁并不能释放,需要删除BDB环境文件才能释放所有锁。这个问题后期再详细研究一下。
日志(Logging)子系统采用的是先写日志的策略,用于支持事务子系统进行数据恢复,保证数据一致性。
可以在http://www.oracle.com/technology/products/berkeley-db/index.html 现在最新的安装包和文档。
将安装包结压后,进入build_unix目录
../dist/configure
Make
Make install
就可以完成编译,安装
安装的默认目录是/usr/local/BerkeleyDB.4.5/,如果要安装到其他目录,在configure是指定--prefix=NEW_DIR即可。如果要使用BDB的c++,在configure指定--enable-cxx即可。
经常用的类有5个
1. DbEnv:环境类,主要用于设置BDB是否需要日志、是否需要锁等信息;提供打开、关闭等操作
2. Db:DB类,用户操作数据,提供打开、关闭、查找、删除、同步等操作
3. Dbt:数据类,向Db中存入、取出数据都需要使用这个类。
4. DbException及其子类:异常类
5. Dbc:游标类,当对数据库中多组数据进行操作时使用
#include <db_cxx.h>
#include <string>
#include <iostream>
using namespace std;
DbEnv *g_env = NULL;
Db *g_db = NULL;
void closeEnv()
{
try
{
if(g_db)
{
g_db->close(0);
delete g_db;
g_db = NULL;
}
if(g_env)
{
g_env->close(0);
delete g_env;
g_env = NULL;
}
}
catch(...)
{
}
}
int main()
{
//环境目录,日志文件将创建在这个目录下
string strEnvHome = "./db/";
//创建DB|初始化日志
unsigned int nEnvFlags = DB_CREATE | DB_INIT_LOG | DB_INIT_MPOOL;
//db文件名
string strDbFileName = get_current_dir_name();
strDbFileName += "/db/datafile";
try
{
g_env = new DbEnv(0);
g_env->set_error_stream(&std::cerr);
g_env->set_cachesize(0, 10 * 1024 * 1024, 1);
//打开环境
g_env->open(strEnvHome.c_str(), nEnvFlags, 0);
g_db = new Db(g_env, 0);
g_db->set_error_stream(&std::cerr);
//用B树的结构打开数据库,如果不存在则创建
g_db->open(NULL, strDbFileName.c_str(), NULL, DB_BTREE, DB_CREATE, 0);
}
catch(DbException& e)
{
cout<<"打开数据库出错:"<<e.what()<<endl;
closeEnv();
return -1;
}
Dbt key, data;
char sKey[1024], sData[1024];
//插入数据库
try
{
for(int i=0; i<100; i++)
{
snprintf(sKey, sizeof(sKey), "key%d", i);
snprintf(sData, sizeof(sData), "data%d", i);
key.set_data(sKey);
key.set_size( strlen(sKey) );
data.set_data(sData);
data.set_size( strlen(sData) );
//put方法:当数据库中有对应的key时,做updata操作;当没有对应的key时,做insert操作
if( g_db->put(NULL, &key, &data, 0) != 0)
{
//插入出错
cout<<"插入第"<<i<<"个数据时出错"<<endl;
}
}
}
catch(DbException& e)
{
cout<<"写入数据库出错:"<<e.what()<<endl;
closeEnv();
return -1;
}
//同步内存的数据到文件
g_db->sync(0);
//查找数据
try
{
snprintf(sKey, sizeof(sKey), "key%d", 57);
key.set_data(sKey);
key.set_size( strlen(sKey) );
if(g_db->get(NULL, &key, &data, 0) != 0)
{
//未查找到
cout<<"未查找到,key:"<<sKey<<endl;
}
else
{
//查找到
memcpy(sData, data.get_data(), data.get_size() );
sData[data.get_size()] = '/0';
cout<<"key:"<<sKey<<";data:"<<sData<<endl;
}
}
catch(DbException& e)
{
cout<<"查找数据库出错:"<<e.what()<<endl;
closeEnv();
return -1;
}
//用游标遍历
try
{
Dbc *cursorp;
if( g_db->cursor(NULL, &cursorp, 0) != 0)
{
cout<<"[get cursor 错误."<<endl;
}
else
{
while (cursorp->get(&key, &data, DB_NEXT) == 0)
{
memcpy(sKey, key.get_data(), key.get_size() );
sKey[key.get_size()] = '/0';
memcpy(sData, data.get_data(), data.get_size() );
sData[data.get_size()] = '/0';
cout<<"key:"<<sKey<<";data:"<<sData<<endl;
}
}
}
catch(DbException& e)
{
cout<<"用游标遍历出错:"<<e.what()<<endl;
closeEnv();
return -1;
}
closeEnv();
}
berkeleydb 相关资源 :http://www.berkeleydb.net/