URL队列(爬虫队列)-Berkeley DB的使用示例(Java)

网络爬虫中URL队列即爬虫队列是较为关键的数据结构,对于数据量要求不大的爬虫,我们可以简单的使用Java类库中的内存数据结构,例如链表或者队列来实现URL队列,但是当我们面对数以亿计的链接时,内存数据结构就会因内存的持续增长显得力不从心,这时就需要用到内存数据库-Berkeley DB,它能够存储海量数据,当数据超出内存限制时,能够把它固化在硬盘上,而且存取速度也非常快并且支持多线程访问。

Berkeley DB底层采用B树,可以看成能够存储大容量数据的HashMap,最开始是以C++版本出现的,然后在此基础上又实现了Java本地版本,可以从http://www.oracle.com/technetwork/database/database-technologies/berkeleydb/downloads/index.html 选择Java Edition下载,并将lib目录下的je-x.jar加入到工程类路径里就可以使用。

下面就说一下他的使用方法:

public class Jedion{
    private EnvironmentConfig envConfig = null;//数据库环境配置对象
    private Environment myDbEnvironment = null;//数据库环境对象
    private DatabaseConfig dbConfig = null;//数据库配置对象
    private Database myDatabase = null;//数据库对象
    private String envDir = "dbEnv";//用户指定目录,存放数据文件和日志文件
    private String dbName = "test";//数据库名称

    //配置创建环境对象
    public void configEnvironment(){
        envConfig = new EnvironmentConfig();
        envConfig.setAllowCreate(true);//如果设置了true则表示当数据库环境不存在时候重新创建一个数据库环境,默认为false.
        envConfig.setTransactional(true);//事务支持,如果为true,则表示当前环境支持事务处理,默认为false,不支持事务处理。
        envConfig.setReadOnly(false);//是否以只读方式打开,默认为false.
        /* envConfig.setCachePercent(50);//设置当前环境能够使用的RAM占整个JVM百分比 envConfig.setCacheSize(102400);//设置当前环境能使用的最大RAM,单位为byte */

        myDbEnvironment = new Environment(new File(envDir), envConfig);

    }

    //配置创建完环境对象后,可以用它创建数据库
    public void createDatabase(){   
        dbConfig = new DatabaseConfig();
        dbConfig.setAllowCreate(true);//如果设置了true则表示当数据库不存在时候重新创建一个数据库,默认为false.
        dbConfig.setTransactional(true);//事务支持,如果为true,则表示当前数据库支持事务处理,默认为false,不支持事务处理。
        dbConfig.setReadOnly(false);//是否以只读方式打开,默认为false.

        /* dbConfig.setBtreeComparator();//设置用于Btree比较的比较器,通常是用来排序 dbConfig.setDuplicateComparator();//设置用来比较一个key有两个不同值的时候的大小比较器。 dbConfig.setSortedDuplicates(true);//设置一个key是否允许存储多个值,true代表允许,默认false. dbConfig.setExclusiveCreate(true);//以独占的方式打开,也就是说同一个时间只能有一实例打开这个database。 */

        myDatabase = myDbEnvironment.openDatabase(null, dbName, dbConfig);

        System.out.println(myDatabase.getDatabaseName());
    }

    //像数据库中写数据
    public void writeToDatabase(String key, String value, boolean isOverwrite){
        try {
            //JE的记录包含两部分,key键值和value数据值,这两个值都是通过DatabaseEntry对象封装起来的
            //所以说如果要使用记录,则必须创建两个DatabaseEntry对象,一个是key,一个是value
            //DatabaseEntry内部使用的是bytes数组
            DatabaseEntry databaseKey = new DatabaseEntry(key.trim().getBytes("utf8"));
            DatabaseEntry databaseValue = new DatabaseEntry(value.trim().getBytes("utf8"));

            OperationStatus res = null;//操作状态码
            Transaction txn = null;//事务对象

            TransactionConfig txConfig = new TransactionConfig();//事务配置
            txConfig.setSerializableIsolation(true);//设置串行化隔离级别

            txn = myDbEnvironment.beginTransaction(null, txConfig);//开始事物

            if(isOverwrite)
                //添加一条记录。如数据库不支持一个key对应多个data或当前数据库中已经存在该key了,则使用此方法将使用新的值覆盖旧的值。
                res = myDatabase.put(txn, databaseKey, databaseValue);
            else
                //不管数据库是否允许支持多重记录(一个key对应多个value),只要存在该key就不允许添加,并且返回perationStatus.KEYEXIST信息
                res = myDatabase.putNoOverwrite(txn, databaseKey, databaseValue);

            txn.commit();//提交事务

            if(res == OperationStatus.SUCCESS)
                System.out.println("insert success");
            else if(res == OperationStatus.KEYEXIST)
                System.out.println("key exist");
            else
                System.out.println("insert fail");

        } catch (UnsupportedEncodingException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }


    public ArrayList<String> getAllFromDatabase() throws UnsupportedEncodingException{
        Cursor myCursor = null;//游标
        ArrayList<String> resultList = new ArrayList<String>();
        Transaction txn = null;

         txn = myDbEnvironment.beginTransaction(null, null);
         CursorConfig cc = new CursorConfig();//游标配置
         cc.setReadCommitted(true);//设置隔离级别

         if(myCursor==null)
             myCursor = myDatabase.openCursor(txn, cc);

         DatabaseEntry entryKey = new DatabaseEntry();
         DatabaseEntry entryValue = new DatabaseEntry(); 

         if(myCursor.getFirst(entryKey, entryValue, LockMode.DEFAULT) == OperationStatus.SUCCESS){
             String key = new String(entryKey.getData(), "UTF-8");
             resultList.add(key);
             while (myCursor.getNext(entryKey, entryValue, LockMode.DEFAULT) == OperationStatus.SUCCESS) 
             {
                 key = new String(entryKey.getData(), "UTF-8");
                 resultList.add(key);
             }
         }

         myCursor.close();

         txn.commit();
         return resultList;
    }
    //从数据库读取相应键值的数据
    public String readFromDatabase(String key){
        try {
            DatabaseEntry databaseKey = new DatabaseEntry(key.trim().getBytes("utf8"));
            DatabaseEntry databaseValue = new DatabaseEntry();
            Transaction txn = null;//事务对象

            TransactionConfig txConfig = new TransactionConfig();//事务配置
            txConfig.setSerializableIsolation(true);//设置串行化隔离级别

            txn = myDbEnvironment.beginTransaction(null, txConfig);//开始事务
            OperationStatus res = myDatabase.get(txn, databaseKey, databaseValue, LockMode.DEFAULT);

            txn.commit();//提交事务
            if(res == OperationStatus.SUCCESS){
                byte[] retData = databaseValue.getData();
                String foundData = new String(retData, "utf8");
                return foundData;
            }else{
                return "";
            }
        } catch (UnsupportedEncodingException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
            return "";
        }

    }

    //关闭数据库
    public void closeDatabase(){
        if(myDatabase != null)
            myDatabase.close();

        if(myDbEnvironment != null){
            myDbEnvironment.cleanLog();
            myDbEnvironment.close();
        }
    }
    public static void main(String[] args) throws UnsupportedEncodingException{
        Jedion edion = new Jedion();
        edion.configEnvironment();
        edion.createDatabase();
        edion.writeToDatabase("a", "www.baidu.com", false);
        edion.writeToDatabase("b", "www.sogou.com", false);
        System.out.println(edion.readFromDatabase("a"));
        System.out.println(edion.getAllFromDatabase());
        edion.closeDatabase();
    }
}

未完待续。。。。

你可能感兴趣的:(java,Berkeley)