SQLite 体系结构

                   SQLite体系结构

简介
      这份文档描述了sqlite数据库的体系结构,这些信息对想理解或者修改内部工作原理的朋友们会很有用。


SQLite 体系结构_第1张图片 

    上图中包含了sqlite的主要的模块以及它们是怎么关联的。下面就简要介绍一下每个模块。
  (这份文档描述的是sqlite 3.0版本的,2.8以及以前的大体相似只是细节上有点不同)

 

接口
     大部分sqlite的接口在main.c,legacy.c,vdbeapi.c源文件中实现,但是有些常规性的分散在其他的文件中,因为它们可以在文件作用域内访问一些数据结构。比如,sqlite3_get_table() 在table.c中实现,sqlite3_mprintf() 在printf.c中实现,sqlite3_complete()在tokenizer.c中实现,tcl接口在tclsqlite.c中实现,更多关于sqlite的c接口可以访问
     为了避免与其他的软件产生命名冲突,所有的对外符号都以sqlite3作为前缀。(也就是说,这些符号构成了sqlite的api)

 

分词器
     当一个包含sql语句的字符串执行的时候,接口把字符串传递给分词器。分词器的工作就是把原始的字符串分割成标记,然后一个一个的传给语法分析器。这个分词器在tokenizer.c中用c实现。

     注意在这个设计里面,分词器调用语法分析器。那些熟悉YACC或者BISON的朋友们习惯用另一种方式设计-----用语法分析器调用分词器。sqlite的作者分别用这两种方法实现过,最后发现第一种方法工作效率比较高。YACC有很多局限性。

 

语法分析器
     语法分析器是一个根据环境给符号赋予意义的模块。这个分析器用了lemo的LALR(1)分析器生成。lemon跟YACC/BISON差不多,但是它用了一种很少产生错误的输入句法(syntax),而且lemon可以产生一个可重入(reentrant)和线程安全(thread-safe)的分析器。lemon可以定义无端点的破坏(non-terminal destructor)的概念,所以当出现错误句法时不会出现内存泄露。
     由于lemon是一个一般不会经常使用的程序,lemon完整的源文件(就一个c文件)在sqlite发布版本的tool文件夹下。关于lemon的文档在doc文件夹下。

 

代码生成器
      在分析器把符号翻译(assemble)成完整的sql语句的后,它会调用代码生成器产生sql语句需要执行的虚拟机代码。代码生成器包含很多文件,attach.c,auth.c,build.c,delete.c,expr.c,insert.c,pragma.c,select.c,trigger.c update.c,vacuum.c和where.c。这些文件是大部分古怪魔法(serious magic)发生的地方。expr.c处理表达式的代码生成,where.c 处理select,update,delete语句中where子句的代码生成,attach.c,delete.c insert.c select.c trigger.c update.c 和 vacuum.c 处理跟它们名字有关语句的代码生成(当有必要时,这些文件调用expr.c和where.c中常用的函数)。其余的sql 语句在build.c中生成。auth.c文件实现sqlite3_set_authorizer()接口.
 
虚拟机
   由代码生成器生成的代码被虚拟机执行。更多的关于虚拟的的信息可以访问————。摘要而言,虚拟机实现了一个专门处理数据库文件的抽象的计算引擎(abstract computing engine)。这个虚拟机包含了一个作为中间存储器的栈,每条指令包含一个操作码和多达3个的操作数。
    这个虚拟机完全在vdbe.c中实现,它有自己的头文件vdbe.h,里面定义了虚拟机和其他的模块的接口。vdbeInt.h里面定义了虚拟机里面私有的数据结构,vdbeaux.c里面包含了虚拟机常用的工具,也包含了其余为构造虚拟机程序的库的接口模块。vdbeapi.c 包含了虚拟机对外的接口比如sqlite3_bind_... 的函数族。数据类型(individual values)(strings,integer,floating point numbers,和BLOBs)存储在一个内部的叫做“mem”对象当中,在vdbemen.c中。
    sqlite用回调c语言函数(c-language routines)的方法实现sql 函数。甚至内建的sql函数都是用这种方式实现的。很多内建的sql函数(比如coalesce(),count(),substr(),还有很多),在func.c中实现,数据和时间的转换函数在date.c中实现。

 

B-Tree
   sqlite数据库在硬盘上用B-tree实现,具体代码在btree.c中。在数据库中的每个表和索引都使用单独的b-tree。所有的b-tree存储在用一个文件中。文件格式的细节在btree.c开头的一大段注释中记录。
   b-tree的接口在btree.h头文件中记录。

 

页缓存
  B-tree模块需要以一个固定大小的块从硬盘读取数据。默认的块大小是1024个字节,可以在512和65536个字节间变化。页缓存的任务是读,写,缓存块。页缓存提供回滚,原子委托抽象(atomic commit abstraction),处理数据文件的锁。b-tree需要从页缓存请求特殊的页,当修改页,委托,回滚时通知页缓存,页缓存处理所以的细节以确定快速,安全,高效的处理请求。

  实现页缓存的代码在pager.c中,页缓存子系统的接口在pager.h头文件中定义。

 

操作系统接口
   为了在POSIX和win32操作系统之间移植,sqlite用了一个抽象的层作为与操作系统间的接口。实现OS抽象层的接口在os.h中定义,每一种支持的系统有它们自己的实现方式,os_unix.c为unix,os_win.c为windows,当然也有自己相应的头文件os_unix.h和os_win.h,等等。

工具
  内存配置和字符串比较的功能在util.c中,语法分析器用到的符号表用hash 表实现,具体代码在hash.c中。utf.c包含了Unicode转换子程序。sqlite有它自己printf()实现(增加了很多功能),在printf.c中。也有自己的随机数生成的实现,在random.c中。
  
测试代码
    如果你依赖测试脚本,一多半sqlite的代码是为了测试用的。很多assert()语句在主代码文件中。另外,从test1.c到test5.c和md5.c只是为测试实现的,os_test.c中的接口是为了模拟断电时,核实页中错误恢复机制的。
 
  
  (注:第一次翻译,深刻体会到翻译是多么困难的一件事,也感觉到自己的英语,写作水平太菜了。原文:http://www.sqlite.org/arch.html)
 
 
 

你可能感兴趣的:(C/C++)