专栏内容:
- 手写数据库toadb
本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。
本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。
开源贡献:
- toadb开源库
个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.
经过前面几个专栏,我们了解了数据库作为基础软件,类似于操作系统,几乎涉及到数据的应用都会使用;我们也通过手写数据库内核,开源了一款数据库,名叫toadb,它是一个轻量级的、开源的关系型数据库,它提供了基本的SQL支持和数据存储管理功能。相比于其他成熟的数据库产品,toadb更加简单和易于理解,适合初学者和数据库内核开发人员使用。通过学习和使用toadb,我们可以更好地理解数据库的基本原理,掌握数据库的核心技术,为以后的数据库设计和优化工作打下坚实的基础。
toadb是使用C语言编写,在内核开发过程中,我们发现一些初学者,对于数据库中使用C语言方法和技巧,阅读代码时需要学习。本专栏就特别将这些方法和技巧整理出来,方便初学者系统的了解和学习,以便很快能上手数据库内核的开发,不致于在开发语言层面遇到很多障碍,更多精力在数据库理论的实践。
本专栏建议为学习过C语言基础知识的读者,可以进一步深入学习,更贴进实际项目的开发应用。
本文主要分享一下,C语言中最常用的数据结构常用的使用方法和技巧。C语言为了定义复杂的数据类型,引入了数据结构 struct,可以通过对基础数据类型的组合,自定义符合现实的组合类型。因为是对于多个基础数据类型的组合,所以引出了很多问题,如数据结构的大小如何计算,成员的地址是多少,字节大小端带来的影响如何消除等等。
通过以下四部分来系统的了解结构的知识:
如何定义出一个符合我们代码要求的结构体类型,同时在使用中可以简单明了,下面我们一起来看一下实际中如何定义。
在C语言中结构体的定义很简单,如下:
#define NAME_MAX_LEN 64
struct ColumnDefInfo
{
char colName[NAME_MAX_LEN];
int type;
int options;
};
这样就定义了一个名为ColumnDefInfo
的结构定,当我们定义该类型的变量时,会如下使用
struct ColumnDefInfo stColumn;
每次都要多写struct
这个单词,当写上几十上百遍时,是不是也很烦的;这就用到C语言的一个特性,给这个结构体定义一个别名,平常使用别名就可以
typedef struct ColumnDefInfo
{
char colName[NAME_MAX_LEN];
int type;
int options;
}ColumnDefInfo;
ColumnDefInfo stColumn; // 定义变量
在定义结构体struct ColumnDefInfo
的同时定义别名为ColumnDefInfo
,这样在定义变量或引用结构体类型的地方,就可以直接使用别名即可,是不是看这简洁很多,当然为了区分结构体类型,可以加上st
等前缀,统一命名。
C语言的实际使用中,避免不了指针类型,结构体类型的指针也是我们常用的,当函数参数需要传递结构体时,需要动态分配空间时等等,普通写法如下:
ColumnDefInfo *pstColumn = NULL; // 定义变量
每次都会像普通类型定义指针一样,当然也没有错,因为结构体名已经是复杂类型了,如何通过类型就能区分是值还是指针类型呢? 高手一般会如下定义。
typedef struct ColumnDefInfo *PColumnDefInfo;
或者在结构体定义时,同时定义好对应的指针类型。
typedef struct ColumnDefInfo
{
char colName[NAME_MAX_LEN];
int type;
int options;
}ColumnDefInfo, *PColumnDefInfo;
PColumnDefInfo pstColumn = NULL; // 定义变量
这时定义结构体指针,直接使用对应的指针类型PColumnDefInfo
,这样是不是又可以简洁一些,在函数入参中,看到这样的结构体名,我们立马就可以知道它是指针类型了。
结构体可以定义出来很复杂的类型,但是现实世界更复杂,很多事务都有层次关系,这就必须用到嵌套的结构体定义。
比如表是有行数据组成,那么表的结构体定义中,嵌套有行的结构体定义,如下:
#define FLEXIBLE_SIZE 10
typedef struct TableMetaInfo
{
int tableId;
int tableType;
char tableName[NAME_MAX_LEN];
int colNum;
ColumnDefInfo column[FLEXIBLE_SIZE];
}TableMetaInfo, *PTableMetaInfo;
这次在定义时,就直接使用了上面介绍的技巧,别名,指针类型定义。我们定义了一个表的结构体TableMetaInfo
,表有名字,ID等,还有行数量,以及行的数据结构定义,因为行的数量不确定,所以这里定义是一个数组。
对于嵌套结构体,在引用成员时,就有一些麻烦,如果在几层的嵌套,可以写一长串。
PTableMetaInfo stTblInfo;
int i;
// 其它代码
stTblInfo->colum[i].type = 1;
这里需要注意的是,在嵌套结构体时,要注意内层成员结构体是值类型,还是指针类型,如果是值类型就要用.
来引用成员,如果是指针定类的话用->
引用成员,在实际使用中,我们可以看到在一条语句中两个混合使用的情况,这就是根据不同的类型进行选择。
每一个表中的数据行,在结构体定义时,我们是不能预知的,它可以有一行,也可以有一万行,那如何定义这个数据结构呢,这就是可变长结构体定义;可变长的数据结构定义中,有一个成员来记录变长部分的大小,如行的数量colNum
,而column
是行数据,它的数量在每个表中都是不一样的,由动态决定大小。
使用变长结构体方法来定义,如下
#define FLEXIBLE_SIZE
typedef struct TableMetaInfo
{
int tableId;
int tableType;
char tableName[NAME_MAX_LEN];
int colNum;
ColumnDefInfo column[FLEXIBLE_SIZE];
}TableMetaInfo, *PTableMetaInfo;
其中,行数据数组 column[FLEXIBLE_SIZE]
的维度定义FLEXIBLE_SIZE
并没有给出明确的值,这里相当于可变数组的定义
int array[] = {1,2,3};
此时,TableMetaInfo
结构体默认大小中,其实没有包括行的结构定义大小,我们通过程序简单输出它们的size。
printf("table size=%d, column size=%d\n", sizeof(TableMetaInfo), sizeof(ColumnDefInfo));
得到的结果如下
table size=76, column size=72
可以看到TableMetaInfo
结构体默认大小只有前四个成员的大小,并不包括行数据结构的大小。那么问题来了,如何定义变量呢?
在定义变量时,我们一般动态申请内存,再通过成员数组来访问。
不管是动态申请内容,还是局部变量的定义,我们都需要知道结构体占多少内存空间,尤其是在多并发之间进行交互时,要尽量减少交互数据量。
下面介绍一下结构体大小,在实际应用中的那些事儿。
在介绍结构体大小时,我们首先要知道计算机存储我们的变量值时,并不是按照从左到右完成从高位到低位的存储,而是不同操作系统规定了自己的一个字节顺序。
在常用的X86 CPU架构中,常用的就是小端存储,即0x1234, 在内存中低位是0x34,高位是0x12,进行了反转。
这在一些结构体转为其它类型时,常常会遇到字节序问题,还有一些网络数据转为结构体数据时,明明看似没有问题,但是成员的值就是不对,这就是不同数据对应的字节序在作怪。
对于结构体这一复杂的自定义类型,计算机对访问内存做了一定的优化,也就是字节对齐。如下结构体,
typedef struct A
{
char a;
int b;
double c;
}st_A;
这个结构体st_A
中只有三个成员,sizeof(st_A)
算出来是16字节,符合你的预期吗? 单从代码看,只有13字节,如何多出了3字节呢? 这就是计算机内部优化的结果,成员b
的地址被对齐到了四字节上,也就是成员a
与b
的地址相差4,而不是字面上的1字节,这样就多出了3字节。
如果定义了一个结构体类型的唯一标识,而其中成员的类型不同时,将这个标识按字节进行计算hash值时,就会存在问题,因为多出来的3字节,永远不知道它的值到底是什么,那么虽然成员的值都是一样的,但是算出来的hash却有可能不同。
上面介绍了,计算机会对结构体采用字节对齐的优化,当然这是一种空间换时间的方式。如果我们对于空间比较敏感时,就要放弃这种默认的优化了,这就定义成紧凑格式。
typedef struct __attribute__((packed)) A
{
char a;
int b;
double c;
}st_A;
这样就告诉编译器,不要在成员间加多余的字节。有多种写法,也可以用 __attribute__((aligned(1)))
。
C语言中经常使用地址来访问内存,如结构体的指针,也即地址,那么对于结构体类型的变量,它会有几种地址需要我们注意了。
想必大家会有疑问,结构体的首地址,就是结构体指针内容嘛,不是很简单吗?
没错,是的,我们举个例子来说明。
/* 10个table ,平均每个table 中有4行数据 */
PTableMetaInfo tbl = (PTableMetaInfo)malloc(sizeof(TableMetaInfo) * 10 + sizeof(ColumnDefInfo) * 40);
PTableMetaInfo pstTbl = tbl;
这里用指针pstTbl
来遍历数组tbl
,那么pstTbl++
都会移动sizeof(TableMetaInfo)
字节,这样使用是正确的吗?
前面我们介绍了变长结构体,这里的sizeof(TableMetaInfo)
中,是不包括最后一个成员的长度的,所以下一个数据结构的首地址不是通过默认的偏移得到的,这里就需要计算了,根据成员colNum
来计算需要偏移多少了。
#define GET_NEXT_TABLE(addr) ((addr) + sizeof(TableMetaInfo) + (addr)->colNum * sizeof(ColumnDefInfo))
GET_NEXT_TABLE
这个宏定义,就是进行可变长结构体的数组偏移计算,而不是简单的通过默认运算得到。
结构体成员的地址,可以通过->
或 .
引用的方式获得,当然也可以计算获得,比如ColumnDefInfo
结构体中,成员type
与结构体首地址相差64字节,就可以通过首地址来计算。
通过计算方式获取成员的地址时,尤其在非紧凑格式的定义的结构体时,就需要特别注意结构体成员并不一定是基础类型的字节数,要根据结构体类型字节对齐规则进行计算;对于可变长结构体,不能使用指针的默认+1移动方式,需要自己计算偏移,这在另一篇博客《C语言可变数组 嵌套的可变数组》中有详细介绍。
结构体的赋值方法不同于基础类型,也有很多方式进行赋值,需要正确的使用。
一般结构体类型的变量,我们都会清零操作,有两种方法进行初始化为零,如下示例:
struct ColumnDefInfo stColumn = {0};
memset(&stColumn, 0x00, sizeof(stColumn));
当结构体中有指针成员时,在结构体拷贝时就会存在深拷贝和浅拷贝的问题。当一处结构体直接赋值给另一个结构体变量时,它们的指针成员指向的地址是一样的,所以释放内存时需要判空,非空时才释放。
当结构体中有可变长成员时,与指针成员一样,赋值时需要特别注意,两个结构体变量内存大小是否可以容纳新值。
在数据库中,尤其执行计划,执行器处理等地方,为了方便统一使用相同的函数调用,将不同类型的结构体会强转成统一的类型,如下所示:
typedef struct Node
{
NodeType type;
}Node, *PNode;
typedef struct NestLoop
{
NodeType type;
PNode leftplan;
PNode rightplan;
PNode expr; /* join expr */
int isJoin;
int mergeType;
PList targetList; /* result columns */
}NestLoop, *PNestLoop;
PNestLoop nl = NewNode(NestLoop);
PNode node = (PNode)nl;
为了达到可以相互转换,如示例所示,在结构体NestLoop
的第一个成员为type
, 与结构体Node
的成员是一致的,这样由NestLoop
强制转换为Node
类型时,就只能看到成员type
了。
这样类似的其它节点类型,都可以转为结构体Node
,然后根据节点类型选择不同的处理调用,进行执行,这样就可以达到统计处理调用的目的。
在我们进行C语言学习时,只是学习了基础的结构体使用,需要在实际使用中不断加深对它的理解,从内存部局,成员地址对齐,拷贝赋值等各方面进行探索,在数据库中,对于C语言结构体的使用方法非常丰富,在学习数据库内核过程,我们对于C语言的驾驭也会精进。
非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!
作者邮箱:[email protected]
如有错误或者疏漏欢迎指出,互相学习。