聂小影

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制...

一、为什么要用C语言

我曾经的理想是一直用汇编语言来编写操作系统，因为只有用汇编语言才能感觉到自己是下沉到计算机的最底层来控制它，一旦动用了其它的更高级的语言（如C语言），会让自己觉得自己的工作再也不那么“纯粹”了。因为高级语言是建立在已有操作系统和别的编译器基础之上的。我们的目标本来就是从0开始造一个操作系统，可是还没写出来之前就先用了别人的操作系统和工具了，这样的感觉让人感到气馁。

但是，换个角度想就完全有不同的感受了。难道用汇编语言来写操作系统就没有建立在别人的工作基础之上吗？一样的需要汇编语言汇编器啊，别人同样为你做了很多的工作。我们在前面写汇编语言编写操作系统的过程中，用了无数的工具、软件和API（如BIOS中断）等，这些全都是建立在别人的工作基础上的。哪怕是你用纯粹的机器代码来写操作系统，最后把机器代码写进启动设备的时候，还得借用别人做好的工具呢。就算你有办法把机器代码弄进设备里面，计算机识别机器代码并正确执行还需要硬件电路支持呢；硬件电路需要数字电路，数字电路需要电子设备，电子设备需要半导体，半导体需要物理材料......因此，你究竟觉得应该从哪里做起才叫从0开始呢？这显然是没有止境的。

但是，这个世界确实有只用汇编语言来编写的操作系统。大名鼎鼎的MenuetOS就是：

MenuetOSwww.menuetos.net

而且这个操作系统的优秀让人吃惊：像WINDOWS一样的一个包含各种功能的视窗操作系统，它的安装镜像全部加起来只有一张软盘（1.44MB）大小，所以汇编语言的优势是十分明显的。虽然仅用汇编语言编写且容量如此渺小，但是这个操作系统可以打游戏、办公、上网、看电影等，是两个国外的牛人坚持了数10年之久完成的杰作。惊叹于他们的这份毅力和坚持，是我一直崇拜的偶像。从某种程度上讲，此专栏的诞生就是受到他们的启发而作。

但是，我在自制操作系统进入到32位之后，坚持用汇编语言的想法却一下就改变了。在16位的实模式下，操作系统主要涉及MBR启动、磁盘读写、BIOS中断、内核装载LOADER、进入保护模式等流程，这些都是汇编语言的强项，因此操作系统在进入32位保护模式前，用汇编语言是最好的选择。但是在进入32位之后，重点的工作就是开发操作系统内核了，开发内核涉及的工作就太多了。保护模式下，BIOS中断再也不能使用了，一切计算机硬件设备的控制都需要自己来编程，硬件涉及显卡、键盘、鼠标、硬盘......软件涉及进程、任务、调度。这些工作的完成如果再用汇编语言的话，工程量就太大了。

这是因为汇编语言最大的劣势是缺乏足够的封装，一切的运算和操作都需要自己来设计，这就要求开发人员必须要非常的熟悉处理器的指令手册（比如INTEL系列CPU指令手册），一份指令手册动辄就是几百个指令集。说实话，要不是长期做CPU底层方面的特殊开发工作，普通的计算机学习和应用者又会有几人能很专业的掌握呢。

比如现在我们需要一个计算：a=x/y;b=x%y的过程，用汇编语言实现，步骤的步骤如下：

1.查询INTEL系列CPU指令手册，手册上写的指令格式是：DIV r/m32。

2.放操作数：

2.1 x必须要放进EAX：mov eax,x

2.2 y可以有一些选择（如EBX、EDX），我们可以把它放进EBX：mov ebx, y

3.指令执行：DIV EBX。

4.取操作结果：

4.1 商必须要从EAX 中取: mov a,eax

4.2 余数必须要从EDX 中取: mov b,edx

就这简单的一个除法，就必须动用以上复杂的过程。其实倒不是说汇编语言有多么的烧脑和复杂，主要是它非常的繁琐，繁琐得你今天学会了这个除法写法，但后天就会忘记了，所以下次遇到还必须得重新重复以上过程。这样一来，用汇编语言编程，大量的时间和精力都会花在这些细枝末节上面，主体的工作反而会进展得非常的缓慢，这样就会逐渐消除编程者的信心和成就感，偏离我们的学习目标。

我们是在开发操作系统，编码量得多大啊。所以这个时候，C语言的优势体现就毫无疑问：上面的问题，只需两句语句a=x/y;b=x%y就解决，根本不需要开发者关心和掌握哪些寄存器参与了，然后从哪些寄存器取结果。这些过程，C语言编译器都替你完成了。

结论：以后的工作就必须要使用C语言了。

但我要再一次向坚持使用纯汇编语言的大神们致敬！

二、怎么使用C语言

先来回顾一下，到目前为止，我们的操作系统进展到什么程度：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第2张图片

其中，Loader.asm和Kernel.asm的完整程序代码在前面的章节中已经贴出。目前由于开发工作遇到了效率瓶颈，现在我们就需要用C语言来继续进行我们的工作---操作系统内核的编写。其实，从上图中可以看到我们进入保护模式的时候，程序都不应该叫做内核，顶多叫做装载而已，名字明显起早了。但是，当时一步步的学习，不是有很多不懂的地方嘛，也没关系，就姑且这样吧。那我们以后的工作就是集中精力编写Kernel.c这个程序，终极目标就是让它变成一个完整的操作系统。

图中可以看出，操作系统完整的程序执行过程：Loader.asm--->Kernel.asm--->Kernel.c。那我们现在就只需要把Kernel.c在内存上顺序的布置在Kernel.asm的后面即可。那怎么才能把Kernel.c贴在Kernel.asm的屁股后面呢，方法就是把Kernel.asm编译成的二进制文件（Kernela.bin）和Kernel.c编译成的二进制文件(Kernelc.bin)连接在一起嘛:

copy /b Kernela.bin+Kernelc.bin Kernel.bin

这样得到新的Kernel.bin文件就可以利用Loader.asm进行装载了。Kernela.bin倒是非常的简单，直接一条NASM编译命令就可，前面都已经完成该项工作了，本章我们就来研究怎么才能得到Kernel.c编译之后的二进制文件。

传统的C编译器不适合

假设我们现在的任务是要在屏幕上显示一个红色的字母"C",汇编程序应该是这样写：

;保护模式下，此程序正常运行的前提是DS要先映射到物理地址:0Xb8000.
mov byte [00],'C'  ;显示字符
mov byte [01],0x0c;红色

将这段代码编译之后，机器码如下，我们需要记住这段机器码。

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第3张图片

现在我们换成用C语言来编写，最小格式如下：

/* file:zh.c */

int main()
{
*(char *)(00) = 'C';
*(char *)(01)= 0x0c;
stop:goto stop;
return 0;
}

程序中，我们必须定义main函数，否则无法通过C编译器编译。最有名的C编译器无疑是GCC，某种意义上讲GCC是UNIX的代表，但是由于我这次一直是在WINDOWS的环境下开发的，没有借助于任何的UNIX系统，因此还需安装WINDOWS版本的GCC编译器---MinGW。用GCC编译上面程序：

就可以得到C语言编译之后的二进制目标程序:zh.o，我们打开该文件看看：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第4张图片

可以看出，这个和汇编语言NASM编译出来的机器代码并不一样，我们只找到了JMP $这条指令对应的机器代码，但是我们能隐约地感觉到前面两句应该就是我们需要的机器代码。

这样，我们将zh.o文件再反汇编来看一下：

可以看到这前面两句的汇编代码是：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第5张图片

这个是GCC内置的AT&T格式汇编语言程序，明显它和我们的NASM两句汇编程序功能上是等价的。只不过它往内存写数据的时候，通过了寄存器EAX进行中转，所以它的机器代码是8个字节，我们的NASM机器代码只有5个字节。

由于AT&T格式汇编语言和NASM汇编语言格式相差较大，那我们再找一个和NASM相近的MASM看看呢，我们再用微软公司VS的C编译器编译来试试：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第6张图片

看看编译后的二进制目标文件代码：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第7张图片

这下都不用反汇编，这个机器代码和NASM编译后的机器代码几乎一模一样（一个是C606，一个是C605，我不清楚二者的区别在哪里）。

从上面的过程可以看出，无论用何种C编译器，最终都能实现将C语言源程序编译得到我们需要的机器代码，从而达到汇编语言编程的目的，这就是我们使用C语言的初衷。

现在我们已经得到了C语言的二进制目标文件，机器代码已经摆在面前，但是我们需要的只是那两句显示字符的代码，而C语言编译器为了其他任务（编译之后的“链接”需要）在这个目标文件里添加了一大堆我们不需要的代码，那我们该怎么办呢？

我们先试试忽略目标文件中的其它代码，把这个目标文件代码加入到我们的源程序后面看能否正常运行。为此，将上面的C程序“粘贴”在我们的源程序屁股后面，源程序来自于本专栏“计算机自制操作系统（十）：32位保护模式”中，将其文件名取为protect.asm（需要稍作修改，把DS描述符的线性基地址设置为0x000b8000）,用NASM编译成protect.bin，和上面的C程序编译之后的目标文件进行连接：

copy /B protect.bin+zh.o     test.img
或者
copy /B protect.bin+zh.obj   test.img

然后，把test.img装入虚拟机用来启动。很遗憾，我们没能得到C程序中显示红色字符"C"的效果，失败了。说明一个道理：我们不能忽略C编译之后目标文件的其它代码，它的运行（或者或根本无法运行导致宕机等）会给我们的系统带来问题。不奇怪，因为传统的C语言编译器都是为宿主操作系统服务的，没有一个C编译器能编译给写操作系统的人用。

所以，我们现在需要正确解锁的姿势是：将所需机器代码从C语言编译后的目标文件(obj)里抽取出来，怎么抽取呢？我通过翻阅资料，找到了方法：那就是利用别人的第3方工具，这个工具就是日本人那本书---《30 天自制操作系统》里面的工具。

2.借助3方C编译器和工具

《30 天自制操作系统》这本书里有这么一段：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第8张图片

刚开始接触这本书的时候，我也很疑惑怎么这么多的过程和文件。直到我遇到上面的问题之后，就妥协了。对于这个原因，作者也给出了解释：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第9张图片

所以，我们需要的工具是：cc1.exe,gas2nask.exe,nask.exe,obj2bim.exe等，下面我就用这些工具来演示整个过程。

这次我们把C语言源程序命名为:Kernelc.c，打算显示6个红色的'C'，源程序如下：

/* file:Kernelc.c */
/* 该程序正常运行的前提是进入32位保护模式，且DS的线性基地址为0x0.
void HariMain(void)
{

int i=0;

for (i=0;i<=10;i++)
{

*(char *)(0xb8000+23*160+i) = 'C';  /*显示位置为第23行
*(char *)(0xb8000+23*160+1+i)= 0x0c;
i++;
}

stop:
goto stop;

}

利用这些工具一口气编译和转换如下（这么多步骤，后面可以做成makefile）：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第10张图片

最后来看看我们得到的最终二进制文件Kernelc.hrb内容：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第11张图片

看到没？这个二进制文件比上一章中GCC或VS编译器编译出的目标代码小多了，只是在文件的前面增加了一些类似"Hari"的备注代码，我们姑且叫它"头数据”。可以理解为我们几乎就已经抽取出来了所需的目标代码，哪些代码才是我们的C程序真正产生的目标代码呢？我们不妨分析中间过程产生的汇编程序Kernelc.nas：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第12张图片

显然这就是我们非常熟悉的NASM代码，这些工具能够把C程序编译和转换成成规范的NASM程序，这是比较方便的地方。我们只需要根据这个汇编程序中前2条指令的机器代码就可以提取出我们的C语言最终二进制机器代码。为此，我们把这个汇编程序做一次编译：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第13张图片

汇编语言编译之后产生的机器代码开头是：5589E5,我们在上面C语言编译后的二进制文件中一下就找到了：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第14张图片

那我们就跨过“头数据”从“5589E5”开始，把所有的代码全部拷贝出来，然后新建一个二进制文件，取名Kernelc.bin，把它放在“计算机自制操作系统（十）：32位保护模式”中汇编程序编译之后的二进制文件protect.bin的屁股后面：

copy /B protect.bin+Kernelc.hrb testc.img

现在就用镜像文件testc.img来启动计算机。结果成功达到目标：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第15张图片

屏幕的显示说明我们完成了在C语言中的任务，用C语言进行操作系统开发的工具算是找到。

OK,经过测试目标已经达到，我们最后就来规范一下操作步骤：

(1) 汇编源程序编译：源程序为“计算机自制操作系统（十）：32位保护模式”中的汇编程序，但我们需要对这个程序做一个小动作：将程序的最后一句指令"jmp $"修改为: jmp over+0x24，显然它的目的是让CPU执行过程中跳过C语言编译过后的“头数据"而直达目标代码。修改后的程序改名为:Kernela.asm，用以下命令编译输出Kernela.bin：

Nasm  Kernela.asm  -o  Kernela.bin

(2) C语言源程序编译：源程序取名Kernelc.c,这次要打印一个字符串,详细内容如下：

/* filename: Kernelc.c */

void HariMain(void)
{

int i=0;
*(char *)(0xb8000+24*160+i) = 'C';
*(char *)(0xb8000+24*160+i+2) = ' ';
*(char *)(0xb8000+24*160+i+4) = 'L';
*(char *)(0xb8000+24*160+i+6) = 'a';
*(char *)(0xb8000+24*160+i+8) = 'n';
*(char *)(0xb8000+24*160+i+10) = 'g';
*(char *)(0xb8000+24*160+i+12) = 'u';
*(char *)(0xb8000+24*160+i+14) = 'a';
*(char *)(0xb8000+24*160+i+16) = 'g';
*(char *)(0xb8000+24*160+i+18) = 'e';
*(char *)(0xb8000+24*160+i+20) = ' ';
*(char *)(0xb8000+24*160+i+22) = '^';
*(char *)(0xb8000+24*160+i+24) = '-';
*(char *)(0xb8000+24*160+i+26) = '^';

for (i=0;i<=28;i++)
{
*(char *)(0xb8000+24*160+i+1)= 0x0c;
i++;
}

while (1)
{;}

}

这里我们需要如下命令用一系列的工具进行编译和格式转化，最后输出文件Kernelc.hrb：

CC1 -o Kernelc.gas Kernelc.c
GAS2NASK Kernelc.gas Kernelc.nas
NASK Kernelc.nas Kernelc.obj Kernelc.lst
obj2bim.exe @./haribote/haribote.rul out:Kernelc.bim stack:3136k map:Kernelc.map Kernelc.obj
BIM2HRB Kernelc.bim Kernelc.hrb 0

(3) 汇编程序和C语言程序的机器代码相连接

copy /B Kernela.bin+Kernelc.hrb Kernel.bin

最后就用Kernel.bin来启动计算机，我们一开始设想的总目标就算达到：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第16张图片

三、深入理解C语言运行机制

从上一章的实践中，我们可以看到相比汇编语言，C语言编程应用起来确实厉害多了，可以简单明了的实现目标。那么C语言是怎么完成这种任务的呢？我们现在来分析一下。

先写一个二重循环的简单程序study.c，这个程序的功能是打印一个3*5（3行5列）的字符矩阵

void HariMain(void)
{

int i=0;
int j=0;

for (i=0;i<=2;i++)
{
  for (j=0;j<=8;j++)
  {
   *(char *)(0xb8000+i*160+j) = 'C';
   j++;
  } 
} 

while (1)
{;}

}

别看用C语言写1分钟不到，但是用汇编语言来编写和调试的话，一般情况还是得折腾半个小时以上，因为涉及乘法和循环等，需要不断的在AX,BX,CX,DX等上面摩擦和判断。那么C语言是怎么做到的呢？我们把它编译之后的汇编语言study.nas文件拿出来看：

[FORMAT "WCOFF"]
[INSTRSET "i486p"]
[OPTIMIZE 1]
[OPTION 1]
[BITS 32]
[FILE "study.c"]
[SECTION .text]
	ALIGN	2
	GLOBAL	_HariMain
_HariMain:
	PUSH	EBP
	MOV	EBP,ESP
	SUB	ESP,8
	MOV	DWORD [-4+EBP],0
	MOV	DWORD [-8+EBP],0
	MOV	DWORD [-4+EBP],0
L2:
	CMP	DWORD [-4+EBP],3
	JLE	L5
	JMP	L3
L5:
	MOV	DWORD [-8+EBP],0
L6:
	CMP	DWORD [-8+EBP],8
	JLE	L9
	JMP	L4
L9:
	MOV	EDX,DWORD [-4+EBP]
	MOV	EAX,EDX
	SAL	EAX,2
	ADD	EAX,EDX
	SAL	EAX,5
	ADD	EAX,DWORD [-8+EBP]
	ADD	EAX,753664
	MOV	BYTE [EAX],67
	LEA	EAX,DWORD [-8+EBP]
	INC	DWORD [EAX]
	LEA	EAX,DWORD [-8+EBP]
	INC	DWORD [EAX]
	JMP	L6
L4:
	LEA	EAX,DWORD [-4+EBP]
	INC	DWORD [EAX]
	JMP	L2
L3:
	
L10:
	JMP	L10

变量机制：C程序中开头两句的临时变量i和j,在汇编语言中是如下实现的：

	PUSH	EBP
	MOV	EBP,ESP
	SUB	ESP,8	
        MOV	DWORD [-4+EBP],0
	MOV	DWORD [-8+EBP],0

这是什么意思？显然是把i和j的初始值0分别存进了内存区域 [-4+EBP],[-8+EBP]，内存[-4+EBP],[-8+EBP]默认的访问方式是:SS:-4+EBP和SS:-8+EBP，而EBP的值是程序开始的时候ESP之值，所以等价于SS:-4+ESP，SS:-8+ESP，要把变量放进栈顶下面的2个地方，这显然是对对i和j进行了入栈操作：一个变量占4字节，所以入栈之后栈顶还需要向下移动8个字节：SUB ESP,8。这样后面程序中对i和j的操作全都是对栈内空间[-4+EBP],[-8+EBP]两处进行操作，比如文件中这两条指令就是判断内和外循环是否完毕。

CMP	DWORD [-4+EBP],3
......
CMP	DWORD [-8+EBP],8

这里有一个问题，既然是入栈操作，那为什么不用指令呢？这就是C编译器的选择了，因为它对入栈机制掌握得很深刻。之前我在“计算机自制操作系统（十）：32位保护模式”一文中曾经详细说明了入栈操作有一个和push指令等价的指令，这里C编译器显然是选择了等价的方式。其实，这里完全可以用push指令，换成如下指令即可:

MOV EDX,0
PUSH EDX        ;i入栈
PUSH EDX        ;j入栈

但由于PUSH指令会自动操作栈顶指针移动，这样一来就必须删除上面的指令:SUB ESP,8。

那么这里程序一开始的时候，栈顶地址:SS:ESP究竟是多少呢？这就取决于编程者的设置了，比如我是把这段C程序编译之后嵌入到我的系统中，那么它的值就是我进入保护模式之后设置的栈顶0x00007c00。如果这个C程序是WINDOWS下面的C程序编译和运行环境，那就是WINDOWS负责给它设置好。

从这里可以明显得出结论：C语言中的变量其实都是在保存在栈内的。但是如果你只是学习高级语言编程就很难深刻理解这句话，所以加强计算机底层实现的学习还是比较重要的。

我们回到程序主结构，显然汇编语言也是用了两层循环:内循环标号L6,外循环L2，对i++和j++的操作通过以下指令:

	LEA	EAX,DWORD [-8+EBP]
	INC	DWORD [EAX]

.........................

	LEA	EAX,DWORD [-4+EBP]
	INC	DWORD [EAX]

这里就有一个很重要的问题：指令INC DWORD [EAX] 是直接对内存进行寻址操作，内存直接寻址默认的寄存器应该是DS，所以这个数据访问寻址实际上是:DS:-4+EBP（LEA指令的作用是取偏移地址，这里LEA EAX,DWORD [-4+EBP]实际上等效于mov eax,-4+EBP，只不过nasm语法要求必须要加[]）。EBP最开始的时候取自于ESP，ESP取决于我们的系统设置，在我的系统中我设置的是0x00007c00。所以，变量i的绝对地址:-4+EBP=0x00007bfc。那么现在我们要用DS:-4+EBP访问0x00007bfc必须要确保DS=0才行！故为了C语言编译后的程序能在我们的系统中正常运行，就必须要在进入保护模式之后在GDT中把DS段描述符的线性基地址映射成0x00000000。否则，C语言程序就无法集成到你的系统中。这一点就太重要了，因为我在调试过程中，当时没有注意到这一点运行过程中老是蓝屏宕机，折腾了2天才弄通！

四、C语言变量原理

在上一小节中，我们当时得出了一个重要的结论：C语言中的变量其实都是在保存在栈内的。这，其实并不是一个准确的描述，因为我们目前还只是见识到了一种变量而已。实际上，C语言变量根据生命周期不同进行分类是存在多种类型的，变量是每一种计算机语言的核心，搞清楚了变量原理就相当于掌握了某种语言。本小节，我们就来彻底搞清楚C语言的变量原理。

（一）变量类型

变量根据作用域属性可以分为：全局变量和局部变量；根据生命周期属性可以分为：静态变量和非静态变量。那么这两种类交叉无疑就会形成：全局静态变量、全局非静态变量、局部静态变量、局部非静态变量。事实上C语言这几种分类方法有点绕，相互之间的含义也有交叉，所以大概最终区分如下：

全局非静态变量：在整个工程文件内都有效，无论多少个源程序文件。这类变量在编译之后在汇编程序里是GLOBAL属性，也即可以被其它源程序调用。

全局静态变量：只在当前C程序中有效，无法被其它源程序调用。

局部静态变量：只在定义它的函数内有效且程序仅分配一次内存，函数返回后该变量不会消失.

局部非静态变量：局部变量在定义它的函数内有效，但是函数返回后失效。

全局与局部：在Main函数之前位置定义变量就是全局，Main函数之内定义变量就是局部。当然全局与局部还有相对的概念，如Main函数下面还有子函数fun()，那么在fun()内部定义的变量就是局部，在fun()前面定义变量就是全局。

静态与非静态：使用关键词---static，static有两大作用：

1.首先最主要功能是隐藏：如在Main函数前面用了static定义变量，则这个变量是不能在别的C程序里使用的，相当于是隐藏起来。这个属性是静态用在全局变量中的主要原因。

2.其次因为static变量存放在静态存储区，可以保持变量内容的永久有效。比如我有一个很重要的变量，而在Main函数里面有很多个函数fun1()、fun2()、funn()都需要用到它，那这个是时候定义static变量就最适合不过了。这个属性是静态用在局部变量中的主要原因。

（二）变量类型内存分配

需要专门分配内存空间的变量：全局非静态变量、全局静态变量和局部静态变量。

1.1 局部静态变量：放在段.data中。它虽然是局部的，但是在程序整个生命周期中存在。

1.2 初始化了的全局静态变量：放在段.data中。

1.3 未初始化的全局静态变量：放在段.bss中。

也即局部静态变量直接放在.data，只有全局变量才区分放在.data还是.bss，而区分的依据就和static属性没有关系了，唯一的依据是看初始化与否。

为什么要这么做呢？这就是C编译器做出的优化之处。我们知道未初始化的全局变量默认值都为0，如果全部将他们和已经初始化了的全局变量一起放在.data段中，这样一来生成可执行文件的时候（如Linux下的ELF），这个可执行文件的数据区部分就必须要包含整个全局变量的内存空间。但是如果那些未初始化量默认值都为0的全局变量空间特别的大，那生产ELF文件的时候就可以采用一种类似"压缩"的算法，把这部分文件空间省去。方法是我们在ELF文件的某个地方约定填写未初始化全局变量的长度，ELF只需要存储这个长度的信息就行了，文件就很可能变得非常的小。如有一个未初始化全局变量数组 char a[256]，实际运行需要的内存空间是256B，但现在我们只需要用一字节内容：0XFF就能表示其长度，那么ELF文件就可以省掉255B的大小。编译器为了将这个长度数据写进ELF，就专门将未初始化的全局变量的空间全部放到一个专门的地方叫:bss段，放好之后链接器链接的时候自己去bss段数一下0的个数就知道有多长了。

但是程序真正运行的时候它们的确是要占内存空间的，所以可执行文件必须要记录好所有未初始化的全局变量的大小，记为.bss段。程序真正运行的时候就需要分配出相应大小的内存空间，而且这部分内存空间会紧随.data的后面。所以.bss段只是编译器在目标文件中为未初始化的全局变量预留位置而已，它告诉链接器在生成可执行文件时，究竟能压缩多少的文件空间。

这个和我们现在开发操作系统的关系不大，因为它主要是用在已有操作系统上进行C程序开发编程的应用上面。现在我们自己来写操作系统和使用C程序，就必须在编译器工作之前要对data段和bss段数据的最终存放物理内存地址做出明确的指派，相当于要定义好数据区，这个任务需要在进行C程序之前的汇编程序中完成。一般我们可以把这个数据区安排在栈的上面（也可以在别的位置），以堆栈的栈底内存地址做分界线，线上叫堆，线下叫栈，结构如图：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第17张图片

堆区、栈区数据关系

所以，堆和栈其实是两个不同的概念，我们一般的情况下容易混淆并对二者含糊不清。在前面我的部分章节中，也都把栈区叫做了堆栈，严格意义上讲都是不准确的。

2.不需要分配内存空间而在栈空间中暂存的的变量：局部非静态变量，编译器会在这类变量初始化的时候，给它在栈空间内分配一个临时空间push入栈，随着函数运行的结束自动就失效了。所以这类变量的生存周期很短，只是做了一个入栈的临时性暂存动作而已。典型就是我们上一节的遇到的情况。

（三）程序验证

针对上面分析的C语言不同变量类型的实现原理，下面用具体的程序来演示说明。

/* filename: Kernelc.c */


static  char  s1;
static  char  s2='B';
        char  s3;
        char  s4='D';

void    Main(void)
{
s1='A';
s3='C';
  
static  char  s5;
static  char  s6='F';
        char  s7;
        char  s8='H';

s5='E';
s7='G';

*(char *)(0xb8000+24*160+0)  = s1;
*(char *)(0xb8000+24*160+2)  = s2;
*(char *)(0xb8000+24*160+4)  = s3;
*(char *)(0xb8000+24*160+6)  = s4;
*(char *)(0xb8000+24*160+8)  = s5;
*(char *)(0xb8000+24*160+10) = s6;
*(char *)(0xb8000+24*160+12) = s7;
*(char *)(0xb8000+24*160+14) = s8;

while (1)
{;}

}

我们针对每种变量类型在程序中都定义了，具体见下表：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第18张图片

C语言变量机制

我们分析编译之后生产的汇编程序，分为以下3种情况：

1.可以看到上s2,4,5,6都在.text代码段的前面，也即：.data段。

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第19张图片

.data段变量

2.两个未初始化的全局变量s1,3被编译器默认置0，放在了.text代码段的后面，也即.bss段。同时检查汇编程序的GLOBAL属性会发现，只有两个全局非静态变量:s3,4才有。

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第20张图片

.bss段变量

3.两个局部非静态变量s7,8的赋值放在了程序段里面：初始化时先后分别进行了入栈，存在了栈空间内存的[EBP-2]和[EBP-1]位置处。我们看到，为了将这两个局部变量入栈，栈顶指针提前就已经挪动了4B位置 (SUB 4)，其实就相当于做了一次push s7,8的操作。但是令人疑惑的是为什么这个程序到结束的时候都没有对这入栈的数据---s7，s8以及EBP做出栈操作呢？

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第21张图片

来看最后生成的真正要运行在计算机上的机器代码：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第22张图片

可以看到，变量值全部都放在了二进制机器代码的文件末尾：2个放在.bss段的变量紧随在4个放在.data段的变量之后。从这里明显可以看出，C语言的变量无论是否初始化，最后装进内存的时候都是需要真正分配空间的，这个时候不再会区分data段变量和bss段变量。故data段和和bss段只是编译阶段产生目标文件的中间物，供链接需要而已。

那么，这里有一个很重要的问题：程序运行的时候，是怎么定位这些变量在内存中的真实物理地址呢？也即程序怎么才能正常访问到它们吗？通过图上可以看到，在最终的二进制机器代码文件开头部分（可以理解为文件头）数字：98，它就是用来定位这个机器代码文件里面哪里是“变量数据”，那么操作系统就需要应该根据这个定位信息来提前把“变量数据”先加载到内存真正的“数据区”，否则这些变量就无法使用。所以，到这里我们才能完全理解为什么在我们的C程序编译之后，总会有一个0x24长度的文件头！

4.程序运行：

我们按本章前面的方法，把这个Kernelc.c运行起来看一下效果，是否8个变量都能成功的打印在屏幕上：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第23张图片

可以看到，成功了5个变量，有3个变量失败了：s2,4,6，这3个全部都是声明的时候就同步做了初始化工作的变量，我们来看3个失败变量的汇编程序：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第24张图片

这是内存直接寻址方式，这2条指令能取得正确变量数据的前提是---数据寄存器DS：数据偏移地址指向的内存地址处存有变量数据。

为了找到变量的数据偏移地址，我们需要看一下在链接程序生成的最终机器代码文件中，这些变量在链接程序看来，应该去取的内存地址偏移地址是多少：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第25张图片

可以看出，机器指令取变量s2,4的时候，都是在汇编程序里变量偏移地址的基础上加了一个统一的基地址：0X00310000（这个值是可以通过链接器进行配置的）。这个就是相当于链接程序对变量进行了重定位。现在我们就有2项工作是必须要准备好的：

1.DS指向物理基地址:0。

2.把机器程序文件里面的所有变量数据，提前写到物理地址:0X00310000开始的缓冲区。

显然，第2项工作，我们并没有做，所以这些变量的访问就会失败！

4.变量数据区准备

那针对上面的问题，在我的操作系统中，程序是这样来做的：

4.1 定义变量数据的真实物理地址：这个在链接器配置文件中实现，具体是我将上面的0X00310000做了一下调整，我用的是：0X00100000，也即把1MB开始的最低处内存用来当做变量数据区：

Kernelc.bim : Kernelc.obj naskfunc.obj Makefile
	$(OBJ2BIM) @$(RULEFILE) out:Kernelc.bim stack:1024k map:Kernelc.map Kernelc.obj naskfunc.obj

4.2 将变量写进变量数据区：这个工作需要在C程序引用变量之前完成，因此C程序开始的第一件事就是它，具体我们需要把变量数据写进目标地址：0X00100000开始的缓冲区。而源数据的定位比较复杂，需要二次指针的过程：先依靠Kernelc.hrb中的“头文件”找到变量的逻辑定位，实际我们还需要根据它的逻辑定位在内存中找到绝对的物理地址才能实现数据迁移。所以这里需要分为两步：（1）找到Kernelc.hrb中存放变量位置和长度的内存物理地址。(2)。在上一个物理地址中找到真正存放变量的物理地址。

具体的实现过程有点复杂，这部分内容为了连贯性，我把它放在了本专栏“计算机自制操作系统（十八）：规范开发模式”中“C语言实现变量编程设计”之处，那里可以看到详细的C语言实现变量编程的全部设计过程和源程序。

四、C语言总结

本章对于C语言的运行机制做了一个详细的解析，可以看出，只有深入计算机底层部分，才可能对C语言有一个彻底的掌握。对于没有接触过这些的人说，学习C语言的指针永远都是一个跨不过的难题。但我们经过汇编语言和机器码层级的分析，发现指针的难度简直不值得一提。

我们跨过汇编语言之后的第一步使用的就是C语言，说明C语言在计算机技术中有其他任何高级语言不同替代的作用。所谓“0/1生汇编，汇编生C，C生万物，乃编程之本”，任何想立志学好计算机的人都不可能跨过C语言：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第26张图片

最后，用在知乎上看到一个网友对C语言的定位来结束本章：

c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制..._第27张图片

我觉得这个比喻非常到位。如果说C语言相当于在城市里买了房子，那么汇编语言无疑就是有无数套房子的包租婆！

你可能感兴趣的:(c++vstextouta怎么用_计算机自制操作系统（十二）：用C语言开发内核，详析C语言机制...)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
怎么起诉借钱不还的人？怎样起诉欠款不还的人？影子爱学习
怎么起诉借钱不还的人？怎样起诉欠款不还的人？如果遇到难以解决的法律问题，我们可以匹配专业律师。例如：婚姻家庭（离婚纠纷）、刑事辩护、合同纠纷、债权债务、房产（继承）纠纷、交通事故、劳动争议、人身损害、公司相关法律事务（法律顾问）等咨询推荐手机/微信:15633770876【全国案件皆可】借钱不还起诉对方需要哪些资料起诉欠钱不还的，一般需要的材料包括以下这些：借据、收据、欠条、付款凭证等证据，以及向
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
直抒《紫罗兰永恒花园外传》雷姆的黑色童话
没看过《紫罗兰永恒花园》的我莫名的看完了《紫罗兰永恒花园外传》，又莫名的被故事中的姐妹之情狠狠地感动了的一把。感动何在：困苦中相依为命的姐妹二人被迫分离，用一个人的自由换取另一个人的幸福。之后，虽相隔不知几许依旧心心念念彼此牵挂。这种深深的姐妹情谊就是令我为之动容的所在。贝拉和泰勒分别影片开始，海天之间一个孩童凭栏眺望，手中拿着折旧的信纸。镜头一转，挑灯伏案的薇尔莉特正在打字机前奋笔疾书。这些片段
相信相信的力量孙丽_cdb3
孙丽中级十期坚持分享第345天有一个特别有哲理的故事：有一只老鹰下了蛋，这个蛋，不知怎的就滚到了鸡窝里去了，鸡也下了一窝蛋，然后鸡妈妈把这些蛋全都浮出来了，孵出来之后等小鸡长大一点了，就觉得鹰蛋孵出来的那只小鹰怪模怪样，这些小鸡都嘲笑它，真难看，真笨，丑死了，那只小鹰觉得自己真是谁也不像，真是不好看，后来鸡妈妈也不喜欢他，我怎么生出你这样的孩子来了？真烦人，后来这群小鸡和小鹰一起生活，有一天，老鹰
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs