Git的原理简析

前言

Git 作为一个强大的分布式版本控制工具,探讨Git的工作原理,知道Git思想和基本原理,用起来才会游刃有余。

平时我们使用Git,都是这样的:

  • 创建新工程时:

create file
add files
commit files
push files

  • clone 已有工程时:

checkout
create file
add files
commit files
push files

无非就是这几步的操作,如果出现了冲突,解决冲突再提交。

通过这几个简单的命令操作来看看Git 是怎么样保存数据的?
首先理解Git中的几个概念。

三个区域

Git 中有三个重要的区域:工作区域,暂存区,本地数据库,它们的之间的关系为:

Git的原理简析_第1张图片
i01.png

为什么中间出现一个暂存区?而不直接把文件从工作区域提交到本地数据库?

暂存区的作用:保存待提交到数据库的文件信息。
加入的原因:

  1. 可以实现部分的提交到本地数据库
  2. 在工作区域中,主要的职能就是,对文件状态的修改。如果还要维护一些待提交到数据库的文件,容易造成混乱,违反单一职责原则。

数据库就是保存数据的,你不可能也不会这在数据库里创建一个文件。

四种对象

在Git中 有四种对象 ,blob,tree,commit ,tag。

  1. blob:存放文件的内容。
  2. tree:相当于一个目录,目录下还会有子目录,最终的节点上blob,如图所示:
Git的原理简析_第2张图片
i06.png

3.commit:指向一次提交,表示项目的快照,指向你一个顶层的tree对象。有个partner字段,指向上一次的提交。

数据的存储

假设我们的本地数据库保存数据:

Git的原理简析_第3张图片
i03.png

在版本1中有两个文件:A和B
在版本2 中修改了A文件变成A1文件。

如果把每一个版本都要保存到数据库中,需要保存4个文件。而实际上,Git只保存了3个文件,分别A,B,A1。

在Git中同样的文件只会保存一份,如何保证同一个文件只保存一份?这就引入了sha-1算法。

可以使用git命令计算文件的 sha-1 值。

echo 'version A' | git hash-object --stdin
0809ef163cd3b01c24087c94153bfc63489d4f9b

sha-1将文件中的内容通过通过计算生成一个 40 位长度的hash值。

sha-1的特点:

由文件内容计算出的hash值
hash值相同,文件内容相同

通过sha-1算法生成的值作为key,就能保证相同的文件只保存一份了。
我们也知道,在Git中,全部的数据在保存在 ./git/objects下

Git的原理简析_第4张图片
i.png

我们可以看到,在 objects 目录下,存放了很多文件,他们都使用 sha-1 的前两位创建了文件夹,剩下的38位作为文件名。

因此上面的两次提交,Git 是这样保存的。

Git的原理简析_第5张图片
i04.png

END。

你可能感兴趣的:(Git的原理简析)