git存储机制

现在项目基本都采用git来进行版本控制,最近比较好奇git的存储机制到底是怎么样的,研究了一下

简单介绍git最重要的算法(SHA-1)

  • 通过git log查看,会发现都会有一个40个字符组成的字符串,这个字符串是通过SHA-1算法计算出来的字符串
  • SHA-1算法:两个不同的内容进行计算出来的值(消息摘要)理论上来说是不重复的(基于目前来说)

git的存储机制详解

  • 先介绍下git的一个命令:git cat-file,查看消息摘要的详细内容;用的时候经常会带上 -p 参数

  • 研究过程(基于我本地的一个版本库)

    • 先通过 git log 找到一个commitId,通过 git cat-file 查看 git cat-file -p 71d8f2a8aecfc84b2a72814f525c76c128face53
      tree b346468f50d856cc0a6089e4fe260b4f72c914e5
      parent 5987828df851c3d93775e8a1eb49b8d709fd1fb5
      author xx  1489540261 +0800
      committer xxx  1489540267 +0800
      
    • 从这里看出来一个 commit 指向一个 tree (一个tree管理一些tree和一些blob),接下来继续看这个tree到底是什么
    • 继续 git cat-filegit cat-file -p b346468f50d856cc0a6089e4fe260b4f72c914e5
      100644 blob e1b5186c600616e89692c94f64f4ed2e525fab23    .gitignore
      100644 blob 2572cca5762d11828c4a296bcca7ded879f4929a    LICENSE
      100644 blob 7ba68141ca2199ab83d3160f700d0e4343298468    README.md
      100644 blob ac8522fb58c89951af0089cb090a56f9856c05b0    a.txt
      100644 blob 9b285c5c555323213ce7865e536d09e597268706    pom.xml
      040000 tree 5165230a25966bca6377f32f80750b0640a9de02    src
      
    • 上边的结果有blob和tree:这个时候blob通常是一个文件,tree是一个目录
      • 那先来看看blob类型:git cat-file -p e1b5186c600616e89692c94f64f4ed2e525fab23,这个时候看到的是一个文件的内容:
        *.class
        target/
        java-common-utils.iml
        .idea/
        
        为什么是这样的呢,因为git通过e1b5186c600616e89692c94f64f4ed2e525fab23指向了.gitignore文件,而这个文件的内容被压缩成另一个文件,这些文件保存在项目的.git目录下的objects目录下,git的cat-file命令将blob还原成原有的文件内容了。网上有压缩的算法
      • 再来看看tree类型:git cat-file -p 5165230a25966bca6377f32f80750b0640a9de02
        040000 tree 857c7710f03f0b9d33d3110273f525416ee310a6  main
        040000 tree b63ccc7fa9ced1d7b84fd5de194a85fe66016bec  test
        
        可以看到还是两个tree,可以一直cat-file下去知道没有tree

    总结

    • git对文件的比对是通过文件内容的SHA-1消息摘要进行对比是否有更改,所以速度会非常快;

你可能感兴趣的:(git存储机制)