彻底删除git中没用的大文件

最近碰到个很难办的问题,无意中发现项目文件夹已经快1G了。。。
仔细一看,原来是.git文件夹占了80%。。。
思前想后也找不到原因,最后还是google了半天才找到问题:
之前为了方便把一个200M左右的sdk直接添加到了项目里,然后提交到git上了,更可怕的是sdk还换了好几个版本提交了好多次。。。
所以git中就有N多这个sdk修改的记录,占了很大空间;
为什么会出现这种情况呢,就是因为git的存储方式

git仓库下有一个名为 .git 的隐藏文件夹 ,从git初始化(git init)开始,所有仓库的变化都会记录在这个.git文件夹中;只要是git记录的文件(add 并且 commit),就会通过一定的算法保存到这里,
删除一个文件,只是记录了删除这个操作,但并不会把文件从.git文件夹删除。
所以直接删除项目中的文件,.git文件夹完全不会变小(理论上还会变大一点,因为多记录了一次删除操作。。。)
要想彻底删除git已经记录的文件,就必须用到一个高端命令:git filter-branch

官方解释可以看这里:

https://git-scm.com/docs/git-filter-branch

https://git-scm.com/book/en/v2/Git-Tools-Rewriting-History

具体怎么使用可以参考这两篇博客:

http://harttle.com/2016/03/22/purge-large-files-in-gitrepo.html

http://blog.csdn.net/lwfcgz/article/details/49453375

具体到我这儿,因为我添加了 XXX.framework的库,所以命令就是:

git filter-branch --force --prune-empty --index-filter 'git rm -rf --cached --ignore-unmatch XXX.framework' --tag-name-filter cat -- --all

各个参数的意思摘抄如下
filter-branch 是让git重写每一个分支,

--force 假如遇到冲突也让git强制执行,

--index-filter 选项指定重写的时候应该执行什么命令,要执行的命令紧跟在它的后面,在这里就是git rm --cached --ignore-unmatch password.txt ,让git删除掉缓存的文件,如果有匹配的话。

--prune-empty 选项告诉git,如果因为重写导致某些commit变成了空(比如修改的文件全部被删除),那么忽略掉这个commit。

--tag-name-filter 表示对每一个tag如何重命名,重命名的命令紧跟在后面,当前的tag名会从标注输入送给后面的命令,用cat就表示保持tag名不变。

紧跟着的-- 表示分割符,

最后的--all 表示对所有的文件都考虑在内。

等命令执行完了,要提交到远程再

git push --force --all

就可以了

在实际操作中,我还遇到点其他问题,一并记录下来~

  1. 因为XXX.framework其实是个文件夹,所以在 rm 命令之后必须 加上 -rf 参数,不然其实会漏删不少东西
  2. 命令里面的 --all 似乎不怎么管用,至少对分支是不管用的,(博客1里面说是对所有分支。。。貌似有点问题)
    一开始我项目有好几个分支,我直接在master上操作,完了之后push,结果.git文件夹确实有变小,但变小的很有限。。。
    后来我把其他的分支备份出来,然后删掉项目里的所有分支,只剩下master,再来了一遍,果然就可以了,远程仓库果然变小了超级多
    本地的.git文件夹依然没啥变化,这是因为有很多本地缓存,重新git clone远程就好了
  3. git push --force --all其实也是个很危险的操作 ,再执行这个之前,务必确保当前代码已经是最新,并且你开始操作后没有人提交过代码,
    不然这么一force,有一大片冲突是必然的。。。不说了,说多了都是泪。。。

教训:

sdk之类的大文件,尽量不要直接添加到git中,如果sdk不经常更新且不太大(多大算大多大算小看各自网速了),那直接添加进去问题也不大;
如果sdk比较大或者经常更新,那就真的注意不能玩git里面加了,目前想到的比较好的替代方案有:

  1. 把sdk写到.gitignore中,在readme等地方写清楚,项目用到了什么sdk,让用的人自己去下载;
    这个方法比较容易实现,不过对用的人来说不太友好。毕竟除了直接复制粘贴,直接git clone的代码是不能直接用的。。。

  2. 用pod来管理
    一般来说pods是不会放到git里面的,都是用的时候再pod install;所以可以给项目用到的sdk之类的大文件,专门建一个pod库,让项目通过pod依赖这些大文件。
    这也是我现在用的方案,效果还是很不错的~
    再加上pod还可以配置一些依赖库(方法可以参考https://github.com/Phelthas/LXMThirdLoginManager ,关键是.podspec文件),那就更加方便了!强烈推荐!!!

有什么问题,欢迎讨论~

你可能感兴趣的:(彻底删除git中没用的大文件)