Git 大文件清理

查找大文件

git rev-list --objects --all | grep "$(git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -5 | awk '{print$1}')"

结果

zsh: no matches found: .git/objects/pack/*.idx
4fa9c4356393c0a3047a64e2662d5b624a471b3e
47e9174f93476eb8fb744c66b2060bd5bdb7d6a7
ec51f3c438af85e9835c53fc251cfd714e7a0bfc
5cee5c2988f361e20d7c1e3bc9a91c3eb42864e5
3257e94bc49f743d49efb53db26e619df26be0c5
f66e46b3c12602662f33ddf8b0c99d91e8a279ef
a0b12cc5d48ae90065210b441f3d6c1a33378b37 
c74105573fb0312738746de0718449565b36ac58 jczr.rar
bece93b911880583437964207f2c4a2252881d0e read.md
5fa55fe49a260ed6e9665d31685b2ef61b1bf376 readme2.md
e60b15a71c46199a36955fc0da55d45d69e89388 
204f7e33b29397657ddcd35e8971db46e0753486 dawenjian.zip
20f192ea673667322a769f7765159bed736ceeab 
9eef28535c062025b7354695c2a6cfffebb210a0 read.md
8b062a810b9473aeb6f697f67898a21120f3d4aa readme2.md
359618d9f4efdeefb94453cb172b96b36e2743ae 
0b61c06e8627abb75f01da05f583592dd486f9ba 
ef0ef318e3c167d67016b0b9bc5149d6b2f19dce read.md
0eb689f0b4e75f72ecf14a9b54d34cd1e2ab79fa 
8494906e9a9b585fc75640034d8b5f59f67297d2 read.md
  • 第一行是文件id
  • 第二行是文件路径

删除大文件

Git仓库彻底删除一个文件只有一种办法:重写(Rewrite)涉及该文件的所有提交。 幸运的是借助git filter-branch便可以重写历史提交,当然这也是Git中最危险的操作。 可以说比rm -rf *危险一万倍。

git filter-branch -f --prune-empty --index-filter 'git rm -rf --cached --ignore-unmatch dawenjian.zip' --tag-name-filter cat -- --all

--index-filter参数用来指定一条Bash命令,然后Git会检出(checkout)所有的提交, 执行该命令,然后重新提交。我们在提交前移除了recent-badge.psd文件, 这个文件便从Git的所有记录中完全消失了
--all参数告诉Git我们需要重写所有分支(或引用)。
unmatch 后面跟文件的路径

此时我们使用查找大文件的命令查找文件,发现那些文件还是在。怎么回事呢?因为没清理缓存。下面我们看下怎么清理缓存。

清理git 缓存

Git仓库历史有个缓存期,如果不主动回收、清理仓库历史,一般的这些记录还会保存一段时间,以备你突然后悔了,没办法找回删掉的文件。那么怎么样才能主动回收资源能?就是通过以下命令:

rm -rf .git/refs/original/
git reflog expire --expire=now --all
git gc --prune=now
git gc --aggressive --prune=now

比较清理前后的提交信息变化

清理前的提交日志

这里我再添加一个大文件和一个说明文件,添加后提交。
执行git log -p命令查看提交内容,如下所示

Git 大文件清理_第1张图片

清理后的提交日志

很显然日志未发生任何变化
Git 大文件清理_第2张图片

主动刷新后的提交日志变化

很显然,在提交日志里,根本看不到我们提交过什么大文件,只有和大文件同时提交的记录文件还在。那说明我们把大文件的提交记录清除了。
Git 大文件清理_第3张图片

温馨提示

大文件已经提交到远程仓库

如果这些文件已经提交到远程仓库了,那么现在就有一个问题,远程仓库的提交记录和本地的提交记录不一致。只能强制提交或者强制update

  • 强制提交git push origin master -force,本地代码强制覆盖远程代码仓库的代码
  • 强制覆盖远程版本到本地,最后的代码就是远程仓库的版本
git fetch --all
git reset --hard origin/master
大文件不曾提交到远程仓库

如果大文件不曾提交到远程仓库,则可以处理了大文件后,直接提交到仓库。

参考文档

Git+Gerrit如何永久删除历史文件(大文件/私密文件)
寻找并删除Git记录中的大文件

你可能感兴趣的:(Git)