双十一 又快到了,我打算那天买过移动硬盘,因为电脑320G硬盘实在太小,再加上电脑没常整理,硬盘内的什么,图片、视频、文档、脚本等等也是特别的多。所以想先写个脚本吧重复的文件给找出来。
其实在我去年我也写过这脚本,所以我马上找到了之前的代码(https://www.oschina.net/code/snippet_2558914_54344),但感觉代码有些可以优化的地方所以今天又拿出来了。
import hashlib, os,threading,time
_errList=[]#存放错误路径列表
_equalFlags={}#存放相同数据
_skipDir=["node_modules"]#跳过目录名
_skipFile=["index.js"]#跳过文件名
_dirCount=0#目录数量统计
_fileCount=0#文件数量统计
_paths=["E:\\"]#需要被扫描的路径 使用绝对路径
def filters(path,isFile,size=0):
#自定义过滤内容 比如 大小,后缀正则匹配等
pass
def getFileMd5(files):#获取Md5
srcl=open(files,'rb')
m2 = hashlib.md5()
m2.update(srcl.read())
srcl.close()
return m2.hexdigest()
def getFilesize(path):#用递归的方式遍历文件夹
global _dirCount,_fileCount
try:
if os.path.isdir(path):
filters(path,False)
_dirCount=_dirCount+1
files = os.listdir(path)
for f in files:
p=path + "/" + f
if f in _skipDir or f in _skipFile:
print("跳过:"+p)
continue
getFilesize(p)
else:
size=os.path.getsize(path)
md5=getFileMd5(path)
flag=str(md5)+"--"+str(size)#就这样当做标识吧
filters(path,True,size)
_fileCount=_fileCount+1
if not ( flag in _equalFlags.keys()):
_equalFlags[flag] = []
mtime = time.ctime(os.path.getmtime(path))
ctime = time.ctime(os.path.getctime(path))
_equalFlags[flag].append({"name":os.path.basename(path),"size":size,"path":path,"mtime":mtime,"ctime":ctime,"md5":md5})
except Exception as e:
print(e)
_errList.append(path)
counter_lock = threading.Lock()#线程锁
_isScanFinish=False#是否扫描结束
def scanPath():
global _isScanFinish,_paths
for path in _paths:
print("当前扫描目录:",path)
getFilesize(path)
_isScanFinish=True
t=threading.Thread(target = scanPath,)#创建扫描线程
print("===>扫描开始!!")
_startClock =time.time()#获取开始时间
t.start()#开始线程
while not _isScanFinish:
counter_lock.acquire()
print("已扫描目录:",_dirCount," 已扫描文件:",_fileCount," 扫描失败:",len(_errList))
counter_lock.release()
time.sleep(2)
_endClock =time.time()#获取结束时间
print("===>扫描结束!!"," 用时",str(_endClock-_startClock)+"秒")
'''
'如果你想查看结果那你可以用以下代码输出
'(也可以在此对重复文件进行处理操作)
'''
print("|文件名|完整路径|大小|创建时间|修改时间|MD5|")
print("| -------- |-------- |-------- |-------- |-------- |-------- |")
for key in _equalFlags.keys():
itms=_equalFlags[key]
if len(itms)>1:
for itm in itms:
print("|",itm["name"],"|",itm["path"],"|",itm["size"],"|",itm["ctime"],"|",itm["mtime"],"|",itm["md5"],"|")
'''
'如果想将扫描结果信息导出
'你可以这样做:
'''
import codecs
import json
import datetime
def getNowDate(): #获取时间
return str(datetime.datetime.now().strftime('%Y-%m-%dT%H.%M.%S'))
def wrTxt(path,text):#写入txt
f= codecs.open(path,'w',"utf-8")
f.write(text)
f.close()
def wrJson(path,jsonData):#写入json文件
wrTxt(path,json.dumps(jsonData,ensure_ascii=False))
wrJson("./扫描结果-"+getNowDate()+".json",_equalFlags)
wrJson("./错误结果-"+getNowDate()+".json",_errList)
处理相同文件的方法很多,
比如:对于同一目录的子文件的话,操作很简单,直接删除;
对于不同目录的子文件就要具体情况具体分析了
这里拿对于同一目录不同命的重复文件进行直接删除到回收站的操作
首先 安装send2trash
(づ●─●)づ 注意是删除到回收站 而不是直接删除,以防万一嘛!
当然你想直接删除或移动到某个目录都可以的。
import codecs
import json
from send2trash import send2trash
def rdJson(src, dm='utf-8'): # <===读取json
bfile = codecs.open(src, 'r', dm)
text = bfile.read()
bfile.close()
if text.startswith(u'\ufeff'):
text = text.encode('utf8')[3:].decode('utf8')
return json.loads(text)
data=rdJson("扫描结果-XXXX.json")#读取到的数据
for key in data.keys():
itms=data[key]
itmslen=len(itms)
if len(itms)>1:
for i in range(0,(itmslen-1)):
p=itms[i]['path']
print(p)
send2trash(p) #<====移动到回收站