watfe

python 查找重复文件，以及查找重复视频的一些思路

查找重复文件（文件大小一致、md5相同）

思路很简单：

找出指定目录及子目录下所有文件
找出大小重复的
进一步确认md5也重复的，则认为是重复文件

这里md5，为了加速计算，没有算文件的完整md5。（之前看到过这种算法，忘了在哪里看来的，大概是用于上传文件时，快速判断是否与已有文件对比验证用的）将文件分成256块，每块取前8个字节计算md5，这样能快速计算出一个大概可以用于判断文件唯一性的md5。

完整代码如下：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import os
import re
import time
import hashlib

def main():
    path = 'd:/'
    fp_arr =  file_search(path,repat=r'.*\.mp4')  # 查找文件(文件类型自行填写，不写查所有文件类型)
    du_arr = find_duplicate_file(fp_arr)          # 检查重复
# [fp_arr.remove(l) for j in [i[1:] for i in du_arr] for l in j] # 去重，重复文件只保留第1个即可


def file_search(path='.',repat = r'.*'):
    """
    文件查找：
        文件夹及子文件夹下，所有匹配文件，返回list文件列表，绝对路径形式
    Args:
        path: 文件路径（默认当前路径）
        repat: 文件名正则匹配，不区分大小写（默认匹配所有文件）
        return: 文件列表（绝对路径）
    Returns:
        files_match: 文件列表
    """
    # 获取文件夹，及子文件夹下所有文件，并转为绝对路径
    folders,files = [],[]
    st = time.time()
    repat = '^'+repat+'$'
    # walk结果形式 [(path:文件夹,[dirlist:该文件夹下的文件夹],[filelist:该文件夹下的文件]),(子文件夹1,[子子文件夹],[]),(子文件夹2,[],[])...]
    # 该遍历会走遍所有子文件夹，返回上述形式的结果信息。
    for record in os.walk(path):  
        fop = record[0]
        folders.append(fop)
        for fip in record[2]:
            fip = os.path.abspath(os.path.join(fop,fip)).replace('\\','/')
            files.append(fip)
    # 逐个检查是否符合要求
    files_match = []
    for file in files:
        a = re.findall(repat,file.lower())
        if a:
            files_match+=a
    print('找到{0}个文件'.format(len(files_match)))
    # 返回满足要求的
    return files_match


def fastmd5(file_path,split_piece=256,get_front_bytes=8):
    """
    快速计算一个用于区分文件的md5（非全文件计算，是将文件分成s段后，取每段前d字节，合并后计算md5，以加快计算速度）

    Args:
        file_path: 文件路径
        split_piece: 分割块数
        get_front_bytes: 每块取前多少字节
    """
    size = os.path.getsize(file_path) # 取文件大小
    block = size//split_piece # 每块大小 
    h = hashlib.md5()
    # 计算md5
    if size < split_piece*get_front_bytes: 
        # 小于能分割提取大小的直接计算整个文件md5
        with open(file_path, 'rb') as f:
            h.update(f.read())
    else:
        # 否则分割计算
        with open(file_path, 'rb') as f:
            index = 0
            for i in range(split_piece):
                f.seek(index)
                h.update(f.read(get_front_bytes))
                index+=block
    return h.hexdigest()


def find_duplicate_file(fp_arr):
    """
    查找重复文件

    Args:
        fp_arr:文件列表
    """
    # 将文件大小和路径整理到字典中
    d = {}  # 临时词典 {文件大小1:[文件路径1,文件路径2,……], 文件大小2:[文件路径1,文件路径2,……], ……}
    for fp in fp_arr:
        size = os.path.getsize(fp)
        d[size]=d.get(size,[])+[fp]
    # 列出相同大小的文件列表
    l = [] # 临时列表 [[文件路径1,文件路径2,……], [文件路径1,文件路径2,……], ……]
    for k in d:
        if len(d[k])>1:
            l.append(d[k])
    # 核对大小一致的文件，md5是否相同
    ll = [] # 临时列表 [[文件路径1,文件路径2,……], [文件路径1,文件路径2,……], ……]
    for f_arr in l:
        d = {} # 临时词典 {文件大小1:[文件路径1,文件路径2,……], 文件大小2:[文件路径1,文件路径2,……], ……}
        for f in f_arr:
            fmd5 = fastmd5(f)
            d[fmd5]=d.get(fmd5,[])+[f]
        # 找到相同md5的文件
        for k in d: # 相同大小的文件，核对一下md5是否一致
            if len(d[k])>1:
                ll.append(d[k])
    print('查重完毕，发现{0}处重复'.format(len(ll)))
    for i in ll:
        print(i)
    return ll


if __name__ == '__main__':
    main()

视频查重（部分完成）

思路：对视频进行抽帧，然后比对是否有关键帧的图片指纹是否一致

这里写一下研究过程，实现代码：

视频抽帧
图像指纹生成
找出包含同样图像指纹的视频

这个过程试过一些方案也都记录一下：
曾经考虑subprocess.Popen()执行ffmpeg抽帧，但是太慢了


def external_cmd(cmd, msg_in=''):
    # 将subprocess.call(cmd)包装了一下，这样就能获取到执行cmd命令时，产生的输出内容了。
    try:
        proc = subprocess.Popen(cmd,
                                shell=True,
                                stdin=subprocess.PIPE,
                                stdout=subprocess.PIPE,
                                stderr=subprocess.PIPE,
                                )
        stdout_value, stderr_value = proc.communicate(msg_in)
        return stdout_value, stderr_value
    except ValueError as err:
        # log("ValueError: %s" % err)
        return None, None
    except IOError as err:
        # log("IOError: %s" % err)
        return None, None

'''方法一'''
# 1秒抽0.05帧，也就是20s抽1帧，1420s长度视频抽73镇，耗时94s
external_cmd('ffmpeg -i "{0}" -r 0.05 -q:v 2 -f image2 ./%08d.000000.jpg'.format(video_path))


'''方法二'''
# 20s抽1帧，1420s长度视频抽70帧，耗时18s
timeF = 20
for i in range(1,video_duration//timeF):
    h,m,s = (i*timeF)//3600, ((i*timeF)%3600)//60, (i*timeF)%60
    external_cmd('ffmpeg -i "{0}" -ss {1:0=2}:{2:0=2}:{3:0=2} -vframes 1 {4}.jpg'.format(video_path,h,m,s,i)) # 抽取指定时间点起的第一帧


'''方法三'''
# 20s抽1帧，1420s长度视频抽70帧，并压缩到100*100耗时17s（对图像的压缩处理基本不影响速度，时间开销的大头也不是出在文件存储上，而是ffmpeg定位时间为位置然后抽帧本身就慢）
timeF = 20
for i in range(1,video_duration//timeF):
    h,m,s = (i*timeF)//3600, ((i*timeF)%3600)//60, (i*timeF)%60
    hw = '{0}x{0}'.format(100)
    external_cmd('ffmpeg -i "{0}" -ss {1:0=2}:{2:0=2}:{3:0=2} -vframes 1 -s {5} -f image2 {4}.jpeg'.format(video_path,h,m,s,i,hw))

最后选定的还是cv2抽帧

这个是一开始想的，将抽到的帧保存为单张图像，发现还是慢。
'''
# 视频抽帧测试，这种抽帧方式太慢了，1000帧大概45秒长度视频，花费5秒左右
videopath = '01.mp4'
vc = cv2.cv2.VideoCapture(videopath)
if vc.isOpened(): # 是否正常打开
    rval,frame = vc.read()
else:
    rval = False
timeF =1000 # 抽帧频率
c = 1
while rval:
    rval,frame = vc.read()
    if(c%timeF==0):
        cv2.imwrite('{0:0=3}.jpg'.format(c),frame)
    cv2.waitKey(1)
    c+=1
vc.release()
'''

然后换成了这种，不存图像了，直接将抽到图像计算成dhash保存，总算速度上来了。
# 视频，取指定时间点图片，转指定宽高后，计算图像指纹
v = 'c:/users/kindle/desktop/test/01.mp4'
cap = cv2.VideoCapture(v)  #打开视频文件
n_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))  #视频的帧数
fps = cap.get(cv2.CAP_PROP_FPS)  #视频的帧率
dur = n_frames / fps  #视频的时间
cap.set(cv2.CAP_PROP_POS_MSEC, (5*1000)) # 跳到指定时间点，单位毫秒
success, image_np = cap.read()  # 返回该时间点的，图像(numpy数组)，及读取是否成功
img = Image.fromarray(cv2.cvtColor(image_np,cv2.COLOR_BGR2RGB)) # 转成图像格式
imgrsz = img.resize((100,100)) # 缩放到指定宽高（后来发现是否缩放基本不影响）
# imgrsz.save('5.jpg') # 保存图像
# imgrsz.show()  # 显示图像

计算图像指纹，直接用了现成的模块，imagehash里的dhash

h5 = str(imagehash.dhash(imgrsz)) # 生成图像指纹

在上述基础上，视频转换为图像指纹组的函数基本如下


def video2imageprint(filepath):
    """
    返回整个视频的图片指纹列表
    从3秒开始，每60秒抽帧，计算一张图像指纹
    """
    cap = cv2.VideoCapture(filepath)  ##打开视频文件
    n_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))  #视频的帧数
    fps = cap.get(cv2.CAP_PROP_FPS)  #视频的帧率
    dur = n_frames / fps *1000  #视频大致总长度
    cap_set = 3000
    hash_int_arr = []
    while cap_set<dur-3000: # 从3秒开始，每60秒抽帧，计算图像指纹。总长度-3s，是因为有的时候计算出来的长度不准。
        cap.set(cv2.CAP_PROP_POS_MSEC, cap_set)
        # 返回该时间点的，图像(numpy数组)，及读取是否成功
        success, image_np = cap.read()
        if success:
            img = Image.fromarray(cv2.cvtColor(image_np,cv2.COLOR_BGR2RGB))  # 转成cv图像格式
            h = str(imagehash.dhash(img))
            hash_arr.append(h) # 图像指纹
        else:
            print('fail',cap_set/1000,filepath)
        cap_set+=1000*60
    cap.release() # 释放视频
    return hash_arr

然后将建立字典，key为图像指纹，value为地址列表。

# shelve用来做python的字典型数据库，并将其存储在磁盘上。
# shelve的key要求必须是字符串，value则可以是任意合法的python数据类型
db = shelve.open('videocheck.db')
# 写入数据库
for h in hash_arr:
    fp_arr = db.get(h, []) # 具有相同指纹的对应的视频路径列表
    if fp_arr==[]:
        db[h]=[filepath]
    elif filepath not in fp_arr:
    	db[h]=db[h]+[filepath] 
db.close()

后面就是检查哪个指纹，对应的地址列表中，大于1个文件。
则说明有多个视频包含该指纹。
为了验证指纹相同的图像是否一致，还写了一个合并图像输出的函数。这个函数写成了这样，是考虑以后可以用作给视频生成多图合并的缩略图玩。

def imgjoin(imgs,tags=[],width_height=(0,0),column_row=(0,0),blank=(0,0,0,0,0,0)):
    '''
    多张图片，合并成一张视频抽帧缩略图合并大图那种。
    可以每张图片上方加注释，也可以文件顶部只加一行注释。
    每张图片宽高，行列间距，四外边距都可以自定义
    args:
        imgs: pil图片数组
        tags: 如果标签数和图片数相同，每张图片上方加文字。如果只有一个标签，则只在图片最顶部加1条文字。
        width_height: 合并后图片中，每张缩略图宽高，如未指定以第一张图标为基准
        column_row:横排和竖排数量
        blank_cr:空白分布(列间,行间,左右,上下,标题,标签)
    return: 返回合并好的图片
    '''
    from PIL import Image,ImageDraw,ImageFont
    # 检查是否符合规则
    if len(imgs)>100:
        print('imgs当前上限100张图合并')
        return ''
    elif imgs==[]:
        print('imgs中没有包含图片，请检查')
        return ''
    elif 1<len(tags)<len(imgs):
        print('tags文字数组和图片对不上，请只输入1条或和图片一样多')
        return ''
    else:
        pass
    # 每行每列个数
    if column_row==(0,0):
        cr = 1
        while len(imgs)>cr**2:
            cr+=1
        column_row=(cr,cr)
    c,r = column_row
    # 调整每张图片到指定宽高，如未指定，以第一张图片宽高为基准:
    if width_height==(0,0):
        width_height = imgs[0].size
    for i,m in enumerate(imgs):
        if m.size!=width_height:
            imgs[i] = m.resize(width_height) # 缩放到指定宽高
    w,h = width_height
    # 空白分布
    bw,bh,blr,btb,btitle,btag = blank # (列间,行间,左右,上下,标题,标签)
    if blank==(0,0,0,0,0,0):
        if len(tags)==1:
            btitle = h
    # 生成输出图像尺寸
    J_width = w*c + bw*(c-1) + blr*2 # 总计图像宽度+列间距+左右边距
    J_height= h*r + bh*(r-1) + btb*2 + btitle + btag*r # 总计图像高度+行间距+顶底边距+标题高度+标签高度
    J_img = Image.new('RGB', (J_width,J_height),(255,255,255))
    draw=ImageDraw.Draw(J_img)
    newfont=ImageFont.truetype('simkai.ttf',12)
    # 合并图像
    for i,m in enumerate(imgs):
        if i==0: # 第一张图
            x,y=blr,btb+btitle+btag # 第一张图左上角位置
        elif i%c==0: # 新的一行
            x,y=blr,y+bh+btag+h
        else:
            x,y=x+bw+w,y
        J_img.paste(m, (x, y, x+w, y+h))
        # 添加文字
        if len(tags)>1:
            draw.text((x,y-btag),tags[i],(0,0,0),font=newfont)
    return J_img

到这里最开始的研究就完成了，
最开始的实现思路，就是上面这样。

================

后来发现图像指纹是有可能不是完全一致的，
而是相似的，还要考虑到相似的图像指纹。

imagehash.dhash算出来的图像指纹，本身的type类型不是字符串。
为了保存，转为字符串后，后续计算两个字符串的相似度，哪怕是很简单的字符串每一位是否与另一字符串每一位相等，数以10w个图像指纹，互相计算都要花费很长时间。
计算两个指纹的相似度，试了几种方法效率，最后发现bin最快，这个方法还是从dhash的官网看来的。
2020-5-13 看到还有一种写法是
num = 1 - (aHash - bHash)/len(aHash.hash)**2
直接imagehash计算，速度和bin的差不多，推荐使用这个。

'''关于dhash相似度比较方法研究，得到bin的方法计算最快，我的家用电脑10w次大概0.057秒。'''
import time
a = 'a1a8739f324eb01c'
b = 'a1a8749f323eb01c'
ai = int(str(a),16)
bi = int(str(b),16)
st = time.time()
# 10w次执行速度，bin方式最快
for i in range(100000):
    # num = [a[j] is b[j] for j in range(16)].count(True)/16 # 0.2097s
    # num = [a[j] == b[j] for j in range(16)].count(True)/16 # 0.2082s
    # num = difflib.SequenceMatcher(None, a,b).ratio()       # 4.2250s
    num = 1-bin(ai^bi).count("1")/64                         # 0.0568s
et = time.time()
print(num,et-st)

接下来的考虑思路就是

计算得到相似图像指纹
找到相似指纹对应的视频
检查视频是否有连续相同地方
列出相似视频对比缩略图

1秒比对200w个感觉是挺快
但是1000个，长度为1小时的视频，就需要30分钟比对完。
这个计算量感觉太大，即使写出来，为提高效率可能需要其他算法之类的优化。

关于效率处理这里，并没有完全想好，也没有时间测试，暂时就搁置了。
因为是个人闲暇研究，扔了可能后续就忘了，捡不起来了。
所以这里把之前的研究过程记录一下，希望其他有用到的人能得到一些参考。

Python环境迁移到另一台电脑的Anaconda环境下 Calvad0s Python python linux 开发语言 Anaconda conda
目录一、使用命令导出当前环境的依赖包二、将requirements.txt文件复制到另一台电脑上三、在Anaconda环境中使用命令进行导入一、使用命令导出当前环境的依赖包pipfreeze>requirements.txt二、将requirements.txt文件复制到另一台电脑上三、在Anaconda环境中使用命令进行导入pipinstall-rrequirements.txt
Python实现扫雷游戏叫兽-郭老师【Python】游戏开发游戏 python
提供学习或者毕业设计使用，功能基本都有，不能和市场上正式游戏相提比论，请理性对待！通过购买专栏或者CSDN问答提问，采纳后，私信博主。提供源码！说明：需要的话联系博主！谢谢。如果需要一步一步解析步骤，可以联系博主，博主可以提供详细实现步骤。博客下方有我vx。代码：#扫雷游戏im
Installing Anaconda on Raspberry Pi 4 with Ubuntu 20.04 pertain99 Ubuntu Linux
RaspberryPi4runson32-bit.Usethe32-bitversionsandyoushouldbeokay!I’verecentlyinstalledminicondaonmyRaspberryPi4.Ididitusingthefollowingcommands:#Updatelinuxsudoaptupdate-y#Installpython3sudoaptinstall-
基于python的“扫雷”游戏实现 m0_74802518 游戏 python windows
一、引言：最近在学习python语言，想着尝试通过python来实现儿时玩过的小游戏，于是从"扫雷"游戏开始，依据自己的理解，编写游戏代码。若有不周到之处，还望大家批评指正。环境配置：python3.12,pygame2.6.1,numpy1.26.4二、效果展示灰色为未揭开的单元，红色表示地雷，绿色表示“插旗”（即认定此单元格为地雷）三、程序思路1.程序框架图如图所示，我们需要创建“扫雷”用的棋
Python入门实战：Python基础语法详解 AI智能涌现深度研究 Python入门实战大数据人工智能语言模型 Java Python React 架构设计
1.背景介绍Python是一种高级的、通用的、解释型的编程语言，由GuidovanRossum于1991年创建。Python的设计目标是让代码更简洁、易读和易于维护。Python的语法结构简洁，易于学习和使用，因此成为了许多程序员的首选编程语言。Python的核心概念包括变量、数据类型、条件语句、循环、函数、类和模块等。在本文中，我们将详细介绍这些概念，并提供相应的代码实例和解释。2.核心概念与联
Conda 环境搭建实战：从基础到进阶嘉图明 conda neo4j
在当今复杂多变的软件开发与数据科学领域，拥有一个稳定、可复现且易于管理的开发环境是项目成功的基石。Conda作为一款强大的跨平台环境管理与包管理工具，为开发者提供了便捷高效的环境搭建与依赖管理解决方案。本文将深入探讨Conda环境搭建的实战技巧，从基础概念到高级应用，助力开发者打造理想的开发环境。Conda基础概念解析什么是CondaConda最初是为Python语言开发的包和环境管理系统，但如今
使用conda将python环境打包pack，移植到另一个linux服务器项目中 adczsw conda python环境打包移植环境管理
一：conda-pcak在什么情况下使用：二：conda常见的使用指令：1：查看自己conda管理有几种python环境：2：创建一个新的python环境：3：对已经存在的python环境进行复制：4：切换到对应的python环境：三：打包某个python环境1：进行python环境打包：2：传输这个压缩文件py3666.tar.gz到你所需要的服务器上：3：解压缩py366.tar.gz:4：激
使用conda-pack向内网服务器复制重现一个项目虚拟环境 J_caicaicai Linux Python 服务器 python
thisisthecase，目前有两台服务器，相同操作系统，一台可以连外网，一台不可以。所以可以借助能连外网的机器，去先将跑python程序的环境准备好，然后使用condapack复制到无法连外网的机器上。机器A：连外网机器机器B：内网机器第一步：现在机器A上像往常一样，创建项目的虚拟环境example_env，condainstall各种有的没有第二步：在机器A上切换虚拟环境到base上，在ba
元组的奥妙鲨鱼学python python 开发语言
一、元组的定义元组是Python中的一种数据结构，它类似于列表，但是元组是不可变的，即一旦创建就不能修改。元组使用圆括号()来表示，其中的元素可以是任意类型，包括数字、字符串、列表等。元组可以通过索引访问其中的元素，也可以使用切片操作获取部分元素。元组一般用于存储一组相关的值，且这些值不会发生变化的情况下使用。1、元组定义的第一种方法#当元组中只有一个元素时，逗号不能省略t2=(10,)print
Visual Studio Code (VSCode) 安装与使用教程 w(ﾟДﾟ)w吓洗宝宝了 vscode ide 编辑器
一、VisualStudioCode简介VisualStudioCode(简称VSCode)是一款由微软开发的轻量级源代码编辑器，支持多种编程语言，如C/C++、Python、JavaScript等。它具有丰富的功能，如代码高亮、智能感知、调试支持等，非常适合各种开发者使用。二、系统要求操作系统：Windows、macOS、Linux处理器：至少1GHz内存：至少512MBRAM硬盘空间：至少20
探索DeFi世界：用Python开发去中心化金融应用 Echo_Wish Python！实战！python 去中心化金融
探索DeFi世界：用Python开发去中心化金融应用在区块链技术快速发展的今天，去中心化金融（DeFi）正在改变传统金融行业的格局。作为一名自媒体创作者和技术爱好者，我希望通过本文分享如何用Python开发去中心化金融应用，帮助读者深入了解DeFi的潜力和技术实现方式。什么是去中心化金融（DeFi）？去中心化金融，即DeFi，是指利用区块链技术和智能合约构建的金融服务系统。与传统金融体系不同，De
使用 Python 快速扫描局域网中活动的 IP 技术探索 python tcp/ip 开发语言
部分数据来源：ChatGPT本文仅用于信息安全的学习，请遵守相关法律法规，严禁用于非法途径。若观众因此作出任何危害网络安全的行为，后果自负，与本人无关。简介如果你需要在局域网中查找活动的IP地址，那么这个Python脚本可以帮助你快速地扫描整个局域网，并输出所有活动的IP地址，最后将它们存储到一个文件中，方便你查看。这个脚本基于Python语言，使用了os和threading模块，它能够快速扫描所
pythonvue自动化_Vue项目的自动化测试 weixin_39617669 pythonvue自动化
Vue项目的自动化测试说到自动化测试，许多开发团队都是听说过、尝试过，但最后都止步于尝试，不能将TDD(测试驱动开发)、BDD(行为驱动开发)的完整流程贯彻到项目中。思考其中的原因：终究还是成本抵不上收益。很多后端开发人员可能写过很多自动化的单元测试代码，但是对前端测试一头雾水。这是因为相对于后端开发人员的自动化单元测试，前端的自动化测试成本更高。自动化测试就是通过自动化脚本将一个又一个测试用例串
用python制作简单的小游戏,用python设计一个小游戏 w12130826 pygame python 开发语言人工智能
本篇文章给大家谈谈python编写小游戏详细教程，以及用python制作简单的小游戏，希望对各位有所帮助，不要忘了收藏本站喔。Python为什么能这么火热？Python相对于其他语言来说比较简单，即使是零基础的普通人也能很快的掌握，在其他方面比如，处于灰色界的爬虫，要VIP的视频，小说，歌，没有爬虫解决不了的；数据挖掘及分析，淘宝就是例子，想开个淘宝店，需要获取相关商品信息，这时数据分析就能解决等
python编写小游戏详细教程,用python制作一个小游戏 nbhkk pygame python 人工智能
这篇文章主要介绍了如何用python做一个简单的小游戏，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。Sourcecodedownload:本文相关源码Python为什么能这么火热？Python相对于其他语言来说比较简单，即使是零基础的普通人也能很快的掌握，在其他方面比如，处于灰色界的爬虫，要VIP的视频，小说，歌，没有爬虫解决不了的；数
Python爬虫实战：四个常见案例详解！ Python_trys python 爬虫开发语言 Python基础编程语言 Python爬虫 Python入门
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击这里领取！】网络爬虫是数据采集的重要工具，Python凭借其丰富的库和简洁的语法，成为了爬虫开发的首选语言。本文将详细介绍四个常见的Python爬虫实战案例，帮助你从入门到精通。目录案例一：静态网页数据抓取案例二：动态网页数据抓取案例三：模拟登录与表单提交案例四：数据存储与导出1.环境准备在开始之前，确保你已经安装了以下Python库：pipin
Python图片识别脚本：从零开始实现图像识别！ Python_trys python 开发语言编程 Python入门 Python基础 Python识别 Python学习
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取！】图像识别是计算机视觉领域的一个重要应用，Python凭借其丰富的库和工具，成为了实现图像识别的首选语言之一。本文将带你从零开始，使用Python编写一个简单的图片识别脚本。我们将使用OpenCV和TensorFlow来实现这个功能。1.环境准备在开始之前，我们需要安装一些必要的Python库。你可以使用pip来安装这些库：pipinsta
Python和Java的区别? weixin_34088583 java python
Python和Java都是很火的编程语言，对于想学习编程的人员来说，常常被这个问题所困扰：我是该学Python还是Java呢？想要解决这个问题，还需结合自身实际情况和两种语言的特点进行分析，以下是Python和Java的区别。1.Python比Java简单，学习成本低，开发效率高；2.Java运行效率高于Python，尤其是纯Python开发的程序，效率极低；3.Java相关资料多，尤其是中文资料
python和java的优缺点-java有哪些python没有的优点? weixin_37988176
Java和Python都是目前最火的后台语言。Java的使用时间更久，更成熟，Python语言更年轻，更便捷。两者各有各的优势：Python的优势：1.学起来简单，开发效率高，同样的功能用Java开发可能需要写200条代码，但是用Python只需要30~50条;2.在大数据挖掘方面有突出优势，是大数据分析首选的编程语言，Python可以让开发人员轻松表达概念，程序员维护和更新代码库更容易;3.Py
《Docker 核心概念揭秘：如何让软件开发像烹饪一样简单》 TechStack 创行者 #服务器容器 Linux docker 容器运维
Docker核心概念通俗解读1.‌镜像（Image）——软件的“预制菜”‌‌是什么‌：镜像是打包好的软件环境，包含代码、工具、配置等所有依赖，就像餐厅提前备好的半成品菜，拆开包装就能烹饪‌。‌核心特点‌‌不可修改‌：一旦制作完成，镜像内容就固定不变，确保不同环境运行效果一致‌。‌分层结构‌：像叠积木一样分层构建，基础层（如操作系统）和功能层（如Python环境）可复用，节省存储空间‌。2.‌容器（
Python 编程第一课：快速上手 Python 后端
Python环境搭建为了开始Python编程之旅，首先需要搭建Python环境。以下是简洁的环境搭建步骤：安装Python访问Python官方网站下载最新版本的Python安装包。按照安装向导完成安装，确保勾选“AddPythontoPATH”选项。安装集成开发环境(IDE)PyCharm：功能强大，适合大型项目开发，有社区版和专业版。VSCode：轻量级但功能丰富，可通过插件扩展功能，适合各种规
mac OS matplotlib missing from font(s) DejaVu Sans 风轻扬777 matplotlib
如果能搜索到这篇文章，我猜你遇到了和我一样的问题：matplotlib绘图中文乱码。如下：出现这个问题的原因是：matplotlib使用的字体列表中默认没有中文字体。这里说一种解决方案：我们可以在文件中手动指定matplotlib使用的字体在python文件中指定matplotlib使用的字体，如下：plt.rcParams['font.sans-serif']=['STFangsong']#用来
Python第十四课：数据可视化 | 信息炼金术程之编 Python学习笔记 python 信息可视化开发语言
本节目标掌握Matplotlib基础图表绘制理解Seaborn高级统计可视化学会使用Pyecharts制作交互式图表开发实战项目：疫情数据动态仪表盘掌握可视化设计原则与优化技巧1️⃣可视化工具全景图生活化比喻:Matplotlib→手工雕刻刀（精细但需技巧）Seaborn→智能雕刻机（快速成型）Pyecharts→全息投影仪（动态交互）2️⃣Matplotlib基础：从折线到热力图折线图与柱状图i
【每日一练】python文件读.写.追加基本用法程之编 Python学习笔记 python
"""本节课程内容：1.打开一个文件，模式为写入2.用传参方式写入文件内容3.如何追加文件内容4.如何读取新写入的文件5.牢记操作完一定要关闭程序使用close()函数Ps：如果写完文件后就读取文件，需要使用seek(0)把指针复位到开头。否则，下面读取文件为空，因为写完后指针会停留在尾部。"""#打开文件flit=open('测试.txt','w',encoding='utf-8')#写入文件的
RuntimeWarning: Glyph 35745 missing from current font jst100 python 开发语言
出现该问题的在于在使用plt绘图时找不到合适字体来表示中文。解决方式对于Windows系统可以直接在原始文件中添加如下代码plt.rcParams['font.sans-serif']=['SimHei']对于MAC系统可以在python文件中添加如下代码plt.rcParams["font.family"]='ArialUnicodeMS'对于Linux系统则首先通过命令fc-list:la
idea+python+selenium自动化测试环境搭建-mac版本 guosasa 自动化测试工具
1、安装idea官网下载安装：https://www.jetbrains.com/idea/download/#section=mac2、安装python3官网下载python最新版本-mac版uname-a可以查看对应mac系统版本https://www.python.org/downloads/macos/
python爬虫之解决Matplotlib出现中文乱码、交互框架警告问题（UserWarning: Glyph XXXX missing from current font.）南沐成辰^ python 爬虫 matplotlib
文章目录前言一、pandas是什么？二、问题描述1.中文字体乱码2.Matplotlib后端警告三、问题原因分析1.中文字体问题：2.后端交互框架问题：四、解决方案1.解决中文字体乱码方法1：在代码中指定SimHei（黑体）字体方法2：在系统中安装中文字体2.解决Matplotlib交互后端警告五、总结前言使用Python的Matplotlib库进行数据可视化时，很多用户会遇到中文字符显示乱码或M
关于采用源始经为底层框架开发中文编程系统的可能性太翌修仙笔录 deepseek 超算法认知架构第三代人工智能算法人工智能
用中文写代码和Python哪个有前景在编程语言选择方面，**Python的发展前景明显优于中文编程语言**。以下是具体分析：---###一、核心结论**优先选择Python**，因为：1.**全球通用性**：Python是国际主流编程语言，适用于跨国协作和开源项目2.**就业市场需求**：Python在人工智能/大数据/Web开发等领域的岗位需求持续增长3.**技术生态优势**：拥有超过30万个第
Python核心技术，Django学习基础入门教程（附环境安装包）小白教程 python python django 学习 Django项目 Django项目实战 Django教程 Django入门教程
文章目录前言1.环境准备1.1Python安装1.2选择Python开发环境1.3创建虚拟环境1.4安装Django2.创建Django项目3.Django项目结构介绍4.启动开发服务器5.创建Django应用6.应用结构介绍7.编写视图函数8.配置URL映射9.运行项目并访问视图10.数据库配置与模型创建10.1数据库配置10.2创建模型11.使用Django管理界面11.1创建超级用户11.2
Mac环境python + selenium 环境搭建临安春雨霁 macos python selenium 软件测试自动化测试功能测试测试工程师
文章主要讲解Mac环境下如何搭建selenium环境。作者也是测试初学者，对selenium目前是一无所知的状态，希望从搭建环境开始对它逐步了解。环境准备本文采用的环境：•Python3.7.3PS：Mac环境会默认自带Python环境，但是Python2的版本，所以如果要使用Python3环境需要自行安装。因为本人没有进行环境配置，所以在终端中如果需要使用Python3的环境，需要输入pytho
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

python 查找重复文件，以及查找重复视频的一些思路

查找重复文件（文件大小一致、md5相同）

视频查重（部分完成）

你可能感兴趣的:(Python)