PaddleOCR中如何求两个文件的差集

PaddleOCR中如何求两个文件的差集

  • 1.检测框不准确或者识别错误
  • 2.有些数据没有识别结果
    • 2.1 导包
    • 2.2 路径
    • 2.3 把路径中的所有照片都存到列表中
    • 2.4 列表转集合
    • 2.5 求差集
    • 2.6 代码展示
    • 2.7 运行结果

1.检测框不准确或者识别错误

PaddleOCR中会有检测器(det)和识别器(rec),对已有的图片进行检测识别,会有一些检测框不准确或者识别错误的情况,这个时候需要把那些错误的数据都找出来,单独放在一个文件夹中,然后去总数据中对这些有问题的数据重新标好检测框和识别结果,然后再在之后进行训练

2.有些数据没有识别结果

这种情况就是最终识别的结果要比已有的数据要少,就是有些数据因为一些原因没有标记到检测框,首先,如果数据量小的话,还是可以一张一张地去核对,但是如果数据量是比较大的,尤其是上万的,那么这个时候就需要用代码操作来直接找出哪些数据是被遗漏的,再重新做处理。

2.1 导包

import os

2.2 路径

一个是总数据的路径(Image),一个是识别结果存放的路径(output)

image_path = "C:/Users/86775/Desktop/Image/"
output_path = "C:/Users/86775/Desktop/output/"

2.3 把路径中的所有照片都存到列表中

# 先把文件夹中的所有照片都存在列表中
images = os.listdir(image_path)
outputs = os.listdir(output_path)
# print(images)
# print(outputs)

2.4 列表转集合

# 列表转集合
images_set = set(images)
outputs_set = set(outputs)

2.5 求差集

# 差集直接用减号(-)或者集合调用方法difference()
# 法一:-
difference_set = images_set - outputs_set
print(difference_set)
print(len(difference_set))  # 129
# 法二:difference()
# difference_set2 = images_set.difference(outputs_set)
# print(difference_set2)
# print(len(difference_set2))  # 129

2.6 代码展示


import os

image_path = "C:/Users/86775/Desktop/Image/"
output_path = "C:/Users/86775/Desktop/output/"

# 先把文件夹中的所有内容存在列表中
images = os.listdir(image_path)
outputs = os.listdir(output_path)
# print(images)
# print(outputs)

# 列表转集合
images_set = set(images)
outputs_set = set(outputs)

# 差集直接用减号(-)或者集合调用方法difference()
# 法一:-
difference_set = images_set - outputs_set
print(difference_set)
print(len(difference_set))  # 129
# 法二:difference()
# difference_set2 = images_set.difference(outputs_set)
# print(difference_set2)
# print(len(difference_set2))  # 129

2.7 运行结果

1.一个存放所有未处理数据的集合,能够很清晰地看到集合中每张照片的名字,便于之后的数据再核对和处理。
2.未处理照片的数量
在这里插入图片描述

感谢大家的关注和支持
希望我写的文章能够让你们得到价值有所收获
一直在路上,还请各位多多指正!

你可能感兴趣的:(PaddleOCR,python,人工智能,数据挖掘)