背景

原始内容：若干图片数据、两个对应的txt文件(rec_gt.txt和Label.txt)
详细内容如下：
图片数据：
在这里插入图片描述
rec_gt.tx：

Label.txt：
在这里插入图片描述

需求

任务：

从图片文件夹内挑选一部分图片，形成一个新的文件夹
根据挑选的文件名在对应的两个txt文件内找到对应的行保留下来
将保留下来的内容形成新的txt文件和处理日志
可以根据挑选的图片，反向将剩余的图片挑出形成文件夹并生成对应的txt文件和处理日志

要求输出：

包含对应图片名的Label_res.txt
包含对应图片名的rec_gt_res.txt
日志（包含总图片量、在lable内无对应的图片名列表、在rec内无对应的图片名列表）
在有反向需求的情况时：剩余图片（形成文件夹crop_img_require_reverse）、剩余图片对应的Label_res.txt、剩余图片对应的rec_gt_res.txt、日志

注：图片文件在两个txt内有一定出入，举例：CB.1251.20211102062443_crop_0.jpg
在lable.txt内的图片文件名为CB.1251.20211102062443_crop_0.jpg
在rec_gt.txt内的图片文件名为CB.1251.20211102062443.jpg，没有”_crop_0”部分

实现

import os
import argparse
import shutil

# 读取某个文件夹下面的所有文件名 返回list
def get_all_file(path):
    all_file=[]
    for i in os.listdir(path):
        file_name=os.path.join(path,i)
        all_file.append(file_name)
    return all_file


# 读取txt文件的内容 返回list
def get_file_cotent(path):
    all_cotent=[]
    with open(path, encoding='utf-8') as f:
        while True:
            line = f.readline()
            if line:
                all_cotent.append(line)
            else:
                break
    return all_cotent


if __name__ == '__main__':

    parser = argparse.ArgumentParser(description='manual to this script')
    parser.add_argument("--input_path", type=str, default="20211208")
    parser.add_argument("--reverse", action='store_true')
    args = parser.parse_args()
    input_path=args.input_path # 读取的文件名 只需要文件名 不需要路径
    reverse=args.reverse # 是否反向操作

    resoure_file_path=os.path.join(os.path.abspath('.'),input_path) # 源文件的路径
    target_file_path=os.path.join(os.path.abspath('.'),input_path+"_res") #结果保存路劲

    # 读取rec_gt内容以及其中对应的图片名
    rec_gt=get_file_cotent(os.path.join(resoure_file_path,'rec_gt.txt')) # 'crop_img/CB.1251.20211102062443_crop_0.jpg	017981'
    all_rec_gt_name=[i for i in map(lambda x:x.split()[0].split('/')[1],rec_gt)] # CB.5903.20211102125747_crop_0.jpg

    # 读取label内容以及其中对应的图片名
    label=get_file_cotent(os.path.join(resoure_file_path,"Label.txt")) # '1251/CB.1251.20211102062443.jpg	[{"transcription": "017981", "points": [[529, 582], [576, 574], [607, 788], [562, 795]], "difficult": false}]'
    all_label_name=[i for i in map(lambda x:x.split()[0].split('/')[1],label)] # CB.4611.20211102114755.jpg

    # 读取所有图片名
    all_img=get_all_file(os.path.join(resoure_file_path,"crop_img")) # 'C:\Users\86178\Desktop\work\20211208\crop_img\CB.1251.20211102090718_crop_0.jpg'
    all_img=[i for i in map(lambda x:x.split("\\")[-1],all_img)] # 'CB.1251.20211102062443_crop_0.jpg'

    # 读取需要处理的图片名
    all_img_require=get_all_file(os.path.join(target_file_path,"crop_img_require")) # 'C:\Users\86178\Desktop\work\20211208_res\crop_img_require\CB.1251.20211102090718_crop_0.jpg'
    all_img_require=[i for i in map(lambda x:x.split("\\")[-1],all_img_require)] # 'CB.1251.20211102062443_crop_0.jpg'

    
    # 反向操作
    if reverse:
        # 计算得到反向操作的图片
        all_img_require=[i for i in all_img if i not in all_img_require]
        # 创建文件夹存放反向操作图片
        if not os.path.exists(os.path.join(target_file_path,'crop_img_require_reverse')):
            os.mkdir(os.path.join(target_file_path,'crop_img_require_reverse'))
        # 反向操作图片转移到我们创建的文件夹中
        for i in all_img_require:
            src=os.path.join(os.path.join(resoure_file_path,'crop_img'),i)
            dst=os.path.join(os.path.join(target_file_path,'crop_img_require_reverse'),i)
            shutil.move(src, dst)

    # 两类错误
    error1=0 # 图片没有对应rec
    error2=0 # 图片没有对应label


    # 处理需求
    with open(os.path.join(target_file_path,'rec_gt_res.txt'),"w") as f1, open(os.path.join(target_file_path,'Label_res.txt'),"w") as f2,open(os.path.join(target_file_path,'log.txt'),"w") as f3:
        for img in all_img_require:
            # file:'CB.1251.20211102062443_crop_0.jpg'
            try:
                rec_idx = all_rec_gt_name.index(img)
                f1.write(rec_gt[rec_idx])
            except:
                f3.write(img+"没有对应rec\n")
                error1+=1
            try:
                label_idx = all_label_name.index(img.split('_')[0] + ".jpg")
                f2.write(label[label_idx])
            except:
                f3.write(img + "没有对应label\n")
                error2 += 1
        f3.write("图片总数是："+str(len(all_img_require))+"\t没问题图片总数是："+str(len(all_img_require)-error1-error2)+"\t没有对应rec的图片总数是："+str(error1)+"\t没有对应label的图片总数是："+str(error2))