IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 基于文本字符的交易验证码识别0.98+解决方案 -> 正文阅读

[人工智能]基于文本字符的交易验证码识别0.98+解决方案

赛题介绍

赛题名称:

基于文本字符的验证码识别竞赛

出题单位:

兴业银行股份有限公司

赛题背景:

验证码作为性价较高的安全验证方法,在多场合得到了广泛的应用,有效地防止了机器人进行身份欺骗,其中,以基于文本字符的静态验证码最为常见。随着使用的深入,噪声点、噪声线、重叠、形变等干扰手段层出不穷,不断提升安全防范级别。RPA技术作为企业数字化转型的关键,因为其部署的非侵入式备受企业青睐,验证码识别率不高往往限制了RPA技术的应用。一个能同时过滤多种干扰的验证码模型,对于相关自动化技术的拓展使用有着一定的商业价值。

赛题任务:

本次大赛以已标记字符信息的实例字符验证码图像数据为训练样本,参赛选手需基于提供的样本构建模型,对测试集中的字符验证码图像进行识别,提取有效的字符信息。训练数据集不局限于提供的数据,可以加入公开的数据集。

数据简介

此次比赛为选手提供15000张带标注信息的训练数据集,每张训练数据都是包含一个4位文本字符的验证码图像,并对当前图像中的文本字符进行了标注;测试数据集含25000张验证码图像。
图片1.png 图片2.png 图片3.png 图片4.png

吐槽

对于这场比赛,吐槽的人非常多!总结下来有以下几点:

1、A榜和B榜的数据分布差距较大,导致很多前排变后排。令无数高手竟折腰。

2、比赛意义不大这是场为了比赛而比赛的赛题。

解决方案

在竞赛群里看大佬的聊天得知,大家用的上分手段有:五折交叉验证、CutOut、CutMix、MixUp、生成数据等。模型一般用EfficientNetV1、V2。

在上分手段段我也采用了上面的一些手段,我的方案是:EfficientNetV1-B7+MixUp+CutOut。后期加入了CutMix,没有来得及测试效果。把验证码识别按照多标签分类去做。

解决方案参考github:https://github.com/zyf-xtu/captcha_ocr

训练得分:0.9854,由于测评已经关闭,没有办法得知在A榜的得分了。

image-20220329081235353

下面详细说一下我的方案。

数据

对数据部分的修改在captcha_dataset.py文件中。对geitem方法做了修改:

    def __getitem__(self, index):
        img_path, target = self.samples[index]
        # #print('target', target)
               # #print('random_t', random_t)
        img = img_loader(img_path)
        if np.random.random() > 0.5 and self.train_type==True:
            img_arr = np.array(img)
            index_arr=np.random.permutation(img_arr.shape[2])
            img_arr=img_arr[:,:,index_arr]
            img = Image.fromarray(img_arr.astype('uint8')).convert('RGB')
        if np.random.random() > 0.5 and self.train_type==True:
            img_random_path, random_t = self.samples[np.random.randint(0, len(self.samples))]
            img_random = img_loader(img_random_path)
            img_arr = np.array(img)
            img_random_arr = np.array(img_random)
            img_arr[:, 50:100, :] = img_random_arr[:, 50:100, :]
            img = Image.fromarray(img_arr.astype('uint8')).convert('RGB')
            target = target[:124] + random_t[124:]
        if self.transform is not None:
            img = self.transform(img)
        if self.target_transform is not None:
            target = self.target_transform(target)

        return img, torch.Tensor(target)

在这个方法里,我增加了两种数据增强,一种是对通道的随机,也就是RGB的随机;另一种是CutMix,将图片的前半部分和另一张图片的后半部分做拼接。然后Label也做相应的拼接。

训练

训练是最重要的部分,这些修改在train_1.py中,我把我修改的地方列举出来:

image_sizeh,image_sizew=240,600

将图片的Resize尺寸设置为240×600,放大了6倍。

数据增强我增加了CutOut:

Cutout使用到了torchtoolbox,如果没有torchtoolbox则需要安装:

pip install torchtoolbox

安装完成后导入:

from torchtoolbox.transform import Cutout

然后再transforms中调用。

 # transform = [, transforms.GaussianBlur(21, 10)]
    train_transform = transforms.Compose([
    	Cutout(),
        transforms.Resize((image_sizeh, image_sizew)),  # 图像放缩
        transforms.RandomRotation((-5, 5)),  # 随机旋转
        # transforms.RandomVerticalFlip(p=0.2),  # 随机旋转
        transforms.ToTensor(),  # 转化成张量
        transforms.Normalize(
            mean=train_mean,
            std=train_std
        )
    ])

加载数据部分我做了修改:

 # 加载训练数据集,转化成标准格式
    train_dataset = CaptchaData(train_paths,train_type=True, transform=train_transform)
    # 加载验证集,转化成标准格式
    val_dataset = CaptchaData(val_paths,train_type=False, transform=val_transform)

增加了train_type字段,判断是否是训练,如果是训练则做数据增强,如果不是则不作数据增强。

# 如果是多个gpu,数据并行训练
    device_ids = [0, 1]
    model = torch.nn.DataParallel(model, device_ids=device_ids)

增加多GPU并行,我本地的环境有两块3090,所以device_ids设置为0、1。

    cosine_schedule = optim.lr_scheduler.CosineAnnealingLR(optimizer=optimizer, T_max=20, eta_min=1e-6)

对学习率的调整,我用余弦退火。学习率初始值为1e-3,最小设置为1e-6。

 inputs, labels_a, labels_b, lam = mixup_data(inputs, labels, 0.2)
            # 预测输出
            outputs = model(inputs)
            # 计算MixUp loss
            loss = mixup_criterion(loss_func, outputs, labels_a, labels_b, lam)

增加mixup,mixup提分还是比较明显的。

本次比赛另一位大佬也做了开源,github地址:https://github.com/xiaoxiaokuaile/2022DCIC_OCR

总结

这次比赛虽然不完美,但是在比赛中学到了不少的知识,我觉得这才是最重要的。

完整的代码:https://download.csdn.net/download/hhhhhhhhhhwwwwwwwwww/85050647

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-30 18:23:58  更:2022-03-30 18:26:24 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/9 2:05:24-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码