| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> OCR——图像超分调研 -> 正文阅读 |
|
[人工智能]OCR——图像超分调研 |
一、图像超分(辨率)1. 图像超分是什么????????图像超分是指将一张低分辨率图像恢复成高分辨率图像的技术。 2. 目的1)提高图片的分辨率; 2)丰富图像的纹理细节。 3. 问题1)退化模型的估计 ????????实际解决图像超分问题的最大挑战是对退化模型的精确估计。估计退化模型就是在对图像进行超分辨率重建的同时,从低分辨率图像中估计图像的运动信息、模糊信息和噪声信息。现实中由于缺少数据,仅仅从低分辨率图像估计退化模型是很困难的。 2)计算复杂度 ????????现有算法基本是通过牺牲计算代价来提高重建后图片的质量。尤其是当分辨率提高的倍数较大时,计算量是平方倍的增长,导致图像超分耗时严重。 3)稳定性 ????????图像超分辨率重建算法的泛用性较差。当输入图像不满足算法假定的退化模型时,会产生错误的细节。当学习的数据不完备时,仅依靠学习模型的泛化能力去预测丢失的高频细节,会不可避免地引入错误细节。 4. 研究现状1)基于插值 ????????常见的插值方法有最近邻插值、双线性插值、双三次插值。这些方法虽然简单有效,但是都假设图像具有连续性,并没有引入更多有效的信息,往往重建结果的边缘和轮廓较为模糊,纹理恢复效果不佳,性能十分有限。 2)基于重建 ????????该类方法将图像超分辨率重建视为是一个优化重建误差的问题,通过引入先验知识来得到局部最优解。常见的基于重建的算法有凸集投影法 (Projection onto Convex Set, POCS)、 最大后验概率法 (Maximum A Posterior estimation, MAP)、贝叶斯分析方法 (Bayesian Analysis, BA)、迭代反投影法 (Iterative Back Projection, IBP) 等。虽然这类方法通过引入先验信息为图像超分辨率重建过程增加约束条件,进而获得了良好的重建效果。但是这些算法存在明显的收敛不理想等问题。 3)基于学习 ????????卷积神经网络 (Convolutional Neural Network, CNN) 由于其优秀的细节表征能力已经广泛应用于图像超分辨率重建研究,同时 Transformer 也在图像超分辨率领域取得成功。能够隐式地学习图像的先验知识,并利用学习到的先验知识生成效果更好的超分辨率图像。 该类方法中经典的包括 SRCNN、ESPCN、VDSR、DRCN、DRRN、EDSR、SRGAN、ESRGAN、RDN、WDSR、LapSRN、RCAN、SAN、IGNN、SwinIR等。基于学习的图像超分辨率重建算法在重建结果上取得了远超传统算法的优势,但由于对硬件设备和处理时间的高要求导致这些算法中被实际应用的寥寥无几。 ????????以上内容参考自?图像超分综述:超长文一网打尽图像超分的前世今生?,其中有对各算法的详细描述。 二、基于 SRGAN 的图像超分案例????????参考自?将图像超分辨率模型SRGAN移植到安卓?,主要记录一下测试效果。 1. APP界面和功能1)初始界面
2)运行后界面 3)内置图片超分重建效果 ????????内置原图片的分辨率均为 宽124 ?高 118 ,超分重建后分辨率为 ?宽496??高 472(原图片4倍) ,左边是原图,右边是重建后的图片。 ? 4)自己选择图片测试效果 ? (原图分辨率 93 ?112 ,8KB)? ?(超分后图片?分辨率 372??448?,147KB) (原图片分辨率?609??60?,5KB) ?? ?(超分后分辨率 2436 ?240 ,217KB) 2. 一些问题1)原文中提到 SRGAN 模型非常消耗内存,当输入图片较大时应用会闪退。他的解决方法是将原图片分割成小图片,分别进行超分,再将得到的图片重新组合后输出。不确定这种方法是否会影响计算效率。 2)超分重建前后的效果对比。目前还没有移植到 OCR demo 中,仅从人眼观测的角度来说,对于本身识别度就差的图片,超分重建的效果并不好;而对于本身识别度还可以的图片,超分重建的优化程度并不高,也就是锦上添花的程度。 3)运行速度实在是太慢了。对于内置图片(像素为 124??118,30KB )这种像素不高的图片,运行耗时约为 4 秒。我在测试的时候拍了一张像素为 3072??3072 ,大小为 1.9MB 的图片,运行耗时在 15 分钟左右。 4)除了通过 SRGAN 模型之外,还有一些其它的的超分辨率模型,但是我浏览的相关帖子没有发现那种效果拔群,可以很好应用在 OCR 项目里的(只是我个人的看法)。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/28 18:12:24- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |