| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Script Identification of Multi-Script Documents: A Survey -> 正文阅读 |
|
[人工智能]Script Identification of Multi-Script Documents: A Survey |
论文地址:IEEE Xplore Full-Text PDF: 这是一篇2017年来自新疆大学的Survey,写得不是很好,没有提出什么观点,没有很好将各种方法串连起来,各种分类阐述也很粗暴。而且由于是2017年的文章,其中对当前研究的工作的总结已经不太具有太多的价值。但是其它方面的整理分类工作还是有一定价值,适合对script identification(脚本识别)这个领域没有太多了解的人了解一下。 在multi-script系统的OCR中,需要通过script identification去对各个script(脚本文本,可以理解为是语种)的比例进行检测。很多语种检测方面的工作研究的是Indian环境下的脚本,因为印度是一个多语种、多script的国家,它的官方语言有18种,不同的文本script有12种,官方文件被英语、印地语(Hindi (Devnagari))及地方官方语言三种语言印发。 script writing system 文字书写系统主要分为六大类:Logographic system形素文字系统、Syllabic system音节文字系统、Alphabetic System拼音文字系统、Abjads辅音音素文字系统、Abugidas元音附标文字、Featural system特征系统。 ? ? 上述六种书写系统包括许多具有相似形状字符的脚本(script),这是脚本识别中混淆的主要来源。 通常,每个脚本都有多个空间字符、变音符号、多图(包括有向图)或与同一书写系统中的其他脚本不同的连字。 这些特征是识别的关键。 截至文章发表已经发表的一些识别方法,大部分都是在印刷后再用scanner扫描进行识别: ? ? 相关的数据集其中,因为脚本多样性和缺少公开的数据集,大部分的数据集是研究人员在实验室自己采集建立的。
下面为一些公开的数据库,在脚本/语言类型、字体类型和大小、缺乏退化/噪声图像等方面都比较有限。特别是大部分数据库只专门针对特定脚本,例如英语、汉语、阿拉伯语等,而没有可用于研究其他文字的数据库。 ? ? Script的特征主要分为两种:
? ? ? 识别方法分类? 效果对比: ? ? ? 未来发展及趋势
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 0:37:41- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |