| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 多模态文档理解:基础概念-数据-模型 -> 正文阅读 |
|
[人工智能]多模态文档理解:基础概念-数据-模型 |
文档理解最近在看layoutlm相关的内容,之前没有接触过,顺便把遇到的一些新概念总结一下。 基础知识命名实体识别命名实体识别(Named Entity Recognition,NER)是NLP的基础任务,要信息抽取或者问答系统都需要用到。 实体指的就是某个概念的实例。比如说 比如现在关注的概念有人名(PER)、地址(LOC)和物品(OBJ)。
对于序列标注问题,数据标注格式主要有BIO和BIOES两种方式,下面给出BIOES的标注方法,BIO同理
对于 在这里,对于人民广场这个词来说,人是开始字符,场是结束字符,民广是中间字符。 任务DocVQA基于文档的视觉问答,给一张文档图像以及提问,给出答案。 以下面的图片为例,通过给出问题 参考文献:https://arxiv.org/abs/2007.00398 数据集训练pretrain所需的数据集IIT-CDIP Test Collection 1.0包含6M的文档图像,用于做pretrained model的训练 下游任务数据集FUNSD数据集用于文档空间布局分析以及表单理解的数据集 SROIE数据集用于扫描收据信息提取,训练集包含626张图片,数量不是很多,总共有3个类别,部分demo如下所示。 每张图片包含2个标注,一个是ocr的标注,如下所示
一个是关键字段的标注,如下所示
我们最终关注的有4个类别:如下所示,其中O表示others,即付样本
CORD数据集
数据demo如下所示。roi表示票据在图像中的具体位置,下面的valid line字段中是具体的OCR信息,包括位置信息以及文本信息。 RVL-CDIP数据集VL-CDIP数据集由属于信函、表单、电子邮件、简历、备忘录等16个类的扫描文档图像组成,该数据集有32万张训练、4万张验证和4万张测试图像。图像的特点是低质量、噪声和低分辨率,通常为100 dpi。 下载地址为:https://www.cs.cmu.edu/~aharley/rvl-cdip/ 下面是其中一张demo图像,主要包含了一些示例图像以及对应的类别信息。 Kleister数据集
其中使用得更多的是
DocVQA
算法LayoutLM与Bert模型类似,LayoutLM也是一个预训练模型,如果需要验证效果,需要在下游任务中finetune,最终的模型效果验证也包含2个部分:pretrained model训练+下游任务 finetune 作者通过实验,也发现,有几个比较重要的训练技巧
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/1 12:44:14- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |