[人工智能] 【ICCV2021】户外场景图像表格解析-Parsing Table Structures in the Wild

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【ICCV2021】户外场景图像表格解析-Parsing Table Structures in the Wild -> 正文阅读

[人工智能]【ICCV2021】户外场景图像表格解析-Parsing Table Structures in the Wild

在这里插入图片描述
本文介绍ICCV2021的论文"Parsing Table Structures in the Wild"的主要工作。本文主要针对自然真实场景有线表格结构识别这一具有挑战性的问题进行研究。为了设计这样一个系统，本文在CenterNet的基础上提出 Cycle-CenterNet，该方法增加新的cycle-pairing模块同时检测表格单元格并将其分组到结构化表格中。在cycle-pairing模块中，提出一个新的损失函数pairing loss用于网络训练。同时本文还提出一个大的数据集名为WTW, 它包含了照片、扫描文件、网页等多个场景，并进行了准确的标注。实验结果表明本文提出的Cycle-CenterNet使用TEDS为评价指标在WTW数据集上提升了24.6%。

一研究背景

表格在我们的日常生活中常用来记录和总结重要数据，以便快速更好地可视化信息。随着智能手机和便携式相机的日益普及，使用表格照片共享信息非常普遍。因此，从自然场景照片或图像中自动提取和解析表格结构是非常必要的。
当前的数据集大都背景比较干净，同时表格结构比较明确，并且行列通常是对齐的。有线表数据和无线表数据有很大的不同。自然场景中的无线表识别是非常具有挑战性的，它们由于缺乏感知分组的参考很难被标注人员标注。因此本文提出的WTW数据集为有线表数据集。
针对本文提出有线表数据集WTW，本文提出Cycle-CenterNet，它同时检测单元格的角点和中心点，并且通过学习共同角点将单元格进行分组。

二 Cycle-CenterNet原理

基于CenterNet，本文提出的网络添加cycle-pairing模块和pairing loss来学习相邻单元格的共同顶点。整个网络结构如下图所示

图1 Cycle-CenterNet的pipeline，输入一张图片，我们的模型输出一个2通道的关键点热力图和一个2通道的offset热力图。cycle-pairing模块输出两个8通道的热力图，用来学习中心点和角点之间的相互回归的关系。根据这个关系，单元格会被分组，最终行列信息通过后处理恢复出来

Cycle-Pairing模块

为了识别表格结构，我们提出Cycle-Pairing模块定位单元格和学习单元格之间的拼接关系，它包含两个分支，一个是中心点到顶点分支，一个是顶点到中心点分支。如图1所示，中心点到顶点分支，我们回归单元格中心点到每个顶点的偏移量，并采用和CenterNet一样的后处理，那么单元格的多边形表示就可以得出。顶点到中心点分支，相同顶点回归与共有这个顶点的偏移量。最终表的拼接信息可以在后处理中得出。
在这里插入图片描述
图2 中心点到顶点以及顶点回归中心点的解释
中心点到顶点分支，主要是在CenterNet的基础上由中心点回归四个顶点。
顶点到中心点分支，在CenterNet的基础上由顶点回归四个中心点，如果共有顶点K的单元格的数量小于4，那么对应回归的目标值则是0。