本文介绍ICCV2021的论文"Parsing Table Structures in the Wild"的主要工作。本文主要针对自然真实场景有线表格结构识别这一具有挑战性的问题进行研究。为了设计这样一个系统,本文在CenterNet的基础上提出 Cycle-CenterNet,该方法增加新的cycle-pairing模块同时检测表格单元格并将其分组到结构化表格中。在cycle-pairing模块中,提出一个新的损失函数pairing loss用于网络训练。同时本文还提出一个大的数据集名为WTW, 它包含了照片、扫描文件、网页等多个场景,并进行了准确的标注。实验结果表明本文提出的Cycle-CenterNet使用TEDS为评价指标在WTW数据集上提升了24.6%。
一 研究背景
表格在我们的日常生活中常用来记录和总结重要数据,以便快速更好地可视化信息。 随着智能手机和便携式相机的日益普及,使用表格照片共享信息非常普遍。 因此,从自然场景照片或图像中自动提取和解析表格结构是非常必要的。 当前的数据集大都背景比较干净,同时表格结构比较明确,并且行列通常是对齐的。有线表数据和无线表数据有很大的不同。自然场景中的无线表识别是非常具有挑战性的,它们由于缺乏感知分组的参考很难被标注人员标注。因此本文提出的WTW数据集为有线表数据集。 针对本文提出有线表数据集WTW,本文提出Cycle-CenterNet, 它同时检测单元格的角点和中心点,并且通过学习共同角点将单元格进行分组。
二 Cycle-CenterNet原理
基于CenterNet,本文提出的网络添加cycle-pairing模块和pairing loss来学习相邻单元格的共同顶点。整个网络结构如下图所示 图1 Cycle-CenterNet的pipeline,输入一张图片,我们的模型输出一个2通道的关键点热力图和一个2通道的offset热力图。cycle-pairing模块输出两个8通道的热力图,用来学习中心点和角点之间的相互回归的关系。根据这个关系,单元格会被分组,最终行列信息通过后处理恢复出来
Cycle-Pairing模块
为了识别表格结构,我们提出Cycle-Pairing模块定位单元格和学习单元格之间的拼接关系,它包含两个分支,一个是中心点到顶点分支,一个是顶点到中心点分支。如图1所示,中心点到顶点分支,我们回归单元格中心点到每个顶点的偏移量,并采用和CenterNet一样的后处理,那么单元格的多边形表示就可以得出。顶点到中心点分支,相同顶点回归与共有这个顶点的偏移量。最终表的拼接信息可以在后处理中得出。 图2 中心点到顶点以及顶点回归中心点的解释 中心点到顶点分支,主要是在CenterNet的基础上由中心点回归四个顶点。 顶点到中心点分支,在CenterNet的基础上由顶点回归四个中心点,如果共有顶点K的单元格的数量小于4,那么对应回归的目标值则是0。
三 主要实验结果和可视化效果
WTW数据集评估
表1 WTW的结果
可以从表1中看出,Cycle-CenterNet显著提升了表格结构解析的性能,达到了SOTA。
其它数据集评估
表2 ICDAR2013的结果
表3 ICDAR2019的结果
可视化结果
四 总结及讨论
本文提出了一个自然场景表格数据集WTW,将表格结构解析的边界从数字文档图像推向真实场景图像。另一方面,我们提出了Cycle-CenterNet,它解决了现有方法对极端长宽比表格和遮挡表格图像定位不准确的主要缺点。大量的实验表明我们的方法优于其它方案。
五 相关资源
数据集地址 论文地址
|