A Literature Review of Automatic Traceability Links Recovery for Software Change Impact Analysis
//TODO 修改表述格式为源工件-目标工件
//TODO 添加解读思路
//TODO 修订[6~43]引文简介
//TODO 添加说明图片
//TODO 继续更新后续解读
这是一篇发表在ICPC‘20,由悉尼科技大学的Aung等人进行的综述研究,主要研究的是现有工作如何在不同软件工件之间进行链接恢复(这些工件具体包括需求工件、源代码工件、设计工件、测试用例工件等)
由于本人水平有限,对论文的解读难免出现错误,如出现此情况烦请指正。
INTRODUCTION
本章主要介绍了现有相关工作的思路,及本文的研究问题。
相关工作的链接恢复思路:
1.[4,6,19,25,36]这几篇引文使用信息检索方法(IR)来进行不同形式软件工件之间的链接恢复 2.[24,32]这两篇引文使用深度学习来提升需求-设计工件链接恢复精确度 3.[10,21,35]这三篇使用转移追踪transitive tracing 来通过第三工件来恢复源工件与目标工件之间的链接。适用于两者之间文本相似度较小,且第三工件可以链接源工件与目标工件的情况。
这篇文章主要研究以下三个问题:
1.有哪些方法已经被用于链接恢复工作? 2.已经涵盖了哪些’变化影响集’? 3.这些工作如何使用转移追踪来恢复源工件与目标工件之间的链接?
BACKGROUND
大多数现有的链接恢复工作,例如[2,4,6,26,40],专注于恢复需求工件和它的下游工件之间的链接(比如设计工件,测试用例工件和代码工件等),但是现在的敏捷开发方法对于需求文档更省略,较流行的敏捷开发方法有的使用测试驱动的开发,于是针对测试驱动的敏捷开发,[13]创建了可追踪信息模型,以支撑测试用例到源代码工件之间的链接恢复工作。 想要恢复不同类型间工件的链接,最大的挑战是知识差距(工件的语法语义差距)的问题,也即:
源代码与软件文档之间有很大的知识差距
近几十年来,基于IR的方法被广泛用于链接恢复,但这种方法需要人类专家去手动验证,耗时费力。基于IR的方法基本思路是:
两个工件如果有较高的文本相似度,就建立两者之间的链接
因此,最近的一些研究,例如[1,16,17,32,39]采用机器学习的方法训练分类模型来验证信息检索方法生成的链接的有效性。 总体来说,基于深度学习的方法比基于IR的方法优点在于:
基于深度学习的方法可以学习任何格式的非结构化数据
REVIEW METHODS
本章主要介绍作者筛选工作的标准,省略。
RESULTS
总之,经过上一章节的筛选工作,33个研究中有22个使用基于IR的方法来进行,使用的方法大致可分为以下四种:
[4,6,19,36]使用向量空间模型(VSMs) [19,30,44]使用潜在语义索引(LSI) [3,25]使用Jensen and Shannon模型(JSMs) [36]使用潜在迪利克雷分配(LDA)
下面简要介绍作者提到的相关论文:
基于IR的方法:
[6]:恢复需求-源代码工件链接,从code change中提取trace query terms 来建立与需求之间的链接。 [9]:恢复bug报告-源代码工件链接,他们使用LSI技术来进行,没有看懂具体思路:
基于提交变更集共现的概念提取源代码查询项(例如,方法A和方法B一起提交给三个提交事务,这些事务被认为是“共现”方法)。
[3]:恢复需求-源代码工件链接,监视bug修复历史中代码更改对原始需求的影响。 [44]:恢复源代码-测试用例工件链接,采用VSM和LSI技术来进行。 [36]:恢复源代码-需求工件链接,采用基于源代码的主题模型方法(LDA)。 [10,38]:恢复新bug报告-旧bug报告链接。 [43]:恢复源代码-需求工件链接,使用commit message-需求链接来辅助进行源代码-需求链接恢复的工作。 [35]:恢复两个工件之间链接(具体是哪两个工件,作者未详细叙述),当源工件与目标工件之间文本相似度比较低时,它使用中间工件来辅助恢复源工件-目标工件链接:
需求R在测试用例T中实现,测试用例T与源代码C相关,则可建立需求R-源代码C链接。
[33]:探讨trace retrieval direction 对需求-源代码工件链接恢复准确性的影响,采用VSM技术建立工件间的双向链接。结果表明:基于IR的方法准确性与trace 的方向高度相关。 [37]:恢复需求-源代码工件链接,使用源代码重构工具检测方法级和类级的源代码更改。定位到代码更改后,使用VSM恢复链接。
|