粗略阅读论文《An Empirical Study on Test Case Prioritization Metrics for Deep Neural Networks》。本文相当于是对各种测试用例优先级指标的归纳,可以用于了解这些指标,以便在自己的实验设计中使用。
主要工作:
从故障检测比率、准确性、相关性角度研究了 11 个测试用例优先级度量,共分为4类:惊喜充分性、置信度分散性、变异不确定性和变异率。
对两个基准数据集和 DNN 模型的指标进行了实证研究。实验结果表明,基于置信度分散的指标在有效性和效率方面优于其他指标。
研究了指标的两个影响因素,包括测试套件大小和变异。
研究问题:
RQ1:不同指标的故障检测能力的区别? RQ2:哪些因素会影响指标的故障检测能力?
贡献:
-
从故障检测比率、准确性角度比较了不同指标的差异。 -
测量了指标与故障检测、指标与指标的相关性。 -
在原始测试集、原始测试集和对抗性测试集的混合上拟合了故障检测比率和测试套件大小的指数函数关系。(测量测试套件大小对故障检测比率的影响) -
分析了变异模型的数量和不同变异算子对变异度量的影响。
指标:
共分为4类,11个指标。所有都基于预测概率信息,只需使用模型最后一个隐藏层的输出。
-
惊喜充分性(Surprise Adequacy, SA):描述给定测试用例相对于训练的测试用例的相对新颖性(惊喜surprise),包括
-
置信度离散性(Confidence Dispersion, CD):基于预测概率分布(模型最后一个隐藏层中神经元的输出),包括
-
最大概率(Maximum Probability, MaxP) -
预测概率熵(Prediction Probability Entropy, PEn) -
预测方差(Prediction Variance, Var) -
预测加权方差(Prediction Weighted Variance, Varw) -
DeepGini(在之前的博文中有介绍过,是关于预测概率分布纯度的度量)
-
变异不确定性(Mutation Uncertainty, MU):以下指标使用了变异模型的多重预测熵。
-
预测熵(Prediction Entropy, PE) -
互信息(Mutual Information, MI)
-
变异率(Mutation Rate, MR):来源于突变模型结果的统计,包括
|