Towards Efficient Data-Centric Robust Machine Learning with Noise-based Augmentation
结果
最终结果:8/3691 天池页面得分:83.34 编写脚本在官方公开测试集中得分:83.51
一、 赛题分析
对于Data-centric Robust Machine Learning1无法专门设计或修改training pipeline和模型结构,导致许多现有的鲁棒性增强方案不可用。考虑到黑盒测试场景,精心设计的训练数据应该为训练后的模型提供足够的鲁棒性和泛化性,对各种测试数据都能有效识别(对抗样本和其他不可预见性攻击或噪声)。
二、 方法攻略
我们引入了一种基于噪声数据增强的方法,从原始干净训练图像构建一个全面的训练数据集(包括噪声图像,对抗图像等等)。 所提出的方法使经过训练的模型具有较强的鲁棒性,并且不依赖于额外的训练过程或损失函数。
- PGD——对抗攻击算法,用于生成具有适当对抗强度,较小干扰以及少量attack_iters避免对抗样本overfit;
- 图像数据增强包括椒盐噪声、高斯噪声和Mixup(Mixup初赛中有效果,而复赛中没有效果(应该是会有效果的,因提交机会太少了,遂没有做过多尝试)
- CosineAnnealingWarmRestarts,余弦退火+WarmRestart控制模型训练过程中优化器的learning rate变化,使其在多个epoches后重置,避免模型在多种分布数据中陷入局部最优,提高模型泛化性;
数据集组成:
- 使用 PGD2在preactresnet18 上生成 30000 个对抗样本,step-size分别为 0.05、0.1、0.15;
- 10000 张图像上添加40%的椒盐噪声;
- 10000 张方差=0.005 的高斯噪声图像;
训练过程: 为了避免模型对训练数据的过拟合,我们将 CosineAnnealingWarmRestarts 设置为 T0 = 3,Tmult = 2.
参考文献
[1]. AAAI2022 Security AI Challenger Program Phase 8: Data Centric Robust Learning on ML models. [2]. Aleksander Madry, et al. “Towards deep learning models resistant to adversarial attacks.” International Conference on Learning Representations, 2018.
|