本周粗略阅读了论文《The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks》，并参考了陈老师实验室发布的翻译，记录个人的阅读笔记，侵删。

本文主要内容总结：

深度神经网络模型的无意识记忆带来了隐私泄露的风险。因此，本文提出了一种定量评估该风险的方法，使深度学习从业者能够选择训练方法，以最大限度地减少记忆，从而有利于隐私保护。

论文重点内容：

在生成文本模型中，如果对敏感数据进行训练，可能会出现秘密泄露（即模型输入某些文本前缀可能会输出泄露隐私的补全文本）。

引入了一个量化的曝光值度量——一个直接量化模型在无意识的情况下记忆训练数据的程度指标。该度量可以作为测试方法的一部分在训练中应用，并且已经被应用于构建谷歌的 Smart Compose 的回归测试。

其中，需要明确神经网络无意识记忆的概念：训练好的神经网络可能揭示出分布不均的训练数据的存在（训练数据与学习任务无关，对提高模型精读没有帮助）。这些训练数据称为秘密数据。

人工创建秘密数据，将它们作为特高频噪声插入到训练数据中，并使用曝光度作为度量，评估它们在训练模型中的暴露程度。

在推导曝光度定义的过程中，作者明确了对数复杂度、特高频噪声的等级、猜测熵等概念，并指出了近似曝光指标的方法：抽样近似、分布模型近似。

在实验评价中，作者分别讨论了Smart Compose、WikiText-103（词级语言模型）、字符级语言模型、NMT（神经网络翻译模型）几种模型插入特高频噪声的记忆程度，并总结出无意识记忆特征：记忆伴随训练不断加固，并且也有过度训练（即使再训练曝光值也不会增加）。

最后，作者使用最短路径搜索，设计了一种提取算法来研究曝光量在测试记忆方面的准确程度。

加:2022-02-04 11:02:36 更:2022-02-04 11:04:39

-2026/3/31 4:00:08-

网站联系: qq:121756557 email:121756557@qq.com IT数码