BYOL 论文阅读
介绍
Bootstrap Your Own Latent(BYOL),是一种自监督学习方法,主要结构由两层神经网络构成Online和Target,两层网络相互学习。
-
为什么需要自监督学习
- 随着模型不断复杂化,训练过程困难,需要大量的带标签的数据
-
创新点
- 不同于SimCLR,MOCO等对比学习方法,BYOL没有使用负样本
方法与实现
data:image/s3,"s3://crabby-images/da6cc/da6cc2f2fe41c3bb52ef59cafb9d859d103409e3" alt="image-20210806091239961"
data:image/s3,"s3://crabby-images/55bc6/55bc6cbcea9af4f0afe5de5052a30c0475d27f8f" alt="image-20210806093725773"
data:image/s3,"s3://crabby-images/f9e62/f9e6280781ff02a5fe132e9abadcc1b19d807ffc" alt="BYOL architecture"
-
结构
- 两个基本框架相同的network,online和target,但参数不同
-
f
f
f??为一个encoder结构,论文中使用ResNet,将image转换为embedding
-
g
g
g???为一个MLP结构,Linear+BN+ReLU+Linear,将img embedding 投影到新纬度
-
q
q
q????????为一个MLP结构,将online的vector
z
z
z????,向target的vector
z
′
z^{'}
z′??靠近?
-
s
g
sg
sg??,阻止target network的梯度反向传播,故target采用momentum的形式用online的参数更新
-
基本训练流程
- input image 通过两种不同的图像增强方式,生成两张不同的image,
v
v
v?和
v
′
v^{'}
v′?
- 将
v
v
v和
v
′
v^{'}
v′?分别传进两个网络中
- 使online不断逼近target,target缓慢更新,向online靠拢
- 然后将
v
v
v和
v
′
v^{'}
v′?调换,再次传进两个网络中
- 最终得到一个好的encoder
data:image/s3,"s3://crabby-images/a420b/a420b87ae2ba32d42fb839044215ca1469f5048d" alt="image-20210806093230323"
LOSS
data:image/s3,"s3://crabby-images/70b29/70b29c5eba78260595e5fa5ec45bfa8651cc240a" alt="image-20210806094103082"
data:image/s3,"s3://crabby-images/5300c/5300c7fb09362aeb5a14e28cd6dfcaeaa7f43012" alt="image-20210806094152988"
data:image/s3,"s3://crabby-images/d0668/d0668e922f3aaf65626e7c908468e44bfb982f1b" alt="image-20210806094127433"
缺少负样本,为什么可以避免坍塌
target采用momentum的形式更新,速度缓慢
实验结果
Linear evaluation on ImageNet
data:image/s3,"s3://crabby-images/a8513/a8513aed14b7823fd3e587c8e0371f342fe20bbe" alt="image-20210806101631343"
Semi-supervised training on ImageNet
data:image/s3,"s3://crabby-images/4f6db/4f6dba08db6e8b38dc3caf778cb5af980234eaf2" alt="image-20210806101702727"
|