IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文学习笔记(7):Teacher Guided Neural Architecture Search for Face Recognition -> 正文阅读

[人工智能]论文学习笔记(7):Teacher Guided Neural Architecture Search for Face Recognition

在这里插入图片描述

摘要

现有的知识蒸馏方法都是手工的启发式方法,这些方法旨在预先定义好目标学生网络,由于需要花费大量精力去找到一个合适的学生网络,这样的做法可能会导致出现次优解。
因此,这篇文章提出了一种教师网络指导的神经网络搜索方法,可以直接通过通道数和层数对学生网络进行搜索。
通俗的来说就是将搜索空间定义成通道数/层数(通过概率分布进行采样),然后将loss最小化进行学习。最终将每个分布中概率最大的值作为学生网络的深度和宽度。

一、介绍

这里作者列举了现有的一些方法,比较特别的有:

  1. Wang团队2019年提出的:教师网络使用原有的训练集,学生网络使用LR图像训练集
  2. Peng团队2019年提出的:使用概率一致性知识,不仅传递实际层级之间的参数信息,而且传递实例间的相关性。
    但现有的这些方法都需要预先定义学生网络,而本文提出的方法是基于概率优化提出的。

主要贡献:

  1. 特征信息灵活且有效,因此对于人脸识别模型的蒸馏提取来说十分适合。为此本文利用特征拟合作为搜索目标以搜索合适的学生网络。
  2. 提出了TNAS框架,将搜索空间定义为学生网络的宽度和深度,并以可学习的概率不断的附加不同的候选层/通道。(?)
  3. 算法性能验证

二、相关工作

  1. 人脸识别: 人脸识别通常使用的是基于margin的softmax loss(关于人脸识别中的margin损失函数总结可以看这篇文章:点我点我~)、度量学习的损失函数或者两者共同使用。
  2. 知识蒸馏: 2015年有团队首次提出了基于软化概率一致性(?)的知识蒸馏算法。
  3. 神经网络架构搜索: 神经网络架构搜索可以将预定义的架构转换成一个需要学习的过程。本文通过经验观察到,相对于网络的拓扑结构(具体某层的设计)来说,网络的规模对于人脸识别蒸馏来说更加关键。通过改善现有方法的规模,它们大多数都获得了性能方面的提升。Dong的团队在2019年提出了一种基于概率的可微分方法,用于缩小CNNs的规模。(?)本文提出的方法就是将神经网络架构搜索与人脸识别相结合实现的。

三、研究方法

神经网架构搜索包括两个重点概念:搜索目标、搜索空间

3.1 知识蒸馏

对于人脸识别问题上的知识蒸馏来说,一般情况下我们有一个训练好的教师网络,并且需要根据它蒸馏出学生网络,但问题是我们往往并不知道这个教师网络是怎么训练的(包括训练集,loss函数以及训练策略等),这时一般有以下几种情况:

  1. One-hot标签: 如果学生网络的训练集有很完备的标签时,可以直接用one-hot标签进行训练,且在保证通用性的前提下可以使用AM-softmax损失进行监督。但这种方法并没有利用教师网络。
  2. 概率知识蒸馏(PKD): 令最终的softmax输出为 z z z,教师网络的soft标签可以表示为 P T τ = ( z T / τ ) P_T^\tau =(z_T/\tau) PTτ?=(zT?/τ),这里 τ \tau τ是温度参数;学生网络的soft标签可以表示为 P S τ = ( z S / τ ) P_S^\tau =(z_S/\tau) PSτ?=(zS?/τ)。现有的知识蒸馏方法往往利用了概率知识蒸馏方法: L P K D = L ( P T τ , P S τ ) = L ( ( z T / τ ) , ( z S / τ ) ) L_{PKD}=L(P_T^\tau,P_S^\tau)=L((z_T/\tau),(z_S/\tau)) LPKD?=L(PTτ?,PSτ?)=L((zT?/τ),(zS?/τ))其中 L L L表示的是交叉熵损失
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-08 11:20:38  更:2021-08-08 11:23:50 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 22:22:57-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码