【摘要】 性能超越BigNas、Once-for-all。对于two-stages的NAS来说,搜索阶段关注的是位于准确性和推理效率的帕累托前沿的网络集合,而训练阶段并不是为了改进帕累托前沿而进行的,对每个网络候选对象都同等重要,fair的,希望搜索的帕累托前沿是被训练到的帕累托前沿,不然会有相关性系数导致的误差
【AttentiveNAS: Improving Neural Architecture Search via Attentive Sampling】
作者:Facebook 大佬们
论文地址:https://arxiv.org/abs/2011.09011
论文源码:https://github.com/facebookresearch/AttentiveNAS
注:以下图片都来自论文原文、文字基于原文翻译和个人主观理解,作者水平很差,大家手下留情,如有错误欢迎大家指正,拜谢
【总结、太长不看系列】
1、性能超越BigNas、Once-for-all,目前2021.4.13的top1,看下图1就知道有多强。
2、从2个角度改善supernet训练,第一个是搜索空间的设置,提供了搜索更depth和narrower子架构的机会,看图2的表画红圈的部分,第二个,关注sample到架构,和fairnas、spos、或者其他采样方式不同,本文关注的是帕累托前沿的架构,关注、帕累托最佳的前沿,或者帕累托最差的前沿,狂采样前者,是一种直觉,提高上限,起到带头作用,一人得道鸡犬升天,狂训后者是提高下限,把差的acc拉高,有利用整体的训练效果。
3、要狂训帕累托相关的架构,抽一丢架构跑前向,看谁是帕累托那太慢了,所以需要一个预测器,本文训练了一个预测器来预测架构精度来筛选谁是帕累托前沿的架构。
4、其他设置基本遵循BigNas,包括三明治法则训练和in-place 蒸馏
图1
图2
【以下是细品】
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
喜欢就支持一下吧
相关推荐