【摘要】 现在的NAS基本都采用权重共享的supernet方案,但是其中原理几何,有什么局限,鲜有人提及,权重分配并没有理论保障,其影响也没有得到很好的研究,大部分同学都是用的爽就行,接下来从两篇同个实验室的论文来看看权重共享机制,到底怎么影响NAS搜索到的架构。
【前言】
现在的NAS基本都采用权重共享的supernet方案,但是其中原理几何,有什么局限,鲜有人提及,权重分配并没有理论保障,其影响也没有得到很好的研究,大部分同学都是用的爽就行,接下来从两篇同个实验室的论文来看看权重共享机制,到底怎么影响NAS搜索到的架构。以下文章中说法上,child model = 子架构 = 子模型。
注:以下图片都来自论文原文、文字基于原文翻译和个人主观理解,作者水平很差,大家手下留情,如有错误欢迎大家指正,拜谢
DEEPER INSIGHTS INTO WEIGHT SHARING IN NEURAL ARCHITECTURE SEARCH
作者来自Microsoft
论文地址:https://arxiv.org/abs/2001.01431
【简介】
基于对整个大搜索空间有效的方案对于小空间也一样有效的思想,和基于计算成本的考虑,本文用了一个非常小的搜索空间,只有4*4*4种子模型,来训练一个超网络,顺便探究权重共享到底怎么样影响到搜索到的架构。
观察到几点:
1、子模型的排序在不同每次训练都不太一样,波动大,事实上,不稳定性不仅普遍存在于不同的运行次数中,也存在于同一次运行中连续的训练时期epochs。
2、然后,适当的减小权重共享的密度,可以更稳定地找到更好的子模型。下图是整个搜索空间的示意图,基于DARTS。采样用uniformly sample,每个batch只训1个子模型。数据集使用CIFAR-10,train from scratch 的超参设置和训超网络的一致,batch size 256,学习率余弦下降,epochs 200。