[NAS论文]解析神经网络架构搜索NAS中权重共享的影响-一一网

[NAS论文]解析神经网络架构搜索NAS中权重共享的影响

4年前更新

3960

【摘要】现在的NAS基本都采用权重共享的supernet方案，但是其中原理几何，有什么局限，鲜有人提及，权重分配并没有理论保障，其影响也没有得到很好的研究，大部分同学都是用的爽就行，接下来从两篇同个实验室的论文来看看权重共享机制，到底怎么影响NAS搜索到的架构。

【前言】

现在的NAS基本都采用权重共享的supernet方案，但是其中原理几何，有什么局限，鲜有人提及，权重分配并没有理论保障，其影响也没有得到很好的研究，大部分同学都是用的爽就行，接下来从两篇同个实验室的论文来看看权重共享机制，到底怎么影响NAS搜索到的架构。以下文章中说法上，child model = 子架构 = 子模型。

注：以下图片都来自论文原文、文字基于原文翻译和个人主观理解，作者水平很差，大家手下留情，如有错误欢迎大家指正，拜谢

DEEPER INSIGHTS INTO WEIGHT SHARING IN NEURAL ARCHITECTURE SEARCH

作者来自Microsoft

论文地址：https://arxiv.org/abs/2001.01431

【简介】

基于对整个大搜索空间有效的方案对于小空间也一样有效的思想，和基于计算成本的考虑，本文用了一个非常小的搜索空间，只有4*4*4种子模型，来训练一个超网络，顺便探究权重共享到底怎么样影响到搜索到的架构。

观察到几点：

1、子模型的排序在不同每次训练都不太一样，波动大，事实上，不稳定性不仅普遍存在于不同的运行次数中，也存在于同一次运行中连续的训练时期epochs。

2、然后，适当的减小权重共享的密度，可以更稳定地找到更好的子模型。下图是整个搜索空间的示意图，基于DARTS。采样用uniformly sample，每个batch只训1个子模型。数据集使用CIFAR-10，train from scratch 的超参设置和训超网络的一致，batch size 256，学习率余弦下降，epochs 200。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧

相关推荐