英伟达(NVIDIA)发布AI训练数据集生成器 DatasetGAN
英伟达公司的研究人员创建了DatasetGAN,这是一个生成带有注释的合成图像的系统,用于创建训练AI视觉模型的数据集。DatasetGAN可以用少至16张人类注释的图像进行训练,其性能与需要100倍以上注释图像的完全监督系统一样好。
该系统和实验在即将举行的计算机视觉和模式识别会议(CVPR 2021)上的一篇论文中进行了描述。DatasetGAN使用英伟达的StyleGAN技术来生成逼真的图像。人类注释者对图像中物体的各个部分进行详细标注,然后在这些数据上训练解释器,从StyleGAN的潜在空间生成特征标签。其结果是一个可以生成无限数量的图像和注释的系统,然后可以作为任何计算机视觉(CV)系统的训练数据集。
生成对抗网络(GAN)是一个由两个深度学习模型组成的系统:一个生成器,它学习创造现实的数据;一个辨别器,它学习区分真实数据和生成器的输出。训练结束后,通常会单独使用生成器,以简单地生成数据。英伟达公司已将GANs用于一些应用,包括其用于减少视频会议带宽的Maxine平台。2019年,英伟达开发了一种名为StyleGAN的GAN,可以生成逼真的人脸图像,并被用于流行网站This Person Does Not Exist。去年,英伟达开发了StyleGAN的一个变种,可以将所需的相机、纹理、背景和其他数据作为输入,以产生可定制的图像渲染。
尽管GANs可以产生无限多的独特的高质量图像,但大多数CV训练算法也需要用图像中的物体信息对图像进行注释。ImageNet是最受欢迎的CV数据集之一,著名的是使用亚马逊的Mechanical Turk雇用了数以万计的工人来标记图像。尽管这些工人可以以每分钟5张的速度对图像进行标注,但这些图像都是单一物体的简单图片。更复杂的视觉任务,例如自动驾驶汽车所需要的任务,需要具有_语义分割_的复杂场景图像,其中每个像素都被标记为物体的一部分。根据英伟达研究人员的说法,”给一个有50个物体的复杂场景贴标签可能需要30到90分钟”。
英伟达公司对DatasetGAN的见解是,作为生成器输入的_潜在空间_必须包含有关生成图像的语义信息,因此可用于为图像创建注释图。该团队为他们的系统创建了一个训练数据集,首先生成几张图像并保存与之相关的潜势向量。生成的图像由人类工作者进行注释,潜向量与这些注释配对进行训练。然后,这个数据集被用来训练作为_风格解释器_的多层感知器(MLP)分类器的集合。分类器的输入由GAN产生的特征向量组成,以生成每个像素,而输出是每个像素的标签;例如,当GAN生成人脸图像时,解释器输出的标签表示脸部的一部分,如脸颊、鼻子或耳朵。
研究人员在生成的图像上训练解释器,这些图像是由经验丰富的人类注释者标记的。这些图像包括卧室、汽车、脸、鸟和猫,每一类都有16到40个例子。然后他们使用完整的DatasetGAN系统来生成图像数据集,然后用这些数据集来训练标准CV模型。该团队使用几个常见的CV基准,如Celeb-A和Stanford Cars,将他们在生成的数据集上训练的模型的性能与使用当前最先进的迁移学习和半监督技术训练的基线模型进行比较。在注释图像数量相同的情况下,英伟达模型在所有基准上的表现都 “明显 “优于基线。
使用合成数据来训练人工智能是一个活跃的研究课题,因为它减少了与创建数据集相关的成本和劳动。移动机器人和自主车辆训练的一个常见技术是使用虚拟环境甚至视频游戏作为数据来源。2015年,马萨诸塞大学洛厄尔分校的研究人员使用众包的CAD模型来训练图像分类器。2017年,苹果公司开发了一个系统,使用GAN来提高CV训练的合成图像的质量,但这种技术并没有产生像素级的语义标签。
虽然英伟达已经开源了StyleGAN,但DatasetGAN的代码还没有发布。在关于这项工作的Twitter讨论中,共同作者Huan Ling指出,该团队正在努力发布,并希望能在今年的NeurIPS会议的最后期限前完成。