负迁移综述-一一网

原文链接

由于隐私安全和标记成本等问题经常会导致目标域内的标记数据不足，因此迁移学习被用于将一个或多个源域的知识用于优化目标域的模型学习中。然而，这种迁移并不是一直有效的，有时候利用源域的数据和知识甚至可能降低目标域的学习性能，称之为负迁移。负迁移问题也成为了迁移学习中一个长期存在并有挑战性的问题，这篇文章主要总结探讨了现有的应对负迁移一些方法及其优劣之处。

简介

传统机器学习的一个常见假设就是：训练数据和测试数据拥有相同的分布。然而在现实应用中，这种假设并不一定能成立。例如两个图片数据集可能包含不同光照条件下不同分辨率的照相机拍出的图片；不同的人在脑机接口方面可能表现出明显的差异。因此，根据这些数据集训练出来的模型可能泛化能力很差。

一个常用的解决办法是根据测试数据重新采集大量的标记数据并训练模型，然而现实是这可能很难实现，因为高标记成本或个人隐私问题等。

一个更好的解决办法就是迁移学习，或可称为领域适应。但是迁移学习并不总是奏效的，它需要满足一下条件：

学习任务在源和目标领域内是相近或相似的
源和目标领域内是数据分布不能差距太大
需要找到一个合适的模型同时适用于两个领域

违背这些前提条件可能会导致负迁移：即引入了源域的知识反而导致目标领域的学习性能下降，如图1所示。

这篇文章系统性地介绍了负迁移的研究进展和相关技术。

背景知识

首先介绍一些迁移学习的相关符号、定义、分类和导致负迁移的相关因素。

符号和定义

设置一个 $K$ 分类的分类器，带有输入特征空间 $\mathcal{X}$ 和一个输出标记空间 $\mathcal{y}$ ，假设我们能够访问一个标记源域 $\mathcal{S}=\{(x_S^i,y_S^i)\}^{n_s}_{i=1}$ ，源自 $P_{\mathcal{S}}(X,Y)$ ，且 $X\subseteq \mathcal{X},Y\subseteq \mathcal{Y}$ 。目标域包括两个子数据集 $\mathcal{T}=(\mathcal{T}_l,\mathcal{T}_u)$ ，且 $\mathcal{T}_l=\{(x_j^l,y_j^l)\}^{n_l}_{j=1}$ 由来自 $P_{\mathcal{T}}(X,Y)$ 的 $n_l$ 个标记样本构成，且 $\mathcal{T}_u=\{x^k_u\}^{n_u}_{k=1}$ 由来自 $P_{\mathcal{T}}(X)$ 的 $n_u$ 个样本构成。主要符号如表1所示：

在迁移学习中，根据源和目标域（即 $\mathcal{S} \neq \mathcal{T}$ ）的不同可以分成以下几种情况：

特征空间不同： $\mathcal{X}_\mathcal{S} \neq \mathcal{X}_\mathcal{T}$ 。
标记空间不同： $\mathcal{Y}_\mathcal{S} \neq \mathcal{Y}_\mathcal{T}$ 。
两个域的边际概率分布不同： $P_\mathcal{S}(X)\neq P_\mathcal{T}(X)$ 。
两个域的条件概率分布不同： $P_\mathcal{S}(Y|X)\neq P_\mathcal{T}(Y|X)$ 。

这篇综述主要关注后两个不同点，假设源和目标域共享新相同的特征和标记空间。迁移学习致力于设计一个学习算法 $\theta(\mathcal{S},\mathcal{T})$ ，使用源和目标域中的数据/信息来输出一个假设 $h$ 作为目标域的映射函数，带有一个很小的预期损失 $\epsilon_ \mathcal{T}(h)=\mathbb{E}_{x,y \sim P_\mathcal{T}(X,Y)}[l(h(x)),y]$ ，此处的 $l$ 为一个目标域损失函数。

迁移学习分类

可见之前写是迁移学习综述。

负迁移

Rosenstein等人首次通过实验发现了负迁移现象。Wang等人给出了一个负迁移的数学定义并提出了NTG（negative transfer gap）来确定负迁移是否发生：

定义1（NTG）：令 $\epsilon_\mathcal{T}$ 为目标域内的测试错误， $\theta(\mathcal{S},\mathcal{T})$ 为源和目标域间的迁移学习算法，且 $\theta(\mathcal{0},\mathcal{T})$ 为相同的算法但不使用源域信息。当 $\epsilon_\mathcal{T}(\theta(\mathcal{S},\mathcal{T}))>\epsilon_\mathcal{T}(\theta(\mathcal{0},\mathcal{T}))$ 时，证明负迁移发生了，负迁移的严重程度由NTG来度量：