跟我读论文丨ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体识别-一一网

摘要：本文是对 ACL2021 NER BERT 化隐马尔可夫模型用于多源弱监督命名实体识别这一论文工作进行初步解读。

本文分享自华为云社区《ACL2021 NER |BERT化隐马尔可夫模型用于多源弱监督命名实体识别》，作者：JuTzungKuei 。

论文：Li Yinghao, Shetty Pranav, Liu Lucas, ZhangChao, Song Le. BERTifying the Hidden Markov Model for Multi-Source WeaklySupervised Named Entity Recognition[A]. Proceedings of the 59th Annual Meetingof the Association for Computational Linguistics and the 11th InternationalJoint Conference on Natural Language Processing (Volume 1: Long Papers) [C].Online: Association for Computational Linguistics, 2021, 6178–6190.

链接：aclanthology.org/2021.acl-lo…

代码：github.com/Yinghao-Li/…

1、摘要

研究内容：使用多个弱监督数据的噪音标签学习 NER
噪音数据：不全、不准、矛盾
提出一个条件隐马尔可夫模型（CHMM：conditionalhidden Markov model）

利用 BERT 的上下文表示能力，增强了经典的 HMM 模型

从 BERT 嵌入中学习词的转移和发射概率，推断潜在的真标签

用交替训练方法(CHMM-ALT)进一步完善 CHMM

用 CHMM 推导出的标签对 BERT-NER 模型进行微调

BERT-NER 的输出作为额外的弱源来训练 CHMM

四份数据集上达到 SOTA

2、介绍

NER 是许多下游信息抽取任务的基础任务：事件抽取、关系抽取、问答

有监督、需要大量标注数据

许多领域有知识源：知识库、领域词典、标注规则

可以用来匹配语料库，从多角度，快速生成大规模的噪声训练数据

远程监督 NER：只使用知识库作为弱监督，未使用多源标注的互补信息
现有利用 HMM 方法，有局限性：one-hot 词向量或不建模
贡献：

CHMM：聚合多源弱标签

交替训练方法 CHMM-ALT：轮流训练 CHMM 和 BERT-NER，利用彼此的输出进行多回路，以优化多源弱监督 NER 性能

四份基准数据集获得 SOTA

3、方法

CHMM-ALT 训练两个模型：多源标签聚合器 CHMM 和 BERT-NER 模型，轮流作为彼此的输出

阶段 I：CHMM 根据 K 个源 x_{1:K}^{(1:T)}_x_1:K(1:T)，生成一个去噪标签 y^{*(1:T)}_y_∗(1:T)，微调 BERT-NER 模型输出\widetilde{y}^{(1:T)}_y_(1:T)，作为额外的标注源，添加到原始弱标签集合 x_{1:K+1}^{(1:T)} =\{x_{1:K}^{(1:T)} , \widetilde{y}^{(1:T)}\}_x_1:K+1(1:T)={_x_1:K(1:T),_y_(1:T)}

阶段 II：CHMM 和 BERT-NER 在几轮循环中互相改进，每轮循环，先训练 CHMM，后微调 BERT-NER，更新前者的输入

CHMM 提高 Precision，BERT-NER 提高 Recall