跟我读论文丨ACL2021 NER 模块化交互网络用于命名实体识别-一一网

跟我读论文丨ACL2021 NER 模块化交互网络用于命名实体识别

4年前更新

3600

摘要：本文是对 ACL2021 NER 模块化交互网络用于命名实体识别这一论文工作进行初步解读。

本文分享自华为云社区《ACL2021 NER | 模块化交互网络用于命名实体识别》，作者：JuTzungKuei 。

论文： Li Fei, Wang Zheng, Hui Siu Cheung, LiaoLejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized InteractionNetwork for Named Entity Recognition [A]. Proceedings of the 59th AnnualMeeting of the Association for Computational Linguistics and the 11thInternational Joint Conference on Natural Language Processing (Volume 1: LongPapers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.

链接：aclanthology.org/2021.acl-lo…

代码：无

1、摘要

现有 NER 模型缺点

基于序列标注的 NER 模型：长实体识别不佳，只关注词级信息

基于分段的 NER 模型：处理分段，而非单个词，不能捕获分段中的词级依赖关系

边界检测和类型预测可以相互配合，两个子任务可共享信息，相互加强
提出模块化交互网络模型 MIN（ModularizedInteraction Network）

同时利用段级信息和词级依赖关系

结合一种交互机制，支持边界检测和类型预测之间的信息共享

三份基准数据集上达到 SOTA

2、介绍

NER：查找和分类命名实体，person (PER), location
(LOC) or organization (ORG)，下游任务：关系抽取、实体链接、问题生成、共引解析
两类方法

序列标注 sequence labeling：可捕获词级依赖关系

分段 segment（a span of words）：可处理长实体

NER：检测实体边界和命名实体的类型，

分成两个子任务：边界检测、类型预测

两个任务之间是相关的，可以共享信息

举栗：xx 来自纽约大学

如果知道大学是实体边界，更可能会预测类型是 ORG

如果知道实体有个 ORG 类型，更可能会预测到“大学”边界

上述两个常用方法没有在子任务之间共享信息

序列标注：只把边界和类型当做标签

分段：先检测片段，再划分类型

本文提出 MIN 模型：NER 模块、边界模块、类型模块、交互机制

指针网络作为边界模块的解码器，捕捉每个词的段级信息

段级信息和词级信息结合输入到序列标注模型

将 NER 划分成两个任务：边界检测、类型预测，并使用不同的编码器

提出一个相互加强的交互机制，所有信息融合到 NER 模块

三个模块共享单词表示，采用多任务训练

主要贡献：

新模型：MIN，同时利用段级信息和词级依赖

边界检测和类型预测分成两个子任务，结合交互机制，使两个子任务信息共享

三份基准数据集达到 SOTA

3、方法

NER 模块：RNN-BiLSTM-CRF，引用Neuralarchitectures for named entity recognition

词表示：word（BERT） + char（BiLSTM）

BiLSTM 编码：双向 LSTM，交互机制代替直接级联，门控函数动态控制

最终 NER 输出：H^{NER}=W^T[H;H^B;H^T;H^S] + b_HNER_=WT[H;HB;HT;HS]+_b_H^{Bdy}HBdy 表示边界模块输出，H^{Type}HType 表示类型模块输出，H^{Seg}HSeg 表示分段信息

CRF 解码：转移概率 + 发射概率

边界模块：双向 LSTM 编码 H^{Bdy}HBdy，单向 LSTM 解码

解码：s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}_sj_=_hj_−1_Bdy_+_hjBdy_+hj+1_Bdy_d_j=LSTM(s_j,d_{j-1})_dj_=LSTM(_sj_,_dj_−1)

Biaffine Attention 机制：

类型模块：BiLSTM + CRF
交互机制：

self attention 得到标签增强的边界 H^{B-E}HB_−_E，类型 H^{T-E}HT_−_E

BiaffineAttention 计算得分 \alpha^{B-E}αB_−_E

交互后的边界：r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}riB_−_E_=∑_j=1_n__αi_,_jB_−_E__hjT_−_E_

更新后的边界：\overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]_hiBdy_=[_hiB_−_E_,_riB_−_E_]

更新后的类型：\overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]_hiType_=[_hiT_−_E_,_riT_−_E_]

联合训练：多任务

每个任务的损失函数

最终损失函数：

\mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}L=L_NER_+L_Type_+L_Bdy_

4、结果

Baseline (sequence labeling-based)

CNN-BiLSTM-CRF

RNN-BiLSTM-CRF

ELMo-BiLSTM-CRF

Flair(char-BiLSTM-CRF)

BERT-BiLSTM-CRF

HCRA(CNN-BiLSTM-CRF)

Baseline (segment-based)

BiLSTM-Pointer

HSCRF

MRC+BERT

Biaffine+BERT

号外号外：想了解更多的 AI 技术干货，欢迎上华为云的 AI 专区，目前有AI编程Python等六大实战营供大家免费学习。

点击关注，第一时间了解华为云新鲜技术~

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧

相关推荐