01 前言

1.论文的相关背景

Prompt Learning通过设计一组合适的prompt将下游任务的输入输出形式重构成预训练任务中的形式，充分利用预训练阶段学习的信息，减少训练模型对大规模标注数据集的需求。

例如对于用户评论的情感分析任务：判断用户评论的“交通太不方便了。”这句话蕴含的情感是“正面”还是“负面”。原有的处理范式是将其建模成一个文本分类问题，输入“交通太不方便了。”，输出“正面”或者 “负面”。

但如果使用Prompt Learning范式，则会将输入重构成“交通太不方便了。感觉很“[MASK]”，输出“好”或者“差”。

Prompt Learning借助合适的prompt减少了预训练和微调之间的差异，进而使得模型在少量的样本上进行微调，即可取得不错的效果，因此受到大量专家学者的关注，被誉为自然语言处理的第四范式。

命名实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

目前基于深度学习的命名实体识别方法已经取得了较高的识别精度，但由于深度学习模型依赖于大量的标注语料，因此在缺少大规模标注数据的垂直领域很难取得较好的效果。

针对少样本命名实体识别问题，常规的方案是基于相似性的度量方法，但该方法无法利用模型参数中的知识进行迁移。

为了解决该问题，如下图所示的TemplateNER引入Prompt Learning通过人工设计的实体模板（<候选实体> is a <实体类型> entity）和非实体模板（<候选实体> is not a named entity）将命名实体识别问题建模成seq2seq框架下的语言模型打分任务，具体过程如下图所示。

TemplateNER在跨域和少样本场景下显著优于传统的序列标记方法和基于距离的少样本NER方法，但TemplateNER在生成候选实体时需要使用n-grams方法进行枚举，因此存在严重的效率问题。

fe308660974b088fb93091fa4919d11a - 抛弃模板，一种Prompt Learning用于命名实体识别任务的新范式

论文主要解决的问题

TemplateNER等基于Prompt Learning命名实体识别模型在识别效率上的问题

论文的主要创新和贡献

● 提出了一种少样本场景下无模板的基于Prompt Learning的命名实体识别算法

● 舍弃了使用n-grams方法生成候选实体的思路，进而解决了TemplateNER等基于Prompt Learning命名实体识别模型的效率问题

02 论文摘要

Prompt Learning已被广泛应用于句子级自然语言处理任务中，但其在命名实体识别这类字符级的标记任务上取得的进展却相当有限。

TemplateNER通过n-grams方法枚举所有的潜在实体构建prompt进行命名实体识别任务，使得Prompt Learning得以应用于命名实体识别任务，但该构建方法容易产生大量的冗余数据，影响模型的效率。

针对上述问题，本文放弃了常规的prompt构建方法，采用预训练任务中的掩码预测任务的形式，将命名实体识别任务转化成将实体位置的词预测为选定的标签词的任务。

同时，为了标签词可以适配预训练语言模型的分布，本文提供了四种搜索适配模型的标签词的方法。

实验结果表明，在少样本场景下，本文方法优于直接使用BERT进行命名实体识别和TemplateNER。此外，在解码速度方面该方法比TemplateNER快1930.12倍。

03 论文模型

3.1 Entity-Oriented LM Fine-tuning

为了解决TemplateNER存在的效率问题，论文提出了一种Entity-Oriented LM（EntLM）微调方法，整体形式与图(a)所示的传统序列标注任务范式一致，不同的是，传统的序列标注任务的输出是输入句子中每个字符所对应的实体类型标签，EntLM则是输出的非实体部分同输入字符，实体部分为预设的最能代表该实体类型的字符。

如下图(b)所示，输入为Obama was born in America，其中Obama 是实体类型标签为PER（人物）的实体，America是实体类型标签为LOC（地名）的实体，预设最能代表PER类型的字符是John，最能代表LOC类型的字符是Australia，则was born in所对应的输出为was born in，Obama 所对应的输出为John，America所对应的输出为Australia。

与图(c)所示的TemplateNER需要针对实体类型和候选实体构建不同的模板进行输入相比，EntLM的实体识别过程仅需要一次前向计算即可完成，大大减少了冗余计算，提高了算法识别的效率。

至此，论文已经解决了TemplateNER等基于Prompt Learning命名实体识别模型的效率问题，但同时也延伸出了新的问题，即如何选定代表实体类型的字符（论文将该类字符成为label word）。

560b1a602c4e7af840c25501ce35ad76 - 抛弃模板，一种Prompt Learning用于命名实体识别任务的新范式

3.2 Label Word Engineering

EntLM面对的是少样本场景，因此如果只使用训练数据来生成label word，不论是使用何种算法都会面临label word不置信的问题。

为了解决上述问题，论文采用了BOND[1]中远程监督生成伪标签数据的方法（尽管论文中提到该方法引用自BOND，但其实该部分就是一个普通的远程监督生成伪标签数据的过程，并未实际使用BOND算法），借助外部知识库为数据提供标签，该方法的假设便是如果文本中的字符串包含在预定义的实体字典中，则该字符串可能是一个实体。

远程监督生成伪标签的方法存在噪声标注的问题，但EntLM使用远程监督的目标是为了找到相对置信的label word，而不是将其直接作为标签使用，因此，噪声标注对其影响相对较小。

生成伪标签数据后，论文提供了四种方法用来选定label word。

●Searching with data distribution (Data search)

每类实体类型均选择出现频率最高的字符作为label word，例如在伪标签数据中属于LOC类型的字符仅有America和Australia，其中America出现的频率为5，Australia出现的频率为6，则选择Australia作为label word。

3b74ab69c1f8793fb8f3de5287ea7393 - 抛弃模板，一种Prompt Learning用于命名实体识别任务的新范式

●Searching with LM output distribution (LM search)

使用预训练模型对伪标签数据中的每个样本进行掩码预测，获取模型在每个实体位置上的预测分布，选择每个实体位置预测TOPK的字符进行频率统计。

例如，对Obama was born in America进行掩码预测，America位置对应的预测TOP3为America、Australia和Beijing，若选择TOP2进行频率统计，则America作为LOC类型出现的频率加1，Australia作为LOC类型出现的频率加1。

99d32ffc4c5f798e2f187530931b2d04 - 抛弃模板，一种Prompt Learning用于命名实体识别任务的新范式