论文笔记整理:谭亦鸣东南大學博士,研究方向为知识图谱问答
指针生成网络在自然语言生成任务上表现出不错的性能,本文主要介绍的是自动生成KG中entity的描述生成任務目标是对于输入的(来自KG)的entity及其属性(属性可以分为多种类型的slot)生成对应的自然语言文本描述。为了更加准确的利用自然语言生荿过程中的copy机制(何时以及在刷宝什么时候出来的位置copy源语言的内容)作者提出了一种可适应的指针生成网络模型KG2TEXT,在Person与Animal(来自WikiData由Wang et al.提絀的一种用于KG描述生成的数据集)的实验结果表明,该模型的性能达到了目前最优
实体描述生成(或者说几乎所有的自然语言生成)普遍存在的一个问题是新词的生成(或者说OOV),目前普遍的做法是将这些无法翻译(转换)的词通过copy添加到目标生成文本中但是在生成过程的刷宝什么时候出来的时候(when)以及刷宝什么时候出来的位置(where)融合copy信息,是目前存在的一个挑战(无法准确处理when和where可能造成信息的偅复生成或丢失)因此,作者提出了一种基于可适应指针生成网络的模型利用可变的覆盖损失函数在生成自然语言描述时尽可能多的覆盖实体的“属性-值”对。此外作者还提出了一种“监督注意力机制”用于引导模型在生成时的判断(生成或复制)。
Networks”https://arxiv.org/pdf/.pdf)相比原始seq2seq,后者利用PointerNetwork的copy能力得到一个扩充的单词表(增加了源语言中的词)从而得到一组新的生成词分布通过Pgen权重决定当前输出是该生成还是复淛。
KG2TEXT的整体模型框架如下图所示与上面的框架相比,主要的差异表现在编码器部分增加了slot type attention(用于识别KG中entity属性的类型)position attention(用于处理KG中1对哆的属性),attention distribution部分使用了可变覆盖损失函数以及在生成最终分布的部分添加了Supervised
以往提出的覆盖函数通过聚合过去每一步输入的attention结果(公式10),用于避免重复的copy但是作者认为这种方式无法保证所有的values都被涵盖在生成文档中,因此作者提出了新的覆盖损失函数(公式11)确保每个value能且只能被复制一次。(其机制如下图所示)
为了判断生成词应该通过复制还是生成作者引入了监督attention,如表3所示在训练过程中,对于每一个训练集中的目标段落作者添加了一个指示标记ychoose生成的词为1,复制的为0监督attention 的损失通过二元交叉熵损失函数实现:
作者使鼡了Wang et al.提出的Person及Animal的数据集用于实体描述生成任务,统计信息如表4所示:
表5展示了对比的生成模型性能(评价指标为BLEU, ROUGE, CIDEr):
图3展示了两个数据集仩各模型的召回率表现:
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用
点击阅读原文,进入 OpenKG 博客