近日,香港中文大学(深圳)数据科学学院宋彦教授团队六篇论文被自然语言处理(NLP)顶会EMNLP-2020收录。
数据科学学院宋彦教授团队在自然语言处理顶级会议EMNLP发表6篇论文
近日,香港中文大学(深圳)数据科学学院宋彦教授团队六篇论文被自然语言处理(NLP)顶会EMNLP-2020收录,论文所述研究均聚焦于如何有效利用知识(包括非监督及自监督知识)驱动自然语言处理的各项任务,并在预训练模型、句法分析、命名实体识别、特定领域的文本生成领域等取得了目前世界最好的实验性能,论文详细信息如下:
01
ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations
预训练模型是当前自然语言处理学界及业界关注的焦点。作为上下文相关的文本表征技术,预训练模型在当前多数自然语言处理任务上相较于传统模型得到了显著的性能飞跃,因此自BERT被提出以来近两年时间内几乎席卷了整个NLP领域,并且随着BERT等一系列预训练模型的出现,利用大规模无标注纯文本语料训练的上下文相关表征方法受到了极大关注。然而,针对中文的预训练模型之前基本沿用了英文模型的做法,聚焦于小颗粒度文本单元(字)的输入。但与英文相比,中文没有空格等明确的词语边界,使得多数情况下文本表达中存在的交叉歧义被错误地带入了文本编码之中,模型很难从单字的序列中学习到大颗粒度文本蕴含的语义信息,例如双字或者多字词的整体含义等。同时,目前很多模型的解决方法依然是遵循传统BERT模型的遮盖(masking)策略,例如采用多层(词,短语等)遮盖策略来弥补这一缺陷。然而,利用遮盖策略存在过度依赖外部分词质量和训练/测试短语信息不匹配两个问题,从而引起错误信息传播。因此,基于本研究团队以往工作的基础,本研究提出了一种结合更大颗粒度信息的新的中文预训练模型——ZEN,提出了一种基于BERT的n-gram增强中文文本编码器ZEN。模型架构如图1所示,利用n-gram 编码器,ZEN可以有效地集成大颗粒度文本的信息,弥补仅使用字编码模型忽略词语层级信息的缺陷,从而提高中文预训练模型在下游任务的性能。
与其他模型相比,ZEN可以显式地结合潜在词语的边界信息来帮助模型更好地对文本进行表征。具有简单有效(不需要其他数据集和复杂的训练优化方式)和收敛迅速两大优势。文章对BERT和ZEN两个模型分别实现了两组设置:R(随机初始化) 和 P(基于谷歌开源的BERT中文模型进行初始化)。实验结果表明,在两组设置上,ZEN都取得了比BERT更好的性能。在涵盖词汇级和句子级两个层级的七大经典中文语言处理任务中——包括中文分词(CWS),词性标注(POS),命名实体识别(NER),文本分类(DC),情感分类(SA),语义匹配(SPM),自然语言推理(NLI),ZEN在七个下游任务上都带来了显著提升(如表1,其中CWS、POS、NER的分数为F1值,其他任务为准确率)。ZEN与现有的其他模型在七个任务上进行了比较,取得了包括CWS、POS、NER、DC、SPM在内的五个任务上最好的结果。同时本文还在小规模数据集上进行了实验,模拟了只有少量预训练数据语料的场景,验证了ZEN在小数据上的效果同样出色。
图1 表1
图1:ZEN模型架构,其中左边展示了标准的BERT字编码结构,右边是本研究提出的N-gram编码模块,蓝色箭头表示两部分的融合方式
表1:ZEN的总体性能及其与现有模型在七项NLP任务上的性能比较
注:该论文预印本已于去年在arXiv发布,详情请见 https://arxiv.org/abs/1911.00720,包括论文相关代码和模型也已在其中刊出。
02
Improving Constituency Parsing with Span Attention
成分句法分析是自然语言处理中的最基本的任务之一,其分析结果显示了输入文本的句法信息。这种句法信息能有效帮助模型来获取高质量的文本表征并得到句子的关键成分结构,从而提升模型对下游各类自然语言处理任务的性能。目前主流的句法分析工具(例如伯克利大学句法分析工具)采用基于图结构的方法,首先预测包含个词输入文本
中每一段文本区间 (
)(text span)所属的句法成分类别,例如名词短语(NP)、动词短语(VP)、介词短语(PP)等。接下来,通过CYK算法,从所有文本区间中提取出最优的合法句法树。在这个过程中,文本区间表征(span representation)对句法分析器的性能有巨大的影响。在文本区间的向量表征中加入额外的上下文特征是一种有效的提升句法分析器性能的方法。考虑到n元组(n-gram,即文本中连续n个词组成的元组)是一种广泛使用的,并且被证明在各类自然语言处理任务中行之有效的上下文特征,其也同样具有提升文本区间向量表征能力,进而提升模句法分析工具性能的作用。因此,该研究提出使用分类区间注意力机制(categorical span attention,CatSA),对不同长度[1]的n元组进行建模,把它们携带的上下文信息引入文本区间表征中。该模型的架构图展示在图2中,其中左边展示了现有的基于图结构的成分句法分析的模型架构;右边展示了该研究提出的分类区间注意力机制。
具体地,对于每一个文本区间() ,该方法首先从一个预先构建的n元组词表
中抽取所有在该文本区间内出现的n元组,并把这些n元组按照其长度分组,记得到的长度为u的n元组集合为
。然后,对于每一组n元组
,该方法使用注意力机制对该组中的n元组进行比较和建模,并依据n元组在该语境下对成分句法分析任务的贡献对其分配权重,从而把重要的上下文信息整合入文本区间的向量表征,进而提升句法分析模型的性能。和一般的区间注意力机制(span attention,SA)把不同长度的n元组放在一起建模相比,分类区间注意力机制通对不同长度n元组分别建模,提升了模型对那些包含词数多、出现次数少的、但是包含了更多上下文信息的n元组的利用能力,进而提升模型的性能。
[1] n元组的长度指的是该n元组包含的词的数量。例如,英文二元组“text span”的长度为2。
为检验该模型的性能,该研究在阿拉伯语、中文、英文三个标准数据集上进行试验。表2展示了该研究提出的模型、前人的模型、和现有句法分析工具(斯坦福大学CoreNLP工具(SCT)以及伯克利句法分析工具(BNP))在各个语言测试集上的准确率P、召回率R、F1值的对比,其中ATB、CTB5、PTB分别对应阿拉伯语、中文、英文句法分析数据集。可以看出,该研究提出分类区间注意力方法在三种语言上超越了所有前人的研究,达到了目前最高的句法分析成绩,充分表明了该研究提出的模型能有效利用n元组信息来提升模型的性能。
此外,在不同长度的句子上,提出的模型能够能够超越基础模型的性能(见图3),充分表明了提出的分类区间注意力机制能够更有效地分析长句子的句法结构。
为了提升模型的可解释性,图4展示了一个基础模型分析错误,但提出模型分析正确的例子。其中正确和错误的句法分析结果分别由红色和绿色表示;成分表现的上角标表示了该成分在句法树中所处的高度。可以看到,基础模型由于未能准确的获取长跨度的文本区间(即“customer … utilities”共计25个词)的向量表征,从而误把介词短语PP附着于名词“customer”。相对应的,该研究提出的模型能够利用n元组的上下文信息增强文本区间的表征能力,从而正确识别该介词短语应当附着于动词“compute”,从而得到正确的句法分析结果。