香港中文大学(深圳)数据科学学院宋彦教授团队9篇论文被自然语言处理旗舰会议ACL-2021接收,论文涉及多项自然语言理解和生成任务,以及信息抽取相关任务。ACL是自然语言处理领域水平最高、最权威的国际会议,被《中国计算机学会推荐国际学术会议和期刊目录(2019)》评为人工智能A类学术会议。
喜讯 | 数据科学学院宋彦教授团队在自然语言处理顶级会议ACL发表9篇论文
香港中文大学(深圳)数据科学学院宋彦教授团队9篇论文被自然语言处理旗舰会议ACL-2021接收,论文涉及多项自然语言理解和生成任务,以及信息抽取相关任务。ACL是自然语言处理领域水平最高、最权威的国际会议,被《中国计算机学会推荐国际学术会议和期刊目录(2019)》评为人工智能A类学术会议。
ACL会议介绍
ACL(The Association for Computational Linguistics)是计算语言学年会,由计算语言学学会(Association of Computational Linguistics)举办,每年有众多高水平学者出席。ACL在审稿规范、质量方面是如今AI会议的翘楚之一,能够通过ACL的评审的工作,证明研究结果在实验严谨性、思路创新性上有着极高的保证。ACL-2021为第59届,将于8月1至7日在线上召开(原定泰国曼谷)。
9篇论文的具体成果介绍如下:
自然语言理解方向
01
Relation Extraction with Type-aware Map Memories of Word Dependencies
关系抽取(relation extraction,RE)是信息抽取和检索中的一项重要任务,旨在从运行文本中抽取给定实体之间的关系。为了在此任务中取得良好的性能,先前的研究表明需要对上下文信息进行良好的建模,其中输入句子的依存句法树可以成为不同类型上下文信息之间的有益来源。然而,这些研究大多集中在单词之间的依存关系上,而很少关注依存关系类型。此外,他们通常在建模中对不同的依存关系同等对待,因此会受到自动生成的依存句法树中的噪声的影响。
本文提出了一种关系抽取的神经网络方法,使用基于类型的映射记忆神经网络 (type-aware map memories, TaMM)对输入句子的依存句法树中的依存句法类型进行编码。具体地,对于实体中的每个词,TaMM 将所有与该词通过依存句法关联的词以及它们之间的依存关系类型映射到记忆槽(memory slots),然后根据不同依存句法关系对关系抽取任务的贡献为它们分配不同的权重。与前人相比,我们的方法不仅利用了单词之间的依存关系和类型,而且还可以通过权重,区分依存句法知识中潜在的噪音。
该研究在两个英语基准数据集(ACE2005以及SemEval)上测试了模型的性能。实验结果表明了本文提出的方法的有效性,在两个数据集上都达到了目前最优的性能。

图1:TaMM 的模型结构

表1:模型在AEC2005和SemEval上的性能
02
Dependency-driven Relation Extraction with Attentive Graph Convolutional Networks
本文同样针对关系抽取任务,提出一种用于使用注意力图卷积网络(attentive graph convolutional networks, A-GCN)的方法编码依存句法关系。具体地,该方法对自动获取的依存句法树中的不同的上下文词应用A-GCN,以区分不同依存关系的重要性。考虑到不同词之间的依存关系类型也包含重要的上下文信息,可以帮助关系抽取任务,该研究还在 A-GCN 建模中包含了依存关系类型的信息,并在两个英语基准数据集(ACE2005和SemEval)上的实验结果表明了我们的 A-GCN 方法的有效性,它优于以前的研究并在两个数据集上都达到了目前最好的性能。

图1:A-GCN 的模型架构

表1:我们的模型(A-GCN)与前人研究的比较
除了上述关系抽取的研究成果,在自然语言理解领域,宋彦教授研究团队还在更为基础和底层的任务(包括分词,预训练文本表征模型等)方面取得了丰富的研究成果。成果介绍如下:
03
Federated Chinese Word Segmentation with Global Character Associations
中文分词(Chinese word segmentation, CWS)是中文信息处理的一项基本任务,其中,未登录词(out-of-vocabulary word, OOV)是该任务的一个难点。当模型在不同来源的数据上进行测试时,未登录词的问题则更为突出。虽然使用更多的训练数据是一种可能的解决方案,但在实际应用中,这些数据往往存储在不同的位置(节点),并且由于隐私或法律问题(例如来自不同医院的临床报告)而彼此孤立。
为了解决这个问题并从额外的数据中受益,该研究提出了一种用于中文分词的神经网络模型,采用联邦学习 (federated learning,FL) 解决数据孤立的问题。该研究提出了一种全局字符关联机制(Global Character Associations,GCA)的方法,增强模型从不同数据源中学习的性能,并在具有五个孤立节点的模拟环境上测试了该模型。实验结果表明了该方法的有效性,优于不同的基础模型,其中包括一些设计良好的联邦学习框架。

图1:模型的结构

表1:模型在5个孤立节点的模拟实验中的性能
04
Improving Arabic Diacritization with Regularized Decoding and Adversarial Training
在不同的语言上往往存在不同的基础自然语言理解任务,就如同中文文本的词与词之间没有显式的空格,现代标准阿拉伯语(Modern Standard Arabic,MSA)的文本一般会省略一些短的元音符号。这些被省略的元音符号会使得一些阿拉伯语的词变得有歧义(有经验的阿拉伯语母语者往往可以根据语境还原这些被省略的元音符号)。因此,与中文文本往往需要分词一样,还原阿拉伯语的文本中这些省略的变音符号(Arabic Diacritization),是阿拉伯语处理的一项基本任务,可以帮助模型理解词语在当前语境下的意义。针对阿拉伯语的该研究同时可以推动我们在其他语言上进行类似的工作。
与中文分词类似,该任务可以通过序列标注的形式建模。先前的研究表明,自动生成的知识(例如词性标签等)可以有效帮助这项任务。 然而,这些研究将往往把自动生成的知识实例直接与关联的词相加,而未能识别这些知识实例是否是真正有用的知识。当这些知识中存在杂音时,这些杂音会误导模型,从而导致错误的预测。本文提出使用正则化解码(Regularized Decoding,RD)和对抗训练(Adversarial Training,AT)恰当地从这些含有杂音的知识中学习以帮助模型提升性能。其中,正则化解码用于学习自动生成的知识,对抗训练则用于确保模型能够识别自动知识中的杂音,从而学习自动知识中对任务有用的部分。在两个基准数据集(ATB和Tashkeela)上的实验结果表明,即使自动生成的知识含有很多的杂音,该研究仍然可以学习足够的信息,并用其帮助提升模型的性能,最终在两个数据集上取得了目前最优的性能。

图1:本文提出的模型的结构图

表1:本文提出的模型与前人结果的对比
05
Taming Pre-trained Language Models with N-gram Representations for Low-Resource Domain Adaptation
上述的各类自然语言理解模型,大都依赖高性能的大规模预训练语言模型(例如BERT等)。然而,在传统的预训练+微调的范式下,预训练模型不能很好的应对出现领域迁移的下游数据集。一种可行的方法是在新领域的大规模无监督数据集上进行重新预训练,但是这种方法需要大量计算资源。本研究经过大量的实验发现,领域迁移导致性能下降的一个主要原因是预训练模型不能对领域特有的新词、新n元组产生的可靠的表征。
因此,本研究提出了一种低资源情况下,利用n元组信息,对预训练语言模型进行领域迁移的模型: T-DNA。与前人的工作相比,T-DNA可以有效的学习和利用领域特有的n元组信息,来帮助模型更好地对文本进行表征,从而提高了英文预训练模型RoBERTa在4个领域 (biomedical sciences, computer science, news, reviews) 共8个下游分类任务上的性能。

图1 T-DNA 模型图

表 1 T-DNA与现有模型在八个数据集上的实验结果对比
除自然语言理解外,在自然语言生成方面宋彦教授团队同样取得了令人振奋的研究进展。这次发表在ACL上的文章包含如下研究:
自然语言生成方向
06
TILGAN: Transformer-based Implicit Latent GAN for Diverse and Coherent Text Generation
近年来,基于Transformer的自回归模型为文本生成任务上带来了重要提升。然而,自回归模型因为训练时依赖真实文本序列,预测时依赖生成文本序列,所以存在曝光误差 (exposure bias) 的问题。前人的研究证明,对抗生成网络(GANs) 可以有效的解决这类问题,然而已有的研究多数是关注在离散输出空间,具有不稳定和缺乏多样性的问题。因此,本研究提出了一种基于Transformer的对抗生成网络模型,TILGAN。它有机地将一个Transformer 自编码器和对抗生成网络在隐向量空间结合到一起。为了提升局部和全局的连贯性,我们显式地引入了多尺度的辨别器来捕捉不同尺度的隐向量信息。进一步地,为了让解码器在训练时见到生成器的输出,在训练过程中,我们加入Kullback-Leibler divergence来对解码器和生成器的输出进行适配,从而实现更加有效地训练。实验结果表明,TILGAN在无条件生成和有条件生成两个任务共三个数据集上取得了显著提升。自动评价指标和人工评价都表明TILGAN可以生成更加多样和连贯的文本。

图1 TILGAN 模型图。蓝色和橘黄色分别代表全局辨别器和局部辨别器。绿色代表解码器增强路径

表1 TILGAN与现有模型在无条件生成任务上的实验结果对比

表2 TILGAN 与现有模型在有条件生成任务上的实验结果对比
07
Cross-modal Memory Networks for Radiology Report Generation
以通用领域的文本生成模型为基础,该研究把自然语言生成方法应用于医疗领域,尤其是医学影像报告的自动生成。医学影像在医学诊断的临床实践中发挥着重要作用,其文本报告对于理解患者病情和促进后续治疗至关重要。自动影像生成报告的模型和方法,有利于减轻医生的负担,可以促进临床自动化,已经在人工智能应用于医学领域引起了广泛关注。以前的研究主要遵循“编码-解码”范式来生成影像报告,并且他们专注的方向大都集中于文本生成方面,很少有研究考虑跨模态(即跨图像和文本)映射的重要性,并利用此类映射来促进放射学报告的生成。
本文提出了一种跨模态记忆网络 (Cross-modal Memory Networks ,CMN) 增强医学影像报告生成方法。其中,我们使用共享记忆组件对其图像和文本之间的表征,以促进跨模态的交互和生成。实验结果说明了该模型的有效性,其中在两个广泛使用的基准数据集(即IU X-Ray 和 MIMIC-CXR)上实现了最先进的性能。进一步的分析还表明,该模型能够更好地对齐来自图像和文本的信息,从而帮助生成更准确的临床指标报告。

图1:模型结构

表1:CMN与现有方法在两个数据集上性能的比较
08
Word Graph Guided Summarization for Radiology Findings
进一步地,针对医学影像报告,我们关注对报告中重要部分文本的自动摘要的生成。每份医学影像报告一般由两部分组成,其中,“发现”(findings)部分包含了详细的医学影像的描述;“印象”(impression)部分是对“发现”部分的摘要,总结了“发现”中最重要的内容,具有十分重要的研究价值。因此,该研究的重点是自动“印象”摘要生成。现有的研究主要集中在从“发现”中提取重要的词的信息,并将其引入到通用的文本摘要框架中,从而指导模型生成“印象”。然而,对于这项任务,模型不仅需要利用“发现”中的重要词,还需要准确地获取它们之间的关系,从而生成高质量的“印象”。
本文提出了一种自动“印象”生成的新方法:从“发现”中抽取重要的关键词,以及它们之间的关系,从而构成词图;然后提出一个词图引导的摘要模型(Word Graph guided Summarization Model,WGSum) 来生成“印象”。该研究在两个标准数据集(即OpenI 和 MIMIC-CXR)上测试了模型的性能。实验结果和进一步的分析表明了该方法的有效性,在两个数据集上都实现了目前最好的结果。

图1:本文提出的模型的结构

表1:我们的模型与前人模型性能的比较
除文本理解和生成,在信息抽取领域也有如下研究:
09
RevCore: Review-augmented Conversational Recommendation
与文本的生成相似,对话的推荐与生成同样是自然语言生成领域的研究热点和难点。现有的对话推荐(conversational recommendation,CR)系统在处理短对话历史和不熟悉的项目时通常会遇到信息不足的问题,从而导致系统的性能不理想。而合并外部信息(例如评论)是一种潜在的缓解此问题的解决方案。鉴于评论通常来自有着不同关注点的用户,并且它们能提供丰富而详细的用户体验,因此用户评论是在信息丰富的对话中提供高质量推荐的潜在理想资源。
本文提出了基于评论增强的对话推荐模型(RevCore),其中用户评论的信息被引入模型,帮助其输出连贯和信息丰富的对话回应。特别地,RevCore提取情感一致的评论,进行基于评论丰富和实体的推荐,并使用基于评论注意力的编码器-解码器生成对话响应。在标准数据集REDIAL上的实验结果表明了该方法在对话推荐(表1)和对话响应(表2)上有更好的性能。

图1:基于评论增强的对话推荐模型(RevCore)

表1:模型在对话推荐任务上的性能

表2:模型在对话相应任务上的性能