近日,香港中文大学(深圳)数据科学学院宋彦教授团队五篇论文分别被自然语言处理领域的顶级国际会议之一COLING 2020(四篇),生物信息学领域期刊BMC Bioinformatics(一篇)收录。
喜讯 | 数据科学学院宋彦教授团队五篇论文分别被COLING 2020以及BMC Bioinformatics收录
近日,香港中文大学(深圳)数据科学学院宋彦教授团队五篇论文分别被自然语言处理领域的顶级国际会议之一COLING 2020(四篇),生物信息学领域期刊BMC Bioinformatics(一篇)收录。论文详细信息如下:
01
Summarizing Medical Conversations via Identifying Important Utterances
随着“互联网+医疗”的不断发展,越来越多的患者可以在网络平台上直接与医生交流病情,并得到相应的医疗帮助。在这种背景下,对医患之间的交流对话进行摘要提取将变得十分具有现实意义。对于医生来说,摘要总结的患者的医疗问题以及医生给出的解决方案对于患者在再次就诊时,医生迅速了解患者病史具有重要意义,极大节约了医生的人力成本;对于其它潜在的患者来说,摘要中的信息可以让其快速找到患者关心疾病的解决方案,节省了患者的时间。因此,研究医疗对话的自动摘要问题十分重要。
为此,我们从中文互联网医疗平台上获取了医患之间的对话,以及相应的问题描述和诊断建议的摘要。其中一个例子如下:

其中“诊断建议A”为对话中解决方案句子的组合,“诊断建议B”为医生在对话结束后额外留下的建议。我们发现,由于医疗对话场景的特殊性,其摘要的核心往往关注两个方面,即问题描述和诊断建议,而这两部分内容往往与对话的内容高度相关——患者为了医生能够给出针对性的建议,往往会详细描述病情和症状;医生为了给患者提供相应的解决方案,往往在对话中包含明确的指导。这种医疗对话领域的特殊性,使得我们可以通过识别对话中重要的语句,并通过对其合并,得到相应的摘要。因此,我们采用非监督方法,为每个句子标注了标签。其中“PD”表示该句子包含问题描述的重要信息,“DT”表示该句子包含诊断建议的重要信息,“OT”表示其它情况。
为了识别对话中的重要信息,并利用对话中相关句子的信息来提升模型识别句子重要性的准确度,我们提出基于记忆神经网络的层级编码标注系统(Memory-based Hierarchical Encoder-tagger)。其模型图如下:

其中,词编码(TE)对输入对话的每个句子进行编码,得到每个句子的向量表示。针对每个句子,记忆神经网络对对话中其它相关句子进行加权,并把信息整合到该句子中,以增强该句子的表征能力。句编码(UE)对对话中的句子建立上下文关系,并把每个句子最终的向量表示传递到标注器中,最后得到表示每个句子所属类别(即PD,DT和OT)。
我们在收集的数据集上测试了模型的性能,并与现存的具有代表性的摘要模型进行比较。比较的结果如下表所示,其中R-1,R-2和R-L为评价摘要系统性能的核心指标——rouge分数,句子标签预测的准确率(P),召回率(R)和F值仅做参考。

可以看出,在问题描述和诊断建议摘要上,我们的模型在所有rouge分数上,同时超越了基础模型和前人模型的性能。其中,使用ZEN作为字编码器(TE)的模型取得了最好的性能。
02
Joint Chinese Word Segmentation and Part-of-speech Tagging via Multi-channel Attention of Character N-grams
中文分词和词性标注是中文自然语言处理中最基础的任务,其结果对下游任务(例如命名实体识别、关系抽取等)具有重要的意义。目前主流的做法是采用联合方法(joint)同时对中文字序列进行分词和标注词性,并通过加入n元组(n-gram,即连续n个字)特征来提升模型性能。然而,目前的方法大都通过把n元组的向量表示与输入字的向量表示串联的方法,把n元组包含的上下文信息引入分词和词性标注的联合模型;这种做未能区分不同n元组在特定语境下的贡献差异,使得带有歧义信息的n元组与其它n元组一起被同等看待和利用,进而影响模型性能。例如,对于句子“解放大道路面积水”,带有歧义信息的n元组“放大”被不加区分地引入模型,使得模型无法正确处理句子中广泛存在的歧义。因此,我们可以采用注意力机制(attention)来为不同的n元组在特定语境下的贡献加权。
此外,我们注意到一些短的、含有较少上下文信息的n元组,由于其往往出现频率高以及其所对应的参数在模型训练过程中被频繁更新,往往在注意力机制中占据主导地位,使得那些长的、含有较多上下文信息,出现不频繁的n元组无法恰当地起作用。因此,我们在文章中提出使用多频道(multi-channel)的注意力机制来对n元组建模。模型结构图如下。

该模型通过把n元组按照某种标准(例如n元组的长度或在数据集中出现的频率)对其分组,并把每组n元组分配到一个注意力频道中,对频道内的n元组加权。随后,不同频道的n元组信息被串联(concatenate),然后输入到主模型(上图中左侧部分)中。
我们在5个标准中文数据集(CTB5、CTB6、CTB7、CTB9、UD,其中UD1和UD2 表示UD数据集上的两种不同的词性标签)上测试了模型的性能,并把结果与前人的结果进行对比。其中,我们常数了两种不同的对n元组分组的方法。即按照n元组的长度(Len.)和按照n元组在数据集中出现的频率(Freq.)分组。实验结果如下表所示。


可以看到,我们提出的多频道注意力模型在所有数据集上超越了基础模型(包括使用一般注意力机制的模型(Norm Att.))以及前人的模型。特别的,使用ZEN作为编码器的模型在联合任务的标签预测上(上标中Joint所对应的列)达到目前最好的性能。
03
Joint Aspect Extraction and Sentiment Analysis with Directional Graph Convolutional Networks
“方面提取”和情感分析的联合任务(joint aspect extraction and sentiment analysis,EASA)是自然语言处理领域的一个基础研究任务之一,其目的是提取方面的同时预测方面的情感极性(即,积极、消极和中性)。因此,模型在该任务上的性能高度依赖于模型对上下文信息的建模能力。然而,最近的研究往往局限于使用高效的编码器(例如BERT),而没有考虑使用更高级的模型框架和利用额外的知识来帮助提升模型的性能。此外,考虑到对词和上下文信息的位置关系的建模有益于增强文本的表征,以及不同上限文信息在特定语境下的贡献是不同的,我们提出基于方向建模的图神经网络(Directional Graph Convolutional Networks,D-GCN)。具体地,该模型利用词与词之间的依存句法关系对上下文信息进行建模,在对不同的上下文信息进行加权的同时,对词与上下文信息的位置建模,并把其引入模型。图1是该模型的架构图。
其中,邻接矩阵(adjacency matrix)表示了基于依存句法在输入句子上构建的图结构。注意力矩阵(Attention Matrix)表示了不同的上下文特征对与其关联的词的权重。此外,在D-GCN中,针对每一个词,我们把所有与其关联的上下文信息按照他们之间的相对位置关系分为三类(左边、右边和自身),并通过三个不同的矩阵(在图1中分别用红色、蓝色和黄色的矩形表示)分别对其建模。相比于普通的GCN模型(即不区分词与上下文信息的相对位置关系,并用一个矩阵对所有上下文信息建模),D-GCN可以有效地区分不同上下文信息的贡献,并据此更好地利用这些信息,进而提升模型性能。
为了检验该模型的性能,该研究在laptop、restaurant和twitter等三个基准数据集上进行试验。表1展示了该研究提出的模型、典型的图模型模型GAT和前人的方法在各个基准数据集上F1值的对比。其中,REST、LPTP和TWTR分别对应laptop、restaurant和twitter等三个基准数据集。
从实验结果可以看出,本研究提出的基于方向建模机制的图神经网络方法在所有数据集上超越了基础模型和前人的研究,达到了目前联合方面提取和情感分析任务上最高的成绩。这充分表明了该研究提出的模型能够有效利用上下文信息来提升模型性能。

图1

表1
图1:基于方向建模的图神经网络模型架构图
表1:模型在三个基准数据集上的性能
04
Meet Changes with Constancy: Learning Invariancein Multi-Source Translation
多源机器翻译任务往往包含多语言翻译(如多个语言的平行语句输入,翻译到目标语言的过程)以及多模态机器翻译(如输入图片以及对应的文本信息翻译到另一个目标语言)。在这样的任务中,多源输入一般互相约束以及提供信息互相支持,可以帮助翻译任务完成得更好,但是我们也常常会发现不同源的输入存在噪音(即不同输入语言中不一致的语言表达以及图片中的背景噪音等),这些噪音会对机器翻译任务带来一定负面影响。如今一般的机器翻译模型往往都希望获得一个语言无关的中间表示层,因此,我们尝试在多源机器翻译场景下捕捉输入的(语义)不变性,并提出模型SIN,希望获取输入数据中语言无关的语义信息。为此,我们的模型针对输入数据的表达通过Maximum Mean Discrepancy(MMD)学习具有该不变性的信息。我们设计的模型结构利用相似损失和差异损失分别捕获语言无关表达,并通过公有编码器产生相应的表征用于计算该不变性,同时使用私有编码器进行不同输入的单独表征,以刻画不同输入中存在的不变及变化的内容。原理上,为了能捕捉不变性,我们希望不同输入源的公有表征足够接近,并利用similarity loss来缩小它们的差异;与此同时,我们还希望在同一个输入源内公有表征与私有表征能被分离开来,并利用difference loss约束其尽可能正交。整体上,模型通过优化针对不同源的上述输入表征,完成对机器翻译的质量提升。
我们提出的模型SIN可以容易地嵌入于任何序列生成框架,在最大化似然的目标上捕捉前述提到的输入不变性信息,并可以以端到端的方式训练。我们的模型在RNN以及Transformer作为序列模型的基础上,都取得了一定的翻译质量的提升,分别在多语言机器翻译以及多模态机器翻译两个多源机器翻译子任务上验证了实验效果(BLEU和METEOR均为机器翻译的典型评测指标)。
从实验结果可以看出,本研究提出的基于方向建模机制的图神经网络方法在所有数据集上超越了基础模型和前人的研究,达到了目前联合方面提取和情感分析任务上最高的成绩。这充分表明了该研究提出的模型能够有效利用上下文信息来提升模型性能。
图2: 模型结构图
表2: 多语言机器翻译实验结果
表3: 多模态机器翻译实验结果
05
Improving Biomedical Named Entity Recognition with Syntactic Information
医疗领域命名实体识别一直是一个重要且充满挑战的任务。受限于领域内标注数据的匮乏,以及医疗领域和通常领域文本的巨大差异,在医疗领域内直接训练模型或把通常领域训练的模型应用于医疗领域,往往得不到理想的模型效果。因此,如何利用外部知识来帮助提升医疗领域命名实体识别模型的性能一直是一个研究的热点。自动获取的句法知识也是外部知识的一种,并被证明可以用于提升模型的性能。然而,之前的利用自动获取的句法知识的研究大都不加区别地利用这些句法知识(例如把句法知识的向量表示与词的向量表示串联),没能注意到这些自动获取的句法知识中存在可能影响模型性能的杂音。因此,我们提出基于键-值记忆神经网络(key-value memory networks,KVMN)的命名实体识别模型,对不同的自动获取的句法知识进行加权,使得模型能够加以区分地利用这些知识。模型的结构图如下图所示:

其中,句法知识由现存的句法分析工具得到。输入中每个词的上下文特征被映射为键,其所对应的句法知识被映射为值。在键-值记忆神经网络中,首先通过该词的向量表征和上下文特征(键嵌入),计算分配给对应句法知识(值嵌入)的权重,并依据该权重计算句法知识的加权和。该加权和被引入词的上限文表征中,以此来提升模型的性能。这样一来,重要的句法知识将会被分配较高的权重,而不重要的句法知识会被分配较低的权重,实现了对不同句法知识在特定语境下的区别利用。
我们在6个英文标准医疗领域命名实体数据集上测试模型的效果。这6个数据集分别为BC2GM,JNLPBA,BC5CDR-chemical,NCBI-disease,LINNAEUS和Species-800。实验结果以及前人模型的性能汇报在下表中。

我们的模型使用BioBERT作为基础模型,在所有数据集上超越前人使用BioBERT的结果,并在4个数据集(BC2GM,BC5CDR-chemical,NCBI-disease和Species-800)上达到目前最好的性能。对于JNLPBA和LINNAEUS数据集,由于基础的BioBERT模型与前人最好的模型差距较大,而使用句法知识无法弥补这种差距,所以我们的模型在这两个数据集上未能达到最好。考虑到我们的方法在其它数据集上均超过前人的方法,这个实验结果依然说明了我们提出的方法的有效性。
会议/期刊简介
COLING 2020
自然语言处理领域的顶级国际会议COLING(International Conference on Computational Linguistics)原定于2020年9月15日至18日在西班牙巴塞罗那举
办,为了应对日益恶化的全球冠状病毒大流行,会议组织方决定于2020年12月8日至13日在线举行。COLING是自然语言处理领域的顶级国际会议之一,每两年举办一次。
BMC Bioinformatics
英国BMC杂志社出版的在线SCI期刊,旨在发表高水准生物信息学领域的研究成果。该期刊主要发表生物数据建模、生物数据的分析和统计方法的开发、测试以及新应用等方面的文章。
教授简介

宋彦
博士(香港城市大学)
香港中文大学(深圳)数据科学学院副教授
美国华盛顿大学客座教授, 深圳市大数据研究院研究科学家
研究领域:自然语言处理,信息检索与提取,文本表征学习
宋彦教授于2020年加入香港中文大学(深圳) 任副教授一职。宋教授的研究方向包括自然语言处理、信息检索和抽取、文本表征学习等。其著作多次被国际权威组织或会议收录,如国际计算语言学协会(ACL),美国人工智能协会(AAAI),自然语言处理的经验方法会议(EMNLP),国际人工智能联合会议(IJCAI)等等。
除学术论文著作颇丰外,宋教授还拥有丰富的实践经历。他于2010年在微软亚洲研究院担任访问研究员,作为主要研究者构建了第一个大规模中文组合范畴句法树库及其相关句法分析器;于2011至2012年担任华盛顿大学访问学者;后于2013至2017年加入微软人工智能研究中心,成为“微软小冰”项目的创始人之一;在2017到2019年间,他加入腾讯人工智能实验室,作为自然语言理解(NLU)团队首席研究员,领导构建了腾讯AI Lab大规模中文词向量数据集(包括800万中文词),该数据集成为2018年十大人工智能开源数据集。目前,宋教授同时作为研究科学家,于深圳市大数据研究院进行医疗文本处理及分析等相关研究。
个人网站:https://clksong.github.io