喜讯 | 港中大(深圳)数据科学学院师生在数据库和数据挖掘相关顶会发表论文12篇
香港中文大学(深圳)数据科学学院的方一向教授、马晨昊教授及其团队,包括3位本科生、1位硕士生、2位博士生和2位博士后,在2024年的顶级数据库及数据挖掘会议上共发表了12篇论文。学院的学生们持续展现出卓越的科研潜力与实力,本科生也积极参与科研活动。发表论文具体如下:
▪️ International Conference on Very Large Databases (VLDB) 2024 发表4篇;
▪️ ACM International Conference on Management of Data (SIGMOD) 2024 发表4篇;
▪️ ACM Knowledge Discovery and Data Mining (KDD) 2024 发表1篇;
▪️ AAAI Conference on Artificial Intelligence (AAAI) 2024 发表3篇;
其中,SIGMOD、VLDB 是数据库领域排名最高的两大顶级学术会议,它们收录了全球研究机构以及科技企业在数据库领域最为前沿、顶级的研究成果;而 KDD 为数据挖掘领域历史最为悠久、规模最大的顶级学术会议;AAAI是人工智能领域中历史最悠久、涵盖内容最广泛的的国际顶级学术会议之一。
会议介绍
VLDB简介
VLDB(International Conference on Very Large Data Bases)是数据库研究领域历史悠久的国际会议。VLDB是CCF A类,Core Conference Ranking A*类会议。VLDB是面向数据管理、可扩展数据科学和数据库研究人员、供应商、从业者、应用程序开发人员和用户的重要年度国际论坛,目前已成为数据库管理领域最杰出的研究和发展成果的实时传播场所。VLDB 2024会议于2024年8月26-30日在中国广州召开。
SIGMOD简介
ACM SIGMOD(Association for Computing Machinery's Special Interest Group on Management of Data),是数据库领域具有最高学术地位的国际性学术会议,位列数据库方向的三大顶级会议之首。SIGMOD为CCF 推荐A类会议,Core Conference Ranking推荐A*类会议,H5 index为68,Impace Score为12.90。SIGMOD的目的是在全球范围内为数据库领域的研究者、开发者以及用户提供一个探索最新学术思想和研究方法、交流开发技巧、工具以及经验的平台,引导和促进数据库学科的发展。SIGMOD 2024会议于2024年6月9-15日在智利圣地亚哥召开。
KDD简介
ACM SIGKDD (Association for Computing Machinery's Special Interest Group on Knowledge Discovery and Data Mining),简称KDD,是数据挖掘领域最重要的国际会议,CCF A类,Core Conference Ranking A*类会议,H5指数114,Impact Score 16.20,在全球范围内享有盛誉。该会议一直被认为是难度最高,工作量最大,审稿质量最好的数据挖掘领域会议之一。KDD 2024于2024年8月25-29日在西班牙巴塞罗那召开。
AAAI简介
AAAI(AAAI Conference on Artificial Intelligence)由国际先进人工智能协会主办,是人工智能领域的顶级国际学术会议之一。AAAI 2024会议于2024年2月20日至27日在加拿大温哥华举行。
学生作者简介
本科生
郭青硕
2021级本科生
计算机科学与技术专业
指导老师:方一向
忙秋阳
2021级本科生
计算机科学与技术专业
指导老师:马晨昊
侯天赐
2021级本科生
计算机科学与技术专业
指导老师:方一向
硕士生
冷逸成
2021级硕士生
数据科学理学硕士专业
指导老师:方一向
杨乔媛
2022级硕士生
计算机与信息工程专业
指导老师:方一向
博士生
林春旭
2024级博士生
计算机与信息工程专业
指导老师:方一向
周盈利
2022级博士生
计算机科学专业
指导老师:方一向
博士后
罗文晟
博士后
研究方向:大图数据管理与挖掘
合作导师:方一向
曾源远
博士后
研究方向:大图数据管理与挖掘
合作导师:马晨昊、方一向
指导教授简介
方一向
副教授
香港大学博士
曾获2021 ACM SIGMOD Research Highlight Award、SIGMOD 2020最佳论文之一(4/458),CCF-B类期刊IPM编委,曾获CCF-华为胡杨林基金资助
研究领域:大数据管理、挖掘、人工智能
个人简介:方一向博士主要研究大数据管理、挖掘、人工智能等相关课题,具体包括面向大规模图数据的数据管理、数据挖掘、图神经网络、表达学习等,以及面向大规模空间数据的学习型索引构建、关键字搜索、地理社交网络挖掘、轨迹查询等。他已在数据库、数据挖掘、人工智能等领域的国际顶级会议/期刊(如VLDB、SIGMOD、ICDE、NeurIPS、WWW、AAAI、IJCAI、TODS、VLDBJ、TKDE等)上累计发表论文80余篇,包括中国计算机学会认定的A类论文(即CCF-A)50余篇,第一/通讯作者CCF-A论文20多篇。其中一项代表性研究成果的论文被评为SIGMOD 2020会议的最佳论文之一(~4/458),并荣获2021 ACM SIGMOD Research Highlight Award。方博士目前担任国际知名期刊《Information Processing & Management》(CCF-B类期刊)的编委。他曾是多个数据库和数据挖掘领域顶级会议(例如PVLDB、ICDE、KDD、AAAI、IJCAI等)的程序委员会成员以及顶级期刊(例如TKDE、VLDBJ等)的审稿人。
马晨昊
助理教授
香港大学博士
曾任多个顶级期刊(如 TKDE 和 VLDBJ)的审稿人,曾获SIGMOD 2020会议的最佳论文之一(4/458)、2021 ACM SIGMOD Research Highlight奖。
研究领域:大规模数据管理和数据挖掘
个人简介:马晨昊是香港中文大学(深圳)数据科学学院助理教授,博士毕业于香港大学,本科毕业于山东大学。主要研究方向为大规模图数据的查询、挖掘与分析。已在国际数据库和数据挖掘领域的重要期刊/会议(如 SIGMOD、VLDB、TODS、VLDBJ、ICDE、WWW、AAAI 等)发表论文 30 余篇,其中一篇代表性研究成果的论文被评为SIGMOD 2020会议的四篇最佳论文之一(~4/458),并荣获2021 ACM SIGMOD Research Highlight Award;主持国家级项目 1 项,省部级项目 1 项;担任顶级会议的程序委员会委员(如 VLDB、ICDE、KDD、WWW 等)、顶级期刊(如 VLDBJ、TKDE 等)的审稿人。
论文介绍
VLDB 2024论文4篇
1. Efficient Parallel D-core Decomposition at Scale
作者:Wensheng Luo, Yixiang Fang*, Chunxu Lin, Yingli Zhou
论文摘要:有向图在社交网络、Web网络、通信网络等众多领域扮演着重要角色。D-core,也称为(k, l)-core,是有向图中的一种常用的稠密子图,其中每个节点的入度至少为k,出度至少为l。D-core分解,即计算有向图中所有可能的k和l值对应的D-cores,被广泛应用在社交网络分析、社区检测、图形可视化等领域。然而,现有的D-core分解算法在处理大规模图时面临效率低、可扩展性弱的问题。例如,基于串行剥离的算法受限于单核处理能力,而基于skyline核心度的方法则具有较高的时间复杂度。为了克服这些限制,本文提出了一种基于多核CPU的高效D-core并行分解算法。首先,引入了一种隐式的逐层节点移除策略,该策略在提升并行性的同时,保持了与传统串行算法相近的时间复杂度。其次,还提出了一种更高效的算法,即通过引入D-shell的概念来减少D-core分解的冗余计算。在多个真实世界的大规模图上的实验结果表明,我们提出的算法在效率和可扩展性方面都获得了显著提升。特别是在32线程下,新提出的算法比现有最先进并行分解算法快了高达两个数量级。
有向图及D-cores示例
链接:https://dl.acm.org/doi/10.14778/3675034.3675054
2. MOSER: Scalable Network Motif Discovery using Serial Test
作者:Mohammad Matin Najafi, Chenhao Ma, Xiaodong Li, Laks V.S. Lakshmanan, Reynold Cheng
论文摘要:图模式(即Motif)是大规模网络的基本构成单元。近来,基于图模式的数据分析在网络聚类、节点排序、链接预测等任务中获得了广泛应用。这些任务需要在早期阶段进行图模式挖掘(NMD)以识别网络中的图模式。然而,现有的NMD解决方案面临两个缺点:(1)生成的样本质量缺乏理论保证;(2)算法效率低,难以适用于大规模图。为了解决上述问题,我们提出了一个名为MOSER(使用串行测试的模块发现)的新颖解决方案。与现有解决方案不同,MOSER利用了一种称为串行测试的显著性检验方法,并提出了两种快速增量子图计数算法,使其能够处理更大规模的图。大量实验结果表明,MOSER比现有最新算法快高达5个数量级,并且MOSER发现的图模式有助于解决链接预测等下游任务。
图模式挖掘流程示例
链接:https://dl.acm.org/doi/10.14778/3632093.3632118
3. Efficient Maximal Motif-Clique Enumeration over Large Heterogeneous Information Networks
作者:Yingli Zhou, Yixiang Fang*, Chenhao Ma, Tianci Hou, Xin Huang
论文摘要:在异质图中,模式团(即Motif-Clique)是一种基于给定模式(即一个小的连通图)的完全团,可以表达模式中节点之间的关系。基于异质图的极大模式团在社区发现、推荐系统和生物网络分析中得到了广泛的应用。现有的极大模式团枚举算法需要探索它们所有可能的子图,并在每个递归步骤中都检查是否枚举了极大模式团,从而导致计算效率非常低下。为了提高枚举效率,本文提出了一种针对大规模异质图的高效极大模式团的枚举算法。我们首先引入了一个基于节点顺序的框架来避免重复枚举,从而显著降低了计算时间复杂度。然后,我们提出了一种基于枢轴的剪枝策略,大大减少了搜索空间。此外,我们还优化了识别候选集和定位包含极大模式团的子图的过程。在五个真实场景的异质图上进行的实验表明,我们新提出的算法取得了非常高的效率,并且比已有最佳算法快了高达三个数量级。
极大模式团枚举的示意图
链接:https://www.vldb.org/pvldb/vol17/p2946-zhou.pdf
4. Distributed Shortest Distance Labeling on Large-Scale Graphs
作者:Yuanyuan Zeng, Chenhao Ma*, Yixiang Fang
论文摘要:距离标注方法被广泛用于提高最短距离查询的性能。随着数据图数据量的爆炸式增长,单机难以同时满足计算能力和存储能力的需求,迫切需要高效的分布式方法。由于图分布在不同机器上,在分布式环境下部署现有的集中式距离标记方法时,不可避免地会在不同机器之间频繁交换消息,从而产生严重的通信成本,削弱了可扩展性。为了解决这一问题,本文设计了一种基于跳数的分布式索引DH-Index,该索引基于新提出的边界图结构,并将基于索引的每个连通顶点对的跳数限制在4跳以内。此外,本文还提出了一种分层索引算法,以加快索引的构建,降低通信开销。在此基础上,提出了一种基于DH-Index的双向查询策略,有效地解决了基于DH-Index的查询任务。在多个真实图上的综合实验结果表明,DH-Index在索引时间和查询性能上分别达到65.5倍和3个数量级的加速,并且在存储空间、通信开销和可扩展性方面表现出优越的性能。
分布式环境下的分区示意图与边界示意图
链接:https://www.vldb.org/pvldb/vol17/p2641-zeng.pdf
SIGMOD 2024发表论文4篇
1. On Efficient Large Sparse Matrix Chain Multiplication
作者:Chunxu Lin, Wensheng Luo, Yixiang Fang*, Chenhao Ma, Xilin Liu, Yuchi Ma
注:Chunxu Lin, Wensheng Luo为共同贡献者。
论文摘要:稀疏矩阵连乘,作为一种重要的矩阵运算,旨在高效地执行多个稀疏矩阵相乘,已在网络分析、数据挖掘、机器学习等领域获得了广泛的实际应用。稀疏矩阵连乘的效率很大程度上取决于矩阵相乘的顺序,而执行顺序的确定依赖于对中间结果矩阵的稀疏度的准确估计。然而,现有的矩阵稀疏度估计器在处理大型稀疏矩阵时面临着准确度不高、运行时间长等问题。因此,本文提出了一种新颖的稀疏度估计器,即基于行稀疏度的估计器,通过利用矩阵结构信息来实现高效、准确、且具有理论保证的稀疏度估计。基于该估计器,本文还提出了一种确定矩阵相乘顺序的高效算法,以及基于多个CPU线程的稀疏矩阵连乘的高效并行算法。真实数据集上的实验结果证明了新提出的稀疏矩阵连乘算法比现有最佳算法快高达三个数量级。
3个稀疏矩阵连乘的示例(每个矩阵仅显示非零元素)
链接:https://dl.acm.org/doi/10.1145/3654959
2. Efficient Core Maintenance in Large Bipartite Graphs
作者:Wensheng Luo, Qiaoyuan Yang, Yixiang Fang*, Xu Zhou
论文摘要:(α, β)-core(又称bi-core)是二部图中重要的稠密子图模型,在商品推荐、欺诈者检测、社区搜索等场景中有着广泛的应用。这些应用场景中,二部图通常数据规模大且频繁更新,其中顶点和边经常发生增加和删除,导致(α, β)-core的更新代价非常高。最近,一些工作试图研究如何在动态二部图中维护(α, β)-core,但由于图的大规模数据量和频繁的更新,导致它们难以高效的更新(α, β)-core。为缓解该问题,本文提出了高效的(α, β)-core维护算法。首先为二部图的节点引入一个双核数(bi-core number)的新概念。基于这一概念,该文从理论上分析了边的插入和删除对节点双核数变化的影响,从而缩小(α, β)-core的更新范围,大幅减少计算冗余。之后,基于上述理论分析结果,还提出了分别处理边插入和边删除的高效(α, β)-core维护算法。真实数据集和合成数据集上的实验结果表明新提出的算法比最先进的方法快高达两个数量级。
二部图中(α, β)-core动态更新示例
链接:https://dl.acm.org/doi/10.1145/3617329
3. A Counting-based Approach for Efficient 𝑘-Clique Densest Subgraph Discovery
作者:Yingli Zhou, Qingshuo Guo, Yixiang Fang*, Chenhao Ma
论文摘要:作为图挖掘领域的经典问题之一,k-clique最密子图问题旨在求解大规模图中k-clique密度最大的子图,已被广泛应用在社交网络分析、异常行为检测、生物网络分析等多个领域。在这些应用场景中,图的数据规模往往极为庞大,其中可能包含数以亿计的k-cliques,导致传统的基于k-clique枚举的算法难以快速地得到近似或精确解。为了解决这一挑战,本文在Frank-Wolfe优化算法的基础上,提出了一种新颖的算法,即通过利用k-clique计数而非k-clique枚举来实现k-clique最密子图的挖掘。文章首先对现有的凸优化算法进行重构,使得权重更新可以通过k-clique计数来实现,从而避免了k-clique的枚举。由于k-clique计数的效率要远远高于k-clique枚举的效率,因此通过k-clique计数可以大幅提升k-clique最密子图的求解效率。在真实世界数据集上的实验结果表明,与现有最先进的算法相比,新提出的算法在相同近似度下获得了高达七个数量级的效率提升。
k-clique最密子图示例(例如,当k=3,图中阴影区域为3-clique最密子图)
链接:https://dl.acm.org/doi/10.1145/3654922
4. Efficient Distributed Hop-Constrained Path Enumeration on Large-Scale Graphs
作者:Yuanyuan Zeng,Yixiang Fang*,Chenhao Ma*, Xu Zhou, Kenli Li
论文摘要:基于跳跃约束的简单路径的枚举是图领域的基本问题。考虑到在大规模图上的搜索空间极大,单台机器很难同时满足效率和内存的要求,因此迫切需要高效的分布式方法。在实际应用中,直接将集中式方法扩展到分布式环境中会产生大量的中间结果,从而造成内存危机,继而削弱查询性能。现有的HybridEnum算法设计了一个混合搜索范式来枚举简单的路径。然而,它对冗余顶点进行了大量的探索,从而导致查询性能较差。因此,我们设计了一种分布式方法DistriEnum来优化查询性能,具有较好的可伸缩性和内存开销。DistriEnum采用图约简策略剔除冗余顶点,并设计了一个核心搜索范式来减少共享子路径的遍历和中间结果的存储。此外,DistriEnum还配备了任务划分策略,从理论上实现了工作负载平衡。最后,设计了一种顶点迁移策略,以减少枚举过程中的通信开销。在多个真实图上的综合实验结果表明,DistriEnum在查询性能上比HybridEnum提高了3个数量级,并且在可伸缩性、通信成本和内存消耗方面表现出优越的性能。
链接:https://dl.acm.org/doi/10.1145/3639277
KDD 2024发表论文1篇
1. Scalable Algorithm for Finding Balanced Subgraphs with Tolerance in Signed Networks
作者:Jingbang Chen, Qiuyang Mang, Hangrui Zhou, Richard Peng, Yu Gao, Chenhao Ma*
注:Jingbang Chen、Qiuyang Mang 和 Hangrui Zhou 为共同贡献者。
论文摘要:符号网络广泛分布于社交网络、Web网络等领域,其中节点之间的边被标记为正和负,用于表示社交关系中的友善和敌对关系。作为符号网络中最典型的一种子图,平衡子图一般包含两个节点集合,每个集合内部的边都被标记为正,两个集合之间的边都被标记为负,常被用来挖掘大规模图中的极化对立社群。然而,传统的平衡子图定义受限于完美划分的限制,不能准确的适应真实的应用场景。为此,我们提出了一种新型的广义平衡子图模型,通过引入一个容忍度参数来放宽子图平衡度的限制。针对这个NP-Hard问题,我们提出了一个基于局部区域的启发式算法,在低时间复杂度和高质量结果之间取得了更好的平衡。大量的实验验证了其卓越性能,在传统和广义情境下均实现了高达100倍的加速。
平衡子图示例(其中,节点的两种颜色代表两个不同节点集合,实线和虚线代表正边和负边)
AAAI 2024发表论文3篇
1. Deep Structural Knowledge Exploitation and Synergy for Estimating Node Importance Value on Heterogeneous Information Networks
作者:Yankai Chen, Yixiang Fang*, Qiongyan Wang, Xin Cao, Irwin King
论文摘要:节点重要性估计问题在传统同质图上获得了广泛研究。近年来,为了处理异质图,一些研究尝试采用图神经模型来自动学习不同的信息源,从而计算出节点的重要性值。然而,这些方法的主要问题是它们的自适应学习过程可能导致信息探索不足,从而将问题转换为性能不佳且可解释性较差的孤立节点值预测问题。在本文中,我们提出了一个新颖的学习框架:SKES。与以前的自动学习设计不同,SKES 利用异质图结构知识来丰富节点表示的信息量。基于足够无信息的参考点,SKES 通过量化其与参考的差异来估计任何输入节点的重要性值。这建立了一个可解释的节点重要性计算范式。此外,SKES 深入研究了“具有相似特征的节点容易具有相似的重要性值”的现象,同时保证任何不同节点之间的这种信息量差异都有序地反映在其相关潜在特征的嵌入距离中。本文在三个广泛评估的基准上进行的大量实验,结果表明 SKES的性能优于几种近期的其他异质图节点重要性估计方法。
异质图节点重要性值估计示意图
链接:https://ojs.aaai.org/index.php/AAAI/article/view/28671
2. Removing Interference and Recovering Content Imaginatively for Visible Watermark Removal
作者:Yicheng Leng, Chaowei Fang, Gen Li, Yixiang Fang, Guanbin Li
论文摘要:可见水印虽然有助于保护图像版权,但经常扭曲底层内容,使场景解释和图像编辑等任务复杂化。可见水印去除旨在消除水印的干扰,恢复背景内容。然而,现有的方法通常在单个分支内实现水印分量去除和背景恢复任务,导致预测中存在残留水印,忽略了水印严重遮挡背景的情况。为了解决这些局限性,本研究引入了RIRCI框架。RIRCI是一种两阶段的方法:初始阶段侧重于识别和分离水印成分,而后续阶段侧重于背景内容恢复。为了实现精细的背景恢复,我们提出的模型采用了一种双路径网络,能够充分探索半透明水印下的内在背景信息和未受影响区域的外围上下文信息。此外,在多层感知器和双向特征变换的基础上构建了一个全局和局部上下文交互模块,用于在背景恢复阶段进行全面的表示建模。我们的方法的有效性在两个大规模数据集上得到了实证验证,我们的研究结果表明,与现有的水印去除技术相比,我们的方法具有显著的优势。
本文所提出模型在去除低、中、高不透明度水印方面的能力
链接:https://ojs.aaai.org/index.php/AAAI/article/view/28080
3. Influential Exemplar Replay for Incremental Learning in Recommender Systems
作者:Xinni Zhang, Yankai Chen, Chenhao Ma, Yixiang Fang, Irwin King
论文摘要:个性化推荐系统因其信息过滤的有效性已广泛应用。传统模型通常在静态环境中进行知识挖掘,以重建历史数据。然而,现实世界环境动态性质不断变化,使得现有模型知识不足以适应新兴趋势,导致推荐性能显著下降。考虑到重新训练模型的高昂成本,研究推荐系统的增量学习以应对不断增长的数据显得尤为重要。在本文中,我们提出了一个有效的模型无关推荐框架:INFER。INFER使得推荐模型能维护早期学到的知识,例如用户的长期偏好,同时也能适应用户新的行为模式所表现出的变化趋势。具体来说,我们首先提出了一个基础版本,该版本着重于识别最具代表性的数据样本,以有效巩固早期知识。随后,我们提出一个优化版本,旨在优化基础版本的计算开销。本文在四种典型的基础模型、两个经典推荐任务和四个广泛使用的基准测试上进行的广泛实验,结果表明INFER的有效性,且具有扩展到多个增量推荐模型的兼容性。
影响力样本检索示意图
港中大(深圳)在数据库研究领域全球领先
根据CS Rankings最新发布的数据,自数据科学学院2020年成立以来,港中大(深圳)在数据库研究领域位列中国排名第8位,亚洲排名第13位,世界排名第45位。