【学术论坛】“人工智能安全与隐私”系列论坛第17期圆满落幕

“人工智能安全与隐私”系列论坛
第十七期圆满落幕
2022年10月18日,由深圳市大数据研究院与中国图象图形学学会联合主办,上海交通大学自动化系和香港中文大学(深圳)数据科学学院联合承办,深圳市模式分析与感知计算重点实验室(筹),深圳市电子学会和AI科技评论联合协办的“人工智能安全与隐私”系列论坛第十七期圆满落幕。此次论坛活动由香港中文大学(深圳)数据科学学院吴保元副教授主持,上海交通大学的黄晓霖副教授作为主讲嘉宾,以利用前向-反向的信息差异防御基于分数的查询攻击为主题作了精彩分享。
直播回放:
https://www.bilibili.com/video/BV1c8411e7hR?spm_id_from=333.337

本次论坛采用哔哩哔哩线上直播、AISP视频号和AI科技评论视频号同步直播的形式进行,于10月18日上午10:00正式开始。
讲座内容
黄教授在本次报告中首先整体介绍了深度视觉模型的对抗鲁棒性与黑盒攻击。接着黄教授详细讲解了他们在黑盒对抗攻击上的两个防御工作,主要是利用前向和后向在信息传播上的差异来防御基于分数的查询攻击。最后黄教授就数据噪声部分提出了深刻的讨论。
01 深度视觉模型的对抗鲁棒性与黑盒攻击
黄教授提到,根据攻击方对目标模型了解程度的高低,对抗攻击可分为白盒攻击,基于迁移性的灰盒攻击,基于查询分数的黑盒攻击,基于查询决策的黑盒攻击。

其中,白盒攻击衡量模型在最差情况下的性能表现,是最容易攻击但最难防御的。随着深度网络的高速发展,任意训练好的神经网络,均可轻易被基于梯度的白盒攻击攻破。将网络参数固定,用网络梯度优化输入以增大损失函数,即可高效生成对抗样本。
基于迁移性的灰盒攻击中,攻击者需要知道受害模型的训练数据。在同一数据上训练的两个模型有较高的梯度相似性,所以攻击者可以训练一个代理模型,对其实施白盒攻击。那么所产生的对抗样本,将很容易迁移到未知的受害模型上。这提示我们保护数据对保护网络的重要性。
基于查询分数的黑盒攻击,也是我们关注的重点,其仅仅根据模型的输出信息,攻击未知的黑盒模型。相比其他攻击,其能用真实场景下可得到的信息,通过数十次访问模型输出,就可有效降低模型的精度。其真实性与高效性对真实系统中部署的神经网络产生了极大的威胁,但是现有的防御都不能很好的预防此类攻击,且对网络的精度/速度有显著影响。
基于查询决策的黑盒攻击,尽管能根据最少的信息(模型的决策结果)攻击,但其效率显著低于基于查询分数的黑盒攻击,暂时不能对应用中的网络产生威胁。

02 对攻击者的攻击:后处理防御基于查询分数的黑盒攻击对抗攻击最新进展介绍
现有对基于查询分数的黑盒攻击(score-based attacks, SQAs)的防御包括对抗训练,预处理,动态推理。对抗训练改变了模型,让模型关注到对抗样本,但也显著影响了正常样本的精度,并需要极大的训练开销。预处理方法降低了输入的信噪比,不可避免地伤害模型性能。动态推理虽不影响决策,但其需要数倍的推理时间,在真实场景中不可行。

鉴于此,我们提出首个后处理防御。因为在黑盒场景下,无论是对输入还是模型的更高,在攻击者视角,得到的都是输出的变化。那么直接对输出的更改,将是更高效的方式。后处理防御自带以下优点:(1)有效防御SQA;(2)不影响模型精度,甚至还能使模型的置信度更加准确;(3)是一种轻量化,即插即用的方法。
可是,在真实的黑盒场景中,攻击者和用户得到的,是相同的模型输出信息,如何在服务用户的同时,防御潜在攻击者?

我们的核心思路是,测试阶段主动误导攻击者进入错误的攻击方向,也就是对攻击者发动攻击(adversarial attack on attackers, AAA)。若我们将模型的(未经防御的)蓝色损失函数曲线,轻微扰动至橙色或绿色的曲线,那么当攻击者贪婪地沿梯度下降方向搜索对抗样本时,将会被愚弄至错误的攻击方向。

我们的方法AAA,最小程度地扰动输出,却最大限度保留精度(Acc ↑),提升置信度的准确度(expected calibration error, ECE ↓)。AAA相比现有方法,能有效地防止真实场景攻击下的精度损失。同时,AAA能简单地与现有防御结合,如对抗训练。目前,此项工作(https://mp.weixin.qq.com/s/2v_TXer1ga0giJpzzsQJXA),经过rebuttal的极限提分(2 4 4 5 -> 7 7 4 7),已被NeurIPS 2022接收

03 梯度一致化:隐藏梯度防御基于查询分数的黑盒攻击
我们提出的另一种防御SQA的方法,是将梯度隐藏起来,这样攻击者也无法沿着正确的攻击方向攻击。对于每次推理,我们选择在特征层上,动态优化一个网络模块,使一个batch内的样本梯度一致化,以扭曲后向信息。


对于不同的输入样本,普通特征对应的特征梯度自然不同。而这种差异包含在查询数据的输出中,并被攻击者捕获,以生成每个样本的特定攻击方向。一旦这些特征梯度被统一起来,它们的特定攻击信息就会被扭曲,攻击者只能挖掘出一个universal adversarial direction,这要弱得多。通过这种方式,我们模型输出中包含的后向信息被扭曲,并导致攻击者的攻击方向较弱。

为了同时实现轻微的前向修改和显著的后向梯度失真,我们设计了一个简单的即插即用模块,用于执行Hadamard内积,并在每个batch数据来的时候,从随机初始化开始优化其参数。我们的方法显着提高了网络在SQA 下的鲁棒性,而不会牺牲模型精度,并且对网络输出的改动很小。
问答阶段
01 黑盒防御时,可否加入对攻击者意图的思考?
在真实攻防场景下,攻击者的意图很简单,即是让模型错分,而我们主动对攻击者的攻击就是一种专门针对其意图的防御。当然,区分攻击者和大部分正常用户是很难的,因为这需要储存所有查询信息,在真实场景下难以实现。或许可以采用自适应的策略,比如引入随机性,或者对模型动态优化。这种情况下对于同一个样本,每次输出不一样,会对攻击者产生很大的迷惑。
02 经典鲁棒学习中优美的理论对于目前的对抗训练有何启发?
二者关心的点不太一样。第一个矛盾点在于对抗样本比较难采样得到(测度很小),第二在于测度小说明对抗样本是低维的,所以统计上分析不到。我们可能需要关注对抗样本的维度组成,这样就可以从降维角度收集并分析对抗样本。
03 关于测度和对抗样本的新颖角度,目前有相关的工作吗?
马毅老师在低维学习的最新工作有一些相关的内容。近期吴保元老师也有用flow-based model学习对抗噪声分布的工作,但是尚不清楚拟合出来的分布有什么性质。这或许是未来可以深入探究的方向。
04 对抗训练在源头上有没有什么更本质的理论?
对抗训练可能本质上还是在做数据拟合,比如用更大的模型拟合clean和adversarial两种分布的数据。其他比较新颖的方法,性能上暂时难以与之匹敌。白盒攻击更多是想启发一些新方向,但对抗训练可能反而会阻碍这些的发展。值得注意的是,对抗训练是静态防御策略,而黑盒对抗防御是动态防御策略,二者可以互补共同提升模型在实际场景下的安全性。
以上就是本次论坛的全部内容。
欢迎加入我们
招聘信息
我们正积极寻找人工智能安全与隐私方向的全职研究科学家、数据工程师、访问学生,以及博士后、2023年秋入学的博士研究生(人工智能安全与隐私、计算机视觉、机器学习等方向)。有关职位的更多信息,请单击深圳市大数据研究院面向全球招聘多名博士后、博士生、研究科学家,数据工程师,访问学生!以获取更多信息。
人工智能安全与隐私论坛
周期
每月一期,学术讲座
B站直播地址
http://live.bilibili.com/22947067
论坛网站
论坛视频号
学术讲座主讲嘉宾
-邀请制
-提名制
-推荐制
公众讨论群