• 学院内网
搜索
返回主站
English
  • 学院概况
    • 概览
    • 学科方向
    • 院长致辞
    • 学院刊物
      • 宣传手册
      • 季度简报
      • 年报
    • 常见问题
    • 联系我们
  • 项目设置
    • 简介
    • 本科生
      • 数据科学与大数据技术
      • 统计学
      • 计算机科学与技术
      • 金融工程
      • 2+2双主修
        • 跨学科数据分析 + X 双主修课程
        • 航天科学与地球信息学 + X 双主修课程
      • 哥伦比亚大学工程学院3+2直硕项目(哥大班)
    • 硕士研究生
      • 数据科学理学硕士
      • 金融工程理学硕士(全日/兼读制)
      • 人工智能与机器人理学硕士
      • 计算机科学理学硕士
      • 统计学理学硕士
      • 生物信息学理学硕士
    • 博士研究生(哲学硕士)
      • 数据科学哲学硕士-博士
      • 计算机科学哲学硕士-博士
  • 师资力量
    • 教职人员
    • 荣休教授
    • 兼职人员
    • 科研/访问人员
    • “数说名师”教授访谈
  • SDS学生
    • 本科生学业咨询系统
    • 博士生
    • 学生访谈
  • 新闻与公示
    • 新闻
    • 公示
  • 学院活动
    • 学术会议
      • DDTOR 2025
      • CSAMSE 2023
      • RMTA 2023
      • ICASSP 2022
      • Mostly OM 2019
    • 学术活动
    • 数据科学名家讲坛
    • 其他活动
  • 学术科研
  • 人才招聘
    • 教职人员
    • 博士后
  • 职业发展
    • 升学就业
    • 国际交流
  • 学院概况
    • 概览
    • 学科方向
    • 院长致辞
    • 学院刊物
      • 宣传手册
      • 季度简报
      • 年报
    • 常见问题
    • 联系我们
  • 项目设置
    • 简介
    • 本科生
      • 数据科学与大数据技术
      • 统计学
      • 计算机科学与技术
      • 金融工程
      • 2+2双主修
        • 跨学科数据分析 + X 双主修课程
        • 航天科学与地球信息学 + X 双主修课程
      • 哥伦比亚大学工程学院3+2直硕项目(哥大班)
    • 硕士研究生
      • 数据科学理学硕士
      • 金融工程理学硕士(全日/兼读制)
      • 人工智能与机器人理学硕士
      • 计算机科学理学硕士
      • 统计学理学硕士
      • 生物信息学理学硕士
    • 博士研究生(哲学硕士)
      • 数据科学哲学硕士-博士
      • 计算机科学哲学硕士-博士
  • 师资力量
    • 教职人员
    • 荣休教授
    • 兼职人员
    • 科研/访问人员
    • “数说名师”教授访谈
  • SDS学生
    • 本科生学业咨询系统
    • 博士生
    • 学生访谈
  • 新闻与公示
    • 新闻
    • 公示
  • 学院活动
    • 学术会议
      • DDTOR 2025
      • CSAMSE 2023
      • RMTA 2023
      • ICASSP 2022
      • Mostly OM 2019
    • 学术活动
    • 数据科学名家讲坛
    • 其他活动
  • 学术科研
  • 人才招聘
    • 教职人员
    • 博士后
  • 职业发展
    • 升学就业
    • 国际交流
  • 学院内网
返回主站
English

面包屑

  • 首页
  • 学院活动
  • 学术活动
  • 【学术论坛】 “人工智能安全与隐私”系列论坛第15期圆满落幕

【学术论坛】 “人工智能安全与隐私”系列论坛第15期圆满落幕

2022-07-15 学术活动

 *文章转载自AISP Seminar微信公众号

 

“人工智能安全与隐私”系列论坛第十五期圆满落幕

 

2022年7月15日,由深圳市大数据研究院与中国图象图形学学会联合主办,腾讯研究院与深圳数据交易有限公司承办,开放群岛(Open Islands)开源社区、港中大深圳数据科学学院、深圳数据经济研究院联合协办的“人工智能安全与隐私”系列论坛第十五期圆满落下帷幕。此次论坛活动由香港中文大学(深圳)数据科学学院吴保元副教授主持,杜克大学电气与计算机工程系助理教授Neil Gong 、腾讯杰出科学家、腾讯TEG数据平台部广告AI负责人刘威博士、腾讯研究院高级研究员曹建峰博士作为主讲嘉宾,分别以机器学习中的知识产权保护:数据、超参数和模型、腾讯AI大模型和生成性AI的机遇与挑战为主题作了精彩分享。此次论坛活动还邀请到了北鹏前沿科技法律研究院理事、副院长王青兰博士、西南政法大学民商法学院副教授郑志峰与前几位嘉宾共同进行圆桌研讨。

 

 

直播回放:

https://www.bilibili.com/video/BV1me4y1R71H?spm_id_from=333.999.0.0

 

本次论坛采用腾讯会议以及哔哩哔哩线上直播的形式进行,于7月15日上午9:00正式拉开帷幕。

 

 

讲座内容

01 机器学习中的知识产权保护:数据、超参数和模型

 

首先由Neil Gong教授带来有关机器学习中的隐私保护相关问题的主题分享。Gong教授首先提到,目前人工智能在社会各个领域飞速发展,人工智能模型的规模也日趋增大,需要耗费海量的数据、计算力以及人力来得到一个预训练模型,因此模型的产权知识保护开始受到越来越多的关注。
 

接下来,Gong教授为我们展示了机器学习中训练和使用模型的通用流程,主要可以分为训练阶段(Training phase)和部署阶段(Deployment phase).

Gong教授提出,模型知识产权保护需要解决三个关键问题:1. 攻击者是如何窃取来自模型拥有者的训练数据、算法、超参数和模型参数的?2. 模型拥有者应该怎样防御这样的攻击?3. 数据所有者如何审核模型训练中未经授权的数据使用?

Gong教授针对这三个问题依次做了解答:首先,他介绍了一些Stealing attacks, 包括如何窃取训练数据、如何窃取超参数、如何窃取模型;接着,他介绍了一篇有关如何通过指纹分类边界保护模型 IP的工作;最后,他介绍了对于一个数据拥有者来说,如何审核未授权的数据使用。

Gong教授重点介绍了如何窃取机器学习中的超参数,用户提供训练数据,首先用户将上传自己所拥有的训练数据给MLaaS服务商,而MLaaS服务商为用户训练模型,然后服务商会为用户提供Prediction API,用户使用该API并为MLaaS服务商提供测试数据。

一些用户希望能够窃取模型的超参数,例如可能出于经济成本的目的,这些用户可能拥有的信息是训练数据和模型算法的种类,包括损失函数和正则化项以及一些模型参数。Gong教授注意到,模型参数是目标函数的最小值点,因此目标函数的梯度在这些模型参数对应点处应为0. 基于此,Gong教授分享了如何窃取模型超参数的框架,该框架能够取得良好的结果。

接下来,Gong教授分享了如何在Machine Learning as a Service(MLaaS)上通过窃取模型超参数达到节约经济成本目的的方法。这样的方法是一种既能节约成本,同时还能使模型保持较高准确率的方法。

总结来说,这是第一篇研究模型超参数窃取和保护的工作,通过这样的方法,超参数可以被准确地推断出来,同时也给MLaaS 的设计带来了新的思考。

接下来,Gong教授介绍了如何通过指纹分类边界保护模型 IP的工作。机器学习模型可以被窃取,例如窃取者通过不间断访问模型、给模型投毒、以及利用模型自身缺陷的方式窃取。现存较为常用的方式是给模型注入水印。

但这样的方法也存在一些局限性,例如会不可避免地改变模型的训练过程。而Gong教授团队提出的观点是使用指纹模型,主要思想是利用模型的分类边界作为模型的指纹,具体来说,提取出决策边界附近的数据点来作为模型的指纹,并以此作为判断模型是否被窃取的依据。

这个思想实现的关键是如何提取出决策边界附近的样本点,Gong教授分享了基于优化的算法来实现。

 

最后Gong教授分享了如何审核未经授权的数据使用。现实生活中人们可能没有意识到自己的数据在没有经过自己授权的情况下,被各类人工智能服务商用作了机器学习模型的训练数据,由此训练出的模型被用作各种下游任务中。

在Gong教授的工作中,基于下面的观察,提出了如何判断一张未经标注的图片的Membership Status.(Member i.e. unauthorized use / Non-member)

在这个流程中可以发现,Inference classifier是关键,Gong教授通过shadow traininf的方式在构建这一层classifier.

Shadow training 的数据集被平均分为两组,一组是shadow member set, 另一组是shadow non-member set. 首先利用shadow member set来训练shadow encoder, 也许会使用与target encoder不同的训练算法。在已有shadow encoder的基础上,接下来将构建inference classifier 的训练数据集。

总结来说,数据审核对于预训练encoder来说已经愈发紧迫,同时augmenterd views之间的特征相似度可以作为审核预训练encoder中未经授权数据使用的依据。

 

02 腾讯大模型

 

接下来进入到论坛第二个分享,由腾讯杰出科学家、腾讯TEG数据平台广告AI负责人刘威博士带来“腾讯AI大模型”方面的最新进展。

首先刘威博士浓缩了一下AI五个重要发展阶段:对于深度学习来说总结出三个非常重要的关键点:2011年,DBN-DNN,用来做语音识别的,是语音识别第一个非常成功的深度学习模型,2012年是第一个非常成功的卷积神经网AlexNet,到2016年的ResNet,现在学习界、工业界经常频繁在用,包括OpenAI、Google DeepMind也在很多模型里都用到ResNet这个结构。

Big Foundation Models,有三个重要时间点:1.BERT, 2019;2.T5, 2019;3.GPT-3, 2020。GPT-3是语言生成模型;T5是多功能、多任务,又可以生成语言,又可以理解语言;BERT主要是语言理解。目前我们处在Big Foundation Models,对于工业界来说,国内、国外公司都在研究Big Foundation Models.

Big Foundation Models目前主要分成两个:一个称之为预训练,很多文献里讲预训练model一般讲的也是Foundation Models这件事情。通过预训练,这里又列了三个范式:1.分类回归的范式;2.机器翻译的范式;3.多模态学习,比如CLIP范式。

接下来刘威博士介绍了我们是如何使用预训练模型的:

刘威博士向我们展示了大模型在工业界所具备的优势,并详细介绍了大模型的代表Transformer的架构细节和优势。

对于NLP任务综合特征抽取能力[语义特征提取能力]:Transformer>RNN和CNN,对于并行计算能力Transformer是>>RNN的。所以在现在的很多问题里RNN用得很少,并非RNN没有用,主要是因为Transformer的优势巨大。

接下来,刘威博士继续分享了NLP领域的四个大模型:BERT、GPT-3、T5和Switch Transformer和计算机视觉领域的两个大模型:ViT和CLIP

据不完全统计,国外GPT系列,CLIP、T5、mT5、Switch Transformer、Align、ViT-G/14、Turing-NLG、M2M、Megatron。国内很多,像华为的一系列模型,尤其是盘古系列,百度的文心系列,智源的悟道系列,一共有26个模型,其中16个是NLP,2个是CV,8个是多模态。

这是腾讯内部总结的研发应用流程。首先有样本数据,包括文本、图像、视频和知识图谱,在高速网络GPU集群上进行模型训练,CV大模型、NLP大模型、多模态大模型,模型精度很高,会在一些benchmark上测试,也会在腾讯内部一些评测上去测试,获得很好的结果。

再进行模型迁移,在腾讯内部也有一个平台,能够去做全自动化的模型迁移,包括精调、压缩,已经很成熟了。这里面只列了目前几个代表性的下游任务,实际上腾讯还有很多任务,在腾讯广告上进行了多模态广告的内容理解与生成,在微信的搜一搜,在QQ的搜索,比如浏览器搜索和推荐里,都用了NLP大模型。在腾讯云小微、腾讯同传也是用NLP大模型进行对话。从模型规模大到模型精度高,再到应用效果好,这就论证了大模型对工业的应用是非常有用的。

接下来,刘威博士介绍了腾讯大模型的技术创新:多层级模型改进、多样化数据改进和高效训练方法

基线模型可能是瘦高结构,层数多、维度小,改成三明治模型结构,矮胖结构,层数少、维度大,这样被认为是更有效率的,与此同时对数据进行多样性增强的做法,以及进行高效的训练,用一个课程学习的思想,逐步增加数据的复杂度,逐步增加参数规模等等。

从千亿到万亿,借鉴了GPT一些训练经验,因为模型越大,训练成本很高。怎么控制成本?既要模型大,又要控制训练成本,于是专家们采用了SMoE, 但随之而来两个挑战:1.既然用了SMoE,需要每个负载量,即获得的数据是均衡的,否则一旦不均衡,则训练的quality也不一样,所以增加一个熵,将训练的LOSS降下来。2.专家路由不稳定。于是采用了一个Stable Routing方法,先用小的MoE模型训练路由,然后将训练好的路由迁移到大模型并固定路由参数。

接下来,刘威博士分别分享了CV基础大模型、多模态内容理解大模型,文本视频大模型并展示了卓越的研发成果

 

03 生成式AI的机遇与挑战

 

接下来是由曹建峰博士为我们带来的“生成式AI的机遇与挑战”报告分享。

人工智能在语音、视觉等识别领域开始超过了人类,在语音识别、人脸识别等各方向,人工智能做得越来越好。下一个十年可能是怎样的方向?大模型开始生成一些内容,下一个十年,人工智能有望从生成到感知的跃迁,包括Gartner今年也有一个预测,生成性AI列为2022年5大影响力技术之一,并预测到2025年生成性AI(包括AI大模型)所创造的数据内容的比重将从现在不足1%提升到10%。将来人类产生的内容数据有10%是人工智能生成性模型去创造的,这可能是我们看到一个比较显著的技术趋势,就是下一个十年人工智能可能是从这样一个感知到生成的跃迁。

因为生成性AI现在也带来AIGC的持续繁荣,从最早人工智能写作,开会或常见的报告可以写摘要,包括最近看到美国也有几个学者用GPT3写了一篇论文,而且还在杂志上发表成功了。图片,生成一些逼真的图片。音视频,在音乐、广告、电影预告片生成;聊天机器人,数字人,现在个人助手、虚拟偶像、歌手、主播、演员、客服,还有很多公司的虚拟员工等等,也有很多应用;AI的发明创造,现在AI也在做一些设计或发明创造;3D虚拟环境创建,包括Meta今年在人工智能和元宇宙发布会上也推出了Builderbot工具,用户可以在虚拟空间发出一个命令,比如“生成一个海滩”“生成一克树”,就自动化生成这样一些数字化的场景,生成性AI核心的影响可能就是工业化的增强是多模态技术带来AI工业化增强,最终可能会带来零边际成本的内容生产,因为这么多数字化内容的生产是需要灵感,也需要大家非常多素材准备的投入。大家说插画师这个职业有可能会被影响,因为任何文字都可以生成满意度比较高的各种风格的图片,会带来对内容产业大的影响。

人工智能过去这么多年还是在1.0阶段,因为目前还是用真实世界的数据去训练模型,要通过传感器、设备、人写的文章,真实世界数据训练AI模型。这里包括很多问题,包括数据的采集、数据标注的成本、人力时间、物力成本都非常高昂,也限制了人工智能大规模的应用。另外包括数据的质量难以保障,因为很多工业领域或传统行业的数据可能数据质量很差,没办法用于这个模型训练。数据的多样化不足,难以覆盖长尾边缘的案例,现在也面临隐私保护立法严格的情况下,也面临个人隐私、个人数据安全的一些挑战。这是AI1.0阶段面临的一些数据隐私方面的问题。

现在随着AI合成数据的发展,AI的开发有望到AI2.0阶段,AI2.0是两方面:合成数据是带有自我标注的数据,不需要人为去打标注,自己生成出来就是有标签的,可以批量去制造,更高效训练AI模型;合成数据再往前进化就是3D的虚拟环境,让AI在3D虚拟环境里自我进化、训练,用于现实世界,这样的应用会极大的扩展AI应用的可能性。

现在已经看到的一些案例,包括医疗健康,基于语音合成技术,可以帮渐冻者患者设计语音合成系统实现“声音克隆”,帮助患者重新获得“自己的声音”。

数字虚拟,也有一些公司在探索可以帮助老年痴呆症患者,比如亲人已经逝世了,可以通过数字虚拟人把他在数字世界中复活,让他可以跟老人有一些更直观的互动,能够帮助痴呆症患者改善认知的功能。

在文物修复方面,今年大家在关注人工智能跟文化遗产保护的关系,包括DeepMind做了Ithaca模型去修复残缺的历史文物古迹的碑文,把这个文字能够通过人工智能方式去补出来,因为有些碑文的文字可能已经残缺了,通过这样一些技术可以修复。

IBM参与的一项研究表明,GAN可以用于破损文物陶瓷的修复,未来生成性AI在文物修复、医疗健康等非常多的可持续社会价值创新领域应该都会有比较巨大的应用空间。

接下来,曹建峰博士分享了目前生成式AI所面临的挑战:

 

04 圆桌研讨

 

 

首先刘威博士首先针对 “AI模型的发展与应用趋势” 这个议题分享了自己的观点:

1. AI未来一定会在某种程度上实现AGI,至少可以在感知领域实现某种程度的AGI,也就是说我们对语音、文字语言、图像、视频现在基本都是用同一套模型在进行处理,就是一定程度的AGI。希望在未来三到五年,我们在感知上的模型会更加趋同,我们在感知上的各种训练手段、推理手段也会更加趋同。

2. 目前我们已经在国际学术界做得相当有规模的XAI,就是可解释性AI,应该往这个方向走。希望也有一个大模型能够从感知到认知,实现一个跨越。

3. 从应用来看,AI能够在更多的科学领域,例如医学和制药等领域得到应用,尤其是在那些科学领域需要进行非常大规模科学计算时,AI就派上用场了。

 

接下来曹建峰博士同样针对该议题分享了自己的观点:

1. 应用的趋势一定是在数字内容产业。

2. 将来数据要素市场并不一定是自然人,现实世界中各种传感器采集的数据或者政府在政务中采集的数据才能用,将来这个数据要素市场有一大部分的比例可能都是可以通过人工智能技术来合成数据,合成数据可以在生命科学或产业界、医疗教育等方面也会有很大的价值,对将来数据要素市场建设也会有一定的启发。

3. 可能下一个十年,除了在认知、在AGI领域的一些进步,我们也需要在负责任的可信的AI领域有一些研究的进展和探索的实践出来。因为现在很多AI不是在娱乐领域,是用在健康、工业,甚至用在司法,会影响人的权利、安全,这是负责任的人工智能也是未来非常重要的趋势。

 

郑志峰教授针对“AI模型及衍生品的版权保护当前面临的挑战与发展趋势”分享了自己的观点:

1. 当前法学界对于人工智能的关注重点是三个问题,第一个问题是人工智能的法律地位问题,也就是说它是主体还是客体;第二个问题是人工智能生成物的版权问题,也就是要不要受版权保护?因为生成性的AI已经有很多事件发生了,比如微软小冰写诗等等;第三个问题是自动驾驶侵权责任问题。这是学界关注最多的三类问题。

2. AI生成内容能否受版权法的保护呢?其实学界对于这个问题的论证是存在方法论上的差异,主要是三种:第一种方法论就是专注于去分析这个生成的内容是否符合一个作品的构成要件,也就是所谓的本体论,就是说要明白我们对待事物的方式,关键在于去探求事物本来是什么;第二种分析方法更多是从主框的角度去分析,就是所谓的主体论,不是要去看我们分析对象的本质是什么,而是要看我们应该如何去对待他们;第三种分析方法是超越前两种的观察视角,是采用一种纯粹的功利的视角,也就是所谓功能论的分析视角,并不在乎现在的著作权对于现在的机器内容的保护是否符合一般的逻辑规则,更多关注的是保护或者不保护产生的挑战、解决的挑战。

 

接下来Neil Gong教授针对该议题从信息安全角度补充了自己的观点,总结来说,主要是从技术角度来说,很重要的一点就是data owner或model owner怎么样去提供一个版权保护的方法,来强有力地证明别人用的这个模型就是他的。

 

两位教授在第三个议题“AI模型与版权保护在未来发展中的相互影响”也分别给出了自己的观点分享:

 

郑教授认为从三个维度可以做一些观察:

维度一,智能科技。关注的核心是机器智能对人类智能产生的挑战或冲击。这会引发一系列的问题,比如主体的问题,人有智能,机器也有智能,我是不是人?是责任的问题,以前的责任是人的行为,现在机器也有行为。就是说机器智能引发的一系列法律问题、伦理问题,就是智能科技区别于其他的科技,最根本的区别在于它有智能属性,这个智能属性就是一种自主性,可以自主地学习、自主地创新、自主地创作,这是观察人工智能的第一个视角。

维度二,智能要素,即为什么会探讨人工智能的数据、算法的问题,很多人只讨论数据、只讨论算法,也会觉得自己是在讨论人工智能,本质上其实就是因为它是一个智能的要素,是智能背后的原因,这个角度其实是现在的人工智能区别于以往人工智能的一个视角。我们在讨论人工智能的治理或人工智能版权保护时,也应该要讨论它的要素的层面,比如数据、算法的版权保护问题,甚至从算法本身其实就可以探讨生成物衍生作品的问题。

维度三,智能应用。也就是说在应用层面,具体应用领域的人工智能突出的法律挑战不一样,比如生成性的AI和有实体载体的AI不一样,生成性AI主要是版权问题、隐私保护问题、数据归属问题,但是对于一些有机器载体的人工智能,比如自动驾驶汽车,更多是责任问题,更多跟现实世界去打交道,所以不同应用领域法律的挑战、法律的冲击是不一样的。

 

Neil Gong教授提出了AI模型与版权保护的相互影响,有两方面:

第一,AI模型怎么影响版权保护?AI模型影响版权保护还体现在随着AI模型的参数越来越大,需要的数据越来越多,计算量越来越大,学出来的模型越来越学习产权保护。如果以前的模型都非常小,只需要少量的数据,一台机器自己就能训练,没必要去偷别人的模型,但现在这些模型只有大公司、大数据、大计算量才能做,所以他们的版权保护可能会越来越重要。

第二,版权保护怎么影响AI模型或AI的发展?比如现在这些大模型都是从网络上抓数据,文本数据、图像数据、视频数据,现在好像还没有人关心这些数据是不是合规的,反正这些大公司就在网上抓数据,到处都是公开的,抓过来就训练模型了,训练模型之后,可以通过这个模型来发展自己的业务,用它来营利,就是把别人的数据来训练自己的模型,训练好了以后可以发展自己公司的业务,从而去营利。同时还可以把模型卖给别人,从而营利。但是这样的话实际上是忽略了用户的数据版权问题。

 

最后由曹建峰博士给出了总结性分享的观点:

有些人可能会拿别人的模型衍生的东西署名去发表、去牟利,将来人工智能生成性模型要参与大规模内容的创作,就会带来内容来源问题,哪些内容来源于自然人,哪些内容是来源于计算机,这将来是非常重要的一个问题。

Nature的一篇文章提出将来是否需要对AI模型建立一个专门的知识产权保护的规则,跳出现在的体系,专门做一个制度的安排。这算是终极的愿景,但是在这一过程中,版权法肯定会回应AI模型带来不管是作者身份或相关权利保护的挑战,最终也能够实现版权保护跟AI模型相关创新的发展和促进的作用。

 

 

欢迎加入我们

招聘信息

我们正积极寻找人工智能安全与隐私方向的全职研究科学家、数据工程师、访问学生,以及博士后、2023年秋入学的博士研究生(人工智能安全与隐私、计算机视觉、机器学习等方向)。有关职位的更多信息,请单击深圳市大数据研究院面向全球招聘多名博士后、博士生、研究科学家,数据工程师,访问学生!以获取更多信息。

 

人工智能安全与隐私论坛

周期

每三周一期,学术讲座

B站直播地址

http://live.bilibili.com/22947067

论坛网站

http://scl.sribd.cn/seminar/index.html

学术讲座主讲嘉宾

邀请制

提名制

推荐制

 

公众讨论群

由小助手邀请至讨论群

地址: 广东省深圳市龙岗区龙翔大道2001号道远楼3-6楼
邮箱: sds@cuhk.edu.cn
微信公众号: cuhksz-sds

sds.cuhk.edu.cn

版权所有 © 香港中文大学(深圳)数据科学学院