新闻速递 | “人工智能安全与隐私”系列论坛第十九期圆满落幕
*文章转载自AISP Seminar微信公众号
“人工智能安全与隐私”系列论坛
第十九期圆满落幕
2023年3月28日,由深圳市大数据研究院与中国图象图形学学会联合主办,CSIG视觉大数据专委会与香港中文大学(深圳)数据科学学院承办,SCLBD协办的“人工智能安全与隐私”系列论坛第十九期圆满落下帷幕。此次论坛活动由香港中文大学(深圳)数据科学学院吴保元副教授主持,莱斯大学计算机科学系副教授胡侠作为主讲嘉宾,以“实战ChatGPT: ChatGPT在自然语言处理中的实验性探索”为主题作了精彩分享。此次论坛活动还邀请到了北京航空航天大学电子信息工程学院教授徐迈、中科院自动化所模式识别国家重点实验室研究员赫然与胡侠教授、吴保元教授共同进行圆桌研讨。直播录像请见:http://live.bilibili.com/22947067

本次论坛采用哔哩哔哩,微信视频号等多平台线上直播形式,吴保元教授为论坛致开幕词,回顾了论坛的创建历程,并对论坛举办过程中得到的众多组织、专家的支持表示了诚挚的感谢。在吴保元教授的主持下,"人工智能安全与隐私"系列论坛第十九期于3月28日上午10:30正式拉开帷幕。
讲座内容
01 实战ChatGPT: ChatGPT在自然语言处理中的实验性探索——胡侠教授
胡侠教授带来了主题为“实战ChatGPT: ChatGPT在自然语言处理中的实验性探索”的分享。胡教授提到,自ChatGPT发布以来,在短时间内就取得了非常大的关注度,它号称是历史上第一个在两个月内就达到一亿用户的APP。因此,ChatGPT的重要程度不言而喻。
接下来,胡侠教授从ChatGPT的基础技术、缺点和监管问题三个方面来进行了分享。
首先,胡侠教授举例对ChatGPT的使用和功能进行了介绍。例如,ChatGPT可以帮助我们编写代码和写文档。此外,在ChatGPT完成以上工作后,我们还可以与ChatGPT进行交流,这也是ChatGPT一个被人们广泛关注的特性之一。

随后,胡侠教授对ChatGPT背后的基础技术——Transformer进行了简单介绍。Transfromer直接翻译为中文就是“变形金刚”。在Transformer出现之初,它主要作为语言模型进行应用,如应用于机器翻译和文本生成场景。例如,在机器翻译场景下,我们输入一个句子“je suis étudent”,然后语言模型翻译出一个新的句子“I am a student”,这个过程可以想象为一个把语言重新组装的过程。

从内部结构来看,transformer由encoder-decoder组成,这一结构与很多传统深度学习模型并无太大区别。但是,与传统模型不同,transformer内部存在multiple endocer和multiple decoder, 每一个encoder模块都由self-attention和feed forward两部分组成,每一个decoder中间又加入了attention过程。
胡侠教授认为,相对于传统的RNN模型,transformer存在几个非常重要的特点。第一,transformer能够并行,这使得我们能够同时训练大量的语料数据。第二,transformer非常巧妙地利用了attention mechanism,即注意力机制。这使得transformer在机器翻译和文本生成任务上的能力,相对于传统模型有了很大提升。第三,在传统的RNN模型中,还存在着梯度消失或梯度爆炸的问题,这在transformer上也得到了比较好的解决。

然后,胡侠教授对GPT的发展路径进行了介绍。从2017年transformer模型发布,到2018-2020年GPT-1、GPT-2、GPT-3的发布。由于其出色的性能,GPT系列在业界和学术界引起了广泛的关注。2022年底发布的ChatGPT则吸引了大量非NLP领域的关注。2023年初,OpenAI继续发布了GPT-4模型,创造性地引入了多模态功能。

随后,胡侠教授对ChatGPT另一个方面的Roadmap进行了介绍。他认为,从GPT-1到GPT-4,OpenAI不再开源,其实际上已经成为了一个闭源系统。因此,大家已经不能再利用GPT来建立自己的大语言模型。但同时,我们也可以看到除了OpenAI以外,Meta等公司也发布了大量的、非常强大的开源模型。因此,我们在选择在自己的生产环境下部署大语言模型时,并不必拘泥于GPT系列。

接下来,胡侠教授介绍了ChatGPT训练的过程,以及它拥有如此强大的性能的原因。总的来说,ChatGPT的核心思想为reinforcement learning和human feedback。ChatGPT的训练过程主要可以分为三个部分。首先,收集人工prompt,交给ChatGPT的API来训练监督模型。并从prompt dataset当中,用人工来标注性能较好的output,再使用标注数据来微调GPT-3。接下来,使用人工标注对比数据,即哪一些输出是好于其他输出的。最后,使用人工标注数据训练强化学习模型。具体而言,当新的prompt来生成后,基于PPO policy生成output。然后,再使用reward model计算每一个output的reward。随后,reward再用于更新PPO模型,从而生成最终的强化学习模型。

胡侠教授认为,ChatGPT成功的关键因素之一就是OpenAI在GPT-3的基础之上,非常巧妙和高效地利用了人工标注数据。而如何收集、处理人工标注数据,并将数据融合入整个模型训练过程,也是ChatGPT与一些开源软件的区别所在。同时,由于ChatGPT在短时间内积攒了大量用户的情况下,OpenAI可以通过大量收集用户反馈数据来进一步更新模型。因此,其后续模型的迭代速度和质量会非常高。如果落后公司想要快速追赶其发展脚步,在短期内将十分困难。
接下来,胡侠教授介绍了ChatGPT在一些经典自然语言处理任务上的表现。在多数情况下,ChatGPT在特定任务上无法达到SOTA的性能。这一现象的原因为,ChatGPT在其语料库中并没有大量的专业数据,因此其表现在一些专业领域并不如传统模型。

在机器翻译任务上,与Google、DeepL和Tencent翻译模型相比,多数情况下ChatGPT表现较好,但在特定任务上性能仍然较差。例如,从罗马尼亚语到中文的翻译。其主要原因仍然为ChatGPT没有在特定的语料库上进行训练。

基于以上发现,胡侠教授总结了适用于ChatGPT的场景:①复杂任务,如编程、创造性协作;②无标签数据场景;③需要大量知识,如闭卷问答;④模拟人类,如客服机器人

同时,胡侠教授还总结一些不适用于ChatGPT的场景:①数据安全和隐私敏感的场景,如医院和银行;②已有高性能小模型的场景。

对于第一部分内容,胡侠教授总结到:
-
总的来说, ChatGPT是一个非常强大的一个模型。
-
但是针对专业领域中性能较好的小模型,ChatGPT的性能还有差距。
-
在数据敏感的情况下,ChatGPT不适用于很多领域。

接下来,胡侠教授就如何在数据敏感的场景下利用好ChatGPT进行了分享。以医疗数据为例,胡侠教授团队在NER(Named Entity Recognition)和RE(Relation Extraction)两个任务上测试了ChatGPT与BioBert的性能。可以看到,即使经过大量prompt engineering,ChatGPT在专业领域的性能仍然不如专业领域模型。

为了解决这一问题,胡侠教授团队首先进行了大量prompt engineering来优化prompt。然后,加入部分人工标注数据。最后,再使用Synthetic Data(合成数据)对模型进行微调。

可以看到,在没有接触本地敏感数据的情况下,仅通过Synthetic Data微调的ChatGPT模型性能得到了大幅度提高,甚至超过了BioBert这一专业领域模型。

最后,胡侠教授分享了ChatGPT可能带来的一些社会问题及ChatGPT生成内容检测方法。由于ChatGPT强大的性能,也出现了一些ChatGPT滥用的现象。比如,在教育领域当中,学生可能会使用ChatGPT来完成作业。因此,如何检测ChatGPT生成内容显得十分重要。
胡侠教授认为当前的生成内容检测方法主要可以分为白盒模型和黑盒模型。

胡侠教授首先介绍了黑盒模型。黑盒模型存在非常强的假设,即语言模型的生成内容与人类的生成内容存在巨大差异。可以看到,基于交叉熵的指标perplexity,perplexity越低,代表这一内容越具有一定的规律。因为现有语言模型是基于概率的模型,所以其生成词汇具有不稳定性。但是,人类对于词的选择则相对固定。因此,当我们使用perplexity进行判别,人类写作内容与ChatGPT生成内容相比呈现出显著差异。

随后,胡侠教授对白盒模型也进行了介绍。由于在白盒场景下,开发人员对语言模型具有完全掌控,因此可以人为控制生成内容,即模型水印。

对于黑盒和白盒检测方法的有效性,胡侠教授认为①在短期内,黑盒和白盒方法均能够有效检测出生成内容;②在中期的未来,黑盒方法将会失效,我们只能依赖白盒方法进行检测;③在长期的未来,由于语言模型拟人化的进步,黑盒和白盒方法都将失效,我们将只能引入新的监管模式来对生成内容进行监管。
问答环节
问题一:目前ChatGPT主体是一个基于语料学习理解的大语言模型,而且泛化能力也比较强,胡教授也提到在与domain-specific模型的比较上ChatGPT还有提升的空间。那么在未来ChatGPT的发展中,是否有可能在模型训练上或者工程优化上将大而泛的模型与小而精的模型相结合而不是基于单一的大而泛的模型做输出?
胡侠教授:这是有可能的,从模型角度出发,可以使用本地专业数据对模型进行fine-tune,从数据角度出发,可以使用之前讲到的synthetic data,利用prompt engineering来提高模型性能。
问题二:ChatGPT训练数据是否有侵犯版权的问题?
胡侠教授:确实会存在这一问题,这也是在法律和版权保护领域一个需要解决的问题。
问题三:从您的角度来看,ChatGPT因为缺乏专门领域的语料,所以它没办法在很多专门的领域做到SOTA。那如果我们提供ChatGPT这种数据,在这种情况下,ChatGPT有可能在多个专门的领域达到SOTA的同时,继续保持现有的通用语言能力吗?
胡侠教授:如果提供相应的语料,我认为是可以实现的。
问题四:从您的角度来看,在限制沟通次数不能太高的情况下,有可能通过和ChatGPT对话,快速训练一个能力和ChatGPT相近的小模型吗?(大模型窃取)
胡侠教授:在一些任务上是可以的,比如说在分享中的例子是可以的,但是我们可以看到这在NER这个任务上是做不到的。因此,关键是两点,第一个是与任务高度相关,有可能该任务本身就不行;第二个是prompt engineering做得好不好,如果做得不好那也可能会失败。
问题五:从您的角度来看,ChatGPT的生成结果可能改变整个人类的语言习惯吗?无论好的还是坏的?
胡侠教授:一定会改变的,因为我现在已经被改变了。比如我写email, 先让ChatGPT帮我整一遍。然后我再过一遍。本来原先要二十分钟写的,现在可能几分钟就解决了,因为很方便,所以说这也是挺可怕的。因为人类语言是非常有魅力的,比如说我们的小学生,中学生如果因此而缺乏了这些语言的训练,后面大家都说一种话了,这样语言整个就失去它的魅力了。
圆桌讨论
01 主题一:ChatGPT的出现对人类社会和AI发展的影响
徐迈教授:ChatGPT对人类未来社会的发展是会有很大影响的,比如它会改变人类的语言习惯。第一个方面,未来我觉得比较重要的一个事情,是我们如何利用好ChatGPT这个工具去写作或者是去做一些文案工作。虽然OpenAI在这面的研究已经快十年了,调动了大量计算资源。但是,它真正进入大众的视野,也就是这几年的事情,那么大家可能需要习惯怎么去使用这个工具,尤其是如何跟人机交互结合。而且,ChatGPT也可能改变我们未来教育。那么在教育当中,我们又应该如何去学习使用这类工具呢?第二个方面是,对人工智能的发展的影响。自然语言处理是人工智能领域的一个非常重要的一个方向。但相对于图像,它还是比较简单的,它的维度比较低的。那么现在这个自然语言处理发展比较好,那么也会进一步辐射到图像领域。这个ChatGPT的发展也是一样的,它在自然语言处理领域发展比较好,那么未来也会推动我们的图像领域,比如现在的AIGC等等。包括GPT-4,它已经开始做多模态的任务了。因此,自然语言处理只是第一步,未来可能对人工智能所有领域包括这个图像领域,它都会有很强的推动的意义。同时,在ChatGPT横空出世的背景下,可能有人觉得传统NLP已经很难生存了。但在图像领域,现在还有很多可做,比如说AIGC等等。并且,我个人觉得其实也不尽然,刚刚胡老师也讲到,我们有了ChatGPT以后,很多时候怎么移植到一些专用的领域也会有一些新的问题。
赫然教授:在ChatGPT出现以前,我们很难模拟这种人的这种沟通或者是交流的方式。但ChatGPT的出现改变了这一点,它相当于使人工智能具有了一些人类所特有的一些特性。同时,本身从ChatGPT的技术本身来说,它进一步验证了大数据、大模型的技术路线是可能会产生比较大的一个变革的。那么怎么训练大模型?怎么利用大模型在现有大模型上进行一些调整?比如最近出现的这个图像领域的ControlNet,这可能会影响到相关领域的一系列发展。第二个问题就是,ChatGPT也带来了一系列挑战。我认为道德问题可能还没有完全呈现,但隐私问题可能会是比较严重的问题。像刚才胡老师讲,他这个数据里面有很多隐私的问题。在使用过程中,也可能会存在隐私泄露等问题。
胡侠教授:首先第一个是人机交互的提升,这是一个巨大的商业机会。在过去,比如说有这个通过邮箱来给互联网的接口,通过手机来给移动互联网的接口,现在大家觉得通过ChatGPT这一类大语言模型又会带来很多关于商业应用的新接口。同时,ChatGPT对于传统的教育和知识传播方式也会带来巨大挑战。除了这几点,ChatGPT实际上对法律也是一个巨大的挑战,关于专利版权的法律还需健全。
02 主题二:ChatGPT带来的新安全挑战和道德问题
徐迈教授:大语言模型仍然是一个黑盒子,当前模型可解释性不足,这可能会导致不可靠、不可信和不可控等安全问题。此外,ChatGPT消耗的计算资源太大,因此也存在效能不高的问题。
赫然教授:在ChatGPT真正大规模应用时,可能存在一系列安全问题。比如会存在专门针对大模型的攻击,可能会导致数据泄露等问题。同时,ChatGPT生成的数据也存在版权问题。此外,ChatGPT的对抗攻击、隐私性等这些问题都还需要进一步探索。
胡侠教授认为:ChatGPT作为一个强大的AI模型,拉低了AI模型的使用门槛,提高了AI模型的民主性。同时ChatGPT等模型具备life learning能力,因此ChatGPT目前所拥有的庞大用户群体能够不断为其提供大量高质量数据,使得ChatGPT能够在迭代中保持领先优势,也让后来者想要超越ChatGPT变得非常困难。
欢迎加入我们
招聘信息
我们正积极寻找人工智能安全与隐私方向的全职研究科学家、数据工程师、访问学生,以及博士后、2023年秋入学的博士研究生(人工智能安全与隐私、计算机视觉、机器学习等方向)。有关职位的更多信息,请单击深圳市大数据研究院面向全球招聘多名博士后、博士生、研究科学家,数据工程师,访问学生!以获取更多信息。
人工智能安全与隐私论坛
周期
每月一期,学术讲座
B站直播地址
论坛网站
论坛公众号
学术讲座主讲嘉宾
-邀请制
-提名制
-推荐制
公众讨论群
由小助手邀请至讨论群