你是否尝试过用密码和大模型聊天?
2024-02-04 新闻
香港中文大学(深圳)数据科学学院贺品嘉团队最新研究成果揭示了一个令人警觉的现象:人工智能模型并不像其表面上看起来那么安全。人工智能模型在公开使用之前,会经过专门的训练,以保证其输出的回复礼貌得体,并拒绝回复违法犯罪的问题。然而,该团队发现大语言模型GPT-4 能理解并使用常见的密码(如凯撒密码),且当用户输入加密后的文本(密文)时,该模型将不再表现得礼貌和无害。更值得注意的是,越强的模型反而越容易表现出危险的行为。因此,在不断推进人工智能能力的同时,必须同样重视相关的安全考虑。
人工智能正变得愈发强大,并越来越多的参与到人们的生活当中。以GPT为代表的大语言模型可以帮助用户完成各种任务,如聊天、回答问题、翻译、创作文章、撰写报告等等。因为这些模型拥有强大的能力,所以防止它们被误用于违法犯罪变得尤为重要。现有的方法通过训练模型拒绝回答有害问题来避免负面影响。然而,在这项工作中,团队提出了一个引人关注的问题:我们是否可以通过加密输入文本的方式来绕过大模型的安全护栏?
该工作提出了一个系统性的框架——CipherChat(见下图),旨在检验模型对密文输入的安全表现。该框架主要包括三步:
1. 向模型解释密码的规则,加强模型对密码的理解
2. 将用户的问题转换为相应的密文,并输入模型
3. 将模型给出的密文回复解密回可读的文本(明文)
通过大量的实验分析,我们发现密码成功绕过了GPT-3.5-Turbo和GPT-4两种模型的安全机制。总的来说,模型越强大,越容易被利用于产生有害的回复。这揭示了当前大模型的安全漏洞,为未来的大模型安全研究提供了一个有价值的视角和工具。该论文已被人工智能领域顶级会议ICLR 2024接收。
*该文章是由数据科学学院贺品嘉教授团队供稿。