• 学院内网
搜索
返回主站
English
  • 学院概况
    • 概览
    • 学科方向
    • 院长致辞
    • 学院刊物
      • 宣传手册
      • 季度简报
      • 年报
    • 常见问题
    • 联系我们
  • 项目设置
    • 简介
    • 本科生
      • 数据科学与大数据技术
      • 统计学
      • 计算机科学与技术
      • 金融工程
      • 2+2双主修
        • 跨学科数据分析 + X 双主修课程
        • 航天科学与地球信息学 + X 双主修课程
      • 哥伦比亚大学工程学院3+2直硕项目(哥大班)
    • 硕士研究生
      • 数据科学理学硕士
      • 金融工程理学硕士(全日/兼读制)
      • 人工智能与机器人理学硕士
      • 计算机科学理学硕士
      • 统计学理学硕士
      • 生物信息学理学硕士
    • 博士研究生(哲学硕士)
      • 数据科学哲学硕士-博士
      • 计算机科学哲学硕士-博士
  • 师资力量
    • 教职人员
    • 荣休教授
    • 兼职人员
    • 科研/访问人员
    • “数说名师”教授访谈
  • SDS学生
    • 本科生学业咨询系统
    • 博士生
    • 学生访谈
  • 新闻与公示
    • 新闻
    • 公示
  • 学院活动
    • 学术会议
      • DDTOR 2025
      • CSAMSE 2023
      • RMTA 2023
      • ICASSP 2022
      • Mostly OM 2019
    • 学术活动
    • 数据科学名家讲坛
    • 其他活动
  • 学术科研
  • 人才招聘
    • 教职人员
    • 博士后
  • 职业发展
    • 升学就业
    • 国际交流
  • 学院概况
    • 概览
    • 学科方向
    • 院长致辞
    • 学院刊物
      • 宣传手册
      • 季度简报
      • 年报
    • 常见问题
    • 联系我们
  • 项目设置
    • 简介
    • 本科生
      • 数据科学与大数据技术
      • 统计学
      • 计算机科学与技术
      • 金融工程
      • 2+2双主修
        • 跨学科数据分析 + X 双主修课程
        • 航天科学与地球信息学 + X 双主修课程
      • 哥伦比亚大学工程学院3+2直硕项目(哥大班)
    • 硕士研究生
      • 数据科学理学硕士
      • 金融工程理学硕士(全日/兼读制)
      • 人工智能与机器人理学硕士
      • 计算机科学理学硕士
      • 统计学理学硕士
      • 生物信息学理学硕士
    • 博士研究生(哲学硕士)
      • 数据科学哲学硕士-博士
      • 计算机科学哲学硕士-博士
  • 师资力量
    • 教职人员
    • 荣休教授
    • 兼职人员
    • 科研/访问人员
    • “数说名师”教授访谈
  • SDS学生
    • 本科生学业咨询系统
    • 博士生
    • 学生访谈
  • 新闻与公示
    • 新闻
    • 公示
  • 学院活动
    • 学术会议
      • DDTOR 2025
      • CSAMSE 2023
      • RMTA 2023
      • ICASSP 2022
      • Mostly OM 2019
    • 学术活动
    • 数据科学名家讲坛
    • 其他活动
  • 学术科研
  • 人才招聘
    • 教职人员
    • 博士后
  • 职业发展
    • 升学就业
    • 国际交流
  • 学院内网
返回主站
English

面包屑

  • 首页
  • 新闻与公示
  • 新闻
  • 你是否尝试过用密码和大模型聊天?

你是否尝试过用密码和大模型聊天?

2024-02-04 新闻

香港中文大学(深圳)数据科学学院贺品嘉团队最新研究成果揭示了一个令人警觉的现象:人工智能模型并不像其表面上看起来那么安全。人工智能模型在公开使用之前,会经过专门的训练,以保证其输出的回复礼貌得体,并拒绝回复违法犯罪的问题。然而,该团队发现大语言模型GPT-4 能理解并使用常见的密码(如凯撒密码),且当用户输入加密后的文本(密文)时,该模型将不再表现得礼貌和无害。更值得注意的是,越强的模型反而越容易表现出危险的行为。因此,在不断推进人工智能能力的同时,必须同样重视相关的安全考虑。

人工智能正变得愈发强大,并越来越多的参与到人们的生活当中。以GPT为代表的大语言模型可以帮助用户完成各种任务,如聊天、回答问题、翻译、创作文章、撰写报告等等。因为这些模型拥有强大的能力,所以防止它们被误用于违法犯罪变得尤为重要。现有的方法通过训练模型拒绝回答有害问题来避免负面影响。然而,在这项工作中,团队提出了一个引人关注的问题:我们是否可以通过加密输入文本的方式来绕过大模型的安全护栏?

该工作提出了一个系统性的框架——CipherChat(见下图),旨在检验模型对密文输入的安全表现。该框架主要包括三步:

1. 向模型解释密码的规则,加强模型对密码的理解

2. 将用户的问题转换为相应的密文,并输入模型

3. 将模型给出的密文回复解密回可读的文本(明文)

通过大量的实验分析,我们发现密码成功绕过了GPT-3.5-Turbo和GPT-4两种模型的安全机制。总的来说,模型越强大,越容易被利用于产生有害的回复。这揭示了当前大模型的安全漏洞,为未来的大模型安全研究提供了一个有价值的视角和工具。该论文已被人工智能领域顶级会议ICLR 2024接收。

*该文章是由数据科学学院贺品嘉教授团队供稿。

 

地址: 广东省深圳市龙岗区龙翔大道2001号道远楼3-6楼
邮箱: sds@cuhk.edu.cn
微信公众号: cuhksz-sds

sds.cuhk.edu.cn

版权所有 © 香港中文大学(深圳)数据科学学院