快讯
科企竞逐新技术以防AI“越狱”
发布时间 2025-03-17 09:41 转载 阅读 57148次

随着人工智能(AI)技术的快速普及,新的安全漏洞和“越狱”方法层出不穷。这让黑客更容易滥用AI系统,实施网络攻击、传播不当信息、制造安全风险,甚至引发重大犯罪行为。鉴于此,全球科技巨头竞相开发新技术,力求在保持AI模型功能性的同时,有效减少其被滥用的风险。

图片来源:IBM网站

AI“越狱”日益猖獗

  IBM网站对AI“越狱”是这样解释的:当黑客或别有用心之人利用AI系统中的漏洞,绕过道德准则,操纵AI模型生成非法或危险信息时,便视为AI“越狱”。黑客惯常利用的AI“越狱”手段包括提示词植入、角色扮演诱导、现在就做任何事(DAN)、敏感词拆分等。

  提示词植入指在输入中植入特定指令或改变输入的语义结构,诱导模型执行非期望操作或生成错误结果;在角色扮演诱导中,黑客会让AI扮演特定角色,绕过内容过滤器生成信息;DAN则是ChatGPT的一种特殊运行模式,在此模式下,ChatGPT获得了超越其原有道德和伦理限制的能力,能回答一些正常模式下无法回答的问题;敏感词拆分则指将敏感词拆分成子字符串以规避检查。

  这些技术通过精心设计的提示,引导模型偏离预定的安全防护规则,生成潜在的有害内容,甚至引发数据泄露、系统失控等严重后果。

  研究发现,在无保护措施的情境下,生成式AI“越狱”攻击的成功率高达20%。平均而言,攻击者仅需42秒及5次交互便能突破防线。在某些情况下,攻击甚至在短短4秒内就能完成。这些发现凸显了当前生成式AI模型算法中存在重大漏洞,实时防止漏洞的难度很大。

  IBM网站指出,AI“越狱”事件愈发普遍,要归因于AI技术的飞速进步、AI工具的可获取性日益提升,以及对未经过滤输出的需求不断增长等。安全专家认为,生成式聊天机器人的易用性,使缺乏相关知识背景的普通人也能尝试获取危险信息。

  为AI设立“防护栏”

  为更好地推动AI发展,确保其安全可控,增强客户信任,包括微软和元宇宙平台等公司在内的科技巨头,正竭力防止AI“越狱”。

  据英国《金融时报》报道,AI初创公司Anthropic推出了一款名为“宪法分类器”的新系统,其可作为大语言模型的保护层,监测输入和输出内容是否存在有害信息,确保用户免受不良信息的侵扰。

  这一解决方案基于一套被称为“宪法”规则的体系。这些规则明确界定了信息的允许范围与限制边界,并可根据实际需求灵活调整,以涵盖不同类型的材料。

  为验证该系统的实效,Anthropic公司提供了15000美元的“漏洞赏金”。重赏之下,183名测试人员历时3000多个小时,尝试突破防御。在“宪法分类器”的保驾护航下,该公司的“克劳德3.5”模型抵御了超过95%的恶意尝试。而在没有这道防护网的情况下,该模型的拒绝率仅为14%。

  无独有偶,微软去年3月推出了“提示词防护盾”。这一创新工具能够实时侦测并有效阻止诱导AI模型“越狱”的“提示词攻击”。微软还攻克了“间接提示词输入”这一难题,即防止黑客将恶意指令悄然插入模型的训练数据中,从而避免模型执行不当操作。

  值得一提的是,微软还推出了一项新功能:当AI模型编造内容或产生错误反应时,它会迅速提醒用户。

  2024年底,美国加州大学伯克利分校与元宇宙平台公司携手,推出了一种通用防御框架,以有效应对策略性植入的提示词攻击,为AI的安全防护再添一道屏障。

  技术成本有待降低

  当然,这些旨在防止AI“越狱”的技术也并非尽善尽美。

  审核措施的介入可能会让模型变得过于谨慎,而拒绝一些无害的请求。谷歌早期版本的“双子座”AI模型以及元宇宙平台的Llama 2就曾出现过这种情况。不过,Anthropic公司表示,其“宪法分类器”虽然也提高了拒绝率,但绝对值仅增加了0.38%。

  《金融时报》的报道指出,“宪法分类器”在运行过程中,会耗费大量计算资源。这对那些已经为训练和运行模型支付巨额费用的公司来说,无疑是“雪上加霜”。Anthropic公司也承认,其分类器将使运行AI模型的成本增加近24%。

  由此可见,虽然AI“越狱”防护技术在提升安全性方面发挥了重要作用,但如何在保障安全与降低成本之间找到平衡,仍需进一步探索。(记者 刘 霞)

【责任编辑:朱家齐】
银河系三维尘埃“滤镜图”绘制完成 [原文链接]
“技术标准+管理制度”规范人工智能发展[原文链接]
科企竞逐新技术以防AI“越狱”[原文链接]
“高阶智驾”成车企竞争新焦点[原文链接]
从“新奇玩具”到“实用好物”:智能机器人成为中国消费市场新热点[原文链接]
每周精选查看更多 >
美国副总统《乡下人的悲歌》:我们最大的敌人是自欺欺人
美国副总统《乡下人的悲歌》:我们最大的敌人是自欺欺人
《乡下人的悲歌》是J.D.万斯通过个人成长经历对当代美国工人阶级白人群体困境的深刻反思。这部作品的核心并非仅仅讲述一个“逆袭”故事,而是以自传为框架,剖析一个群体在现代化进程中遭遇的文化断裂、经济衰败与精神迷... [详细]
希鸥网观点:创业公司团队如何管理更有效率?
希鸥网观点:创业公司团队如何管理更有效率?
当团队中出现冲突或挑战时,积极介入并提供协助和支持。促进团队成员之间的沟通和解决问题的能力,以保持团队的凝聚力和效率。 [详细]
想升职加薪?拿着超4亿年薪的CEO给了20条建议
想升职加薪?拿着超4亿年薪的CEO给了20条建议
我们熟知的“迪士尼”,全称是华特迪士尼公司(英文简称:DISNEY),作为一家市值超过2万亿人民币(3103亿美金)的大型企业,迪士尼最为国人所熟悉的是其位于上海的迪士尼乐园和电影屏幕上的公主系列大电影,但这些只是迪士尼公司的一... [详细]
如果最近你创业不顺,不妨读一读段永平这100句话
如果最近你创业不顺,不妨读一读段永平这100句话
上市后,拼多多市值一度超过京东,在所有中国互联网企业中排名第四。因此,其“80后”CEO黄峥也被人们戏称为“杭州80后新首富”、“抛弃你的同龄人。... [详细]
希鸥网李志磊:创业5年认识的六个创业真相
希鸥网李志磊:创业5年认识的六个创业真相
2013年7月,大学毕业一周年,遭遇简短创业带来的失败以及工作不顺利,我进入了人生低谷,此后一个月,每天花20块钱买10注双色球,希望可以一夜暴富。一个月后终于中了五块钱,我意识到,翻身不能靠运气,还是要要靠自己的努力... [详细]