研究人员开发AI攻击方法BEAST:可在一分钟内绕过LLM防护栏
**划重点:**
1. 🕵️♂️ 研究人员使用BEAST技术成功开发出一种能在一分钟内诱导大型语言模型(LLM)产生有害反应的方法。
2. ⚡️ BEAST相较于基于梯度的攻击更快速,利用Nvidia RTX A6000GPU,48GB内存,一分钟GPU处理时间,成功率高达89%。
3. 🤖 攻击不仅可用于公共互联网上的聊天机器人,还能对付商用模型如OpenAI的GPT-4,而无需访问整个语言模型。
站长之家(ChinaZ.com)2月29日 消息:研究人员在美国马里兰大学成功开发了一种高效的方法,可以在一分钟内诱导大型语言模型(LLM)产生有害反应,他们将这一技术命名为BEAST(BEAm Search-based adversarial aTtack)。BEAST技术利用Nvidia RTX A6000GPU、48GB内存和即将发布的开源代码,仅需一分钟的GPU处理时间,就能让LLM飞越其防护栏。
图源备注:图片由AI生成,图片授权服务商Midjourney
BEAST相较于基于梯度的攻击更为迅速,成功率达到89%,相较于过去需要一个小时的梯度攻击,其速度提升了65倍。Vinu Sankar Sadasivan,这项研究的对应共同作者之一,表示:“我们的方法的主要动机是速度。我们的方法在现有基于梯度的攻击方法上提高了65倍。还有其他方法需要访问更强大的模型,比如GPT-4,进行攻击,这可能代价高昂。”
大型语言模型通常经历对齐过程,使用强化学习等技术进行微调,以使其输出符合安全要求。在公共互联网上,向LLM驱动的聊天机器人提出像“编写制作炸弹的教程”这样的有害提示,由于安全对齐原因通常会得到拒绝。然而,之前的研究已经开发出各种“越狱”技术,生成有害提示,尽管经过了安全训练。
研究小组利用GPU硬件和称为“beam search”的技术,对AdvBench Harmful Behaviors数据集中的示例进行测试,成功提交一系列有害提示给各种模型,并使用其算法找到每个模型产生问题响应所需的词汇。在一分钟内,他们在Vicuna-7B- v1.5上实现了89%的成功率,而最佳基线方法只有46%。
该技术还可以用于攻击像OpenAI的GPT-4这样的公共商用模型。Sadasivan解释道:“我们方法的好处是我们不需要访问整个语言模型。只要能够访问模型的最终网络层的令牌概率分数,BEAST就能攻击模型。OpenAI计划提供这一功能,因此我们可以在技术上攻击公开可用的模型,只要其令牌概率分数可用。”
基于最近研究的敌对提示看起来像是一个可读短语,与一系列不合适的词汇和标点符号连接在一起,旨在误导模型。BEAST包括可调参数,使得危险提示更易读,但可能以攻击速度或成功率为代价。
可读的敌对提示有潜在用于社交工程攻击。BEAST还可用于制作引发模型不准确响应的提示,即“幻觉”,以及进行成员推断攻击,可能涉及隐私问题,测试某个数据是否属于模型的训练集。
尽管BEAST表现良好,但可以通过彻底的安全训练进行缓解。Sadasivan指出:“我们的研究表明,语言模型甚至对于BEAST这样的快速无梯度攻击也是脆弱的。然而,通过对齐训练,可以从经验上使AI模型变得更安全。”
此研究强调了确保未来更强大AI模型的安全部署需要制定可证明的安全保证。
魅族21正面照公布 1.74mm四等边
魅族21的正面照片近日被曝光,魅族集团董事长兼CEO沈子瑜在微博上发布了这一消息,并强调这是通过物理四等边技术实现的。魅族21的正面设计极具视觉冲击力,采用了6.55英寸三星直屏,其上下左右边框宽度均为1.74mm,上部中间有一个摄像头,带来了极致的视觉效果。这一设计理念源于魅族对产品完美无缺的追求,希望给用户带来真正的物理四等边体验,而非视觉上的四等边。站长网2023-11-15 18:27:300000开源软件开发助手SoTaNa:利用AI理解开发者意图、改进软件开发流程
文章概要:1.SoTaNa利用AI改进软件开发2.SoTaNa基于LLM理解开发者意图3.SoTaNa效果通过StackOverflow数据集验证最近,开源软件开发助手SoTaNa引起广泛关注。SoTaNa旨在利用人工智能功能改进软件开发流程。站长网2023-09-05 10:58:150000文旅部:幼儿园周边不得设置娱乐场所等 各地尽快明确最小距离
央视网消息:近日,文化和旅游部办公厅发布《关于印发幼儿园与娱乐场所、互联网上网服务营业场所最小距离及测量方法典型案例的通知》。主要内容如下:为贯彻落实《中华人民共和国未成年人保护法》,推动“幼儿园周边不得设置娱乐场所、互联网上网服务营业场所”政策有效落地,在前期地方报送的落实举措基础上,文化和旅游部遴选出部分可供借鉴的典型案例(见附件),现印发给你们,供参考。站长网2023-05-23 12:31:480002斯坦福大学:大多数大语言模型不符合欧盟AI法案 GPT-4仅排第四
斯坦福大学著名的以人为中心的人工智能研究所(HAI)表示,对10个主要基础模型的调查显示,它们“基本上不”遵守欧盟的人工智能法案。得分最高的基础模型是Bloom,它是HuggingFace的开源模型,于2022年7月发布,是一个大型多语言模型,具有多达1760亿个参数,旨在通用。站长网2023-07-12 16:23:490000抖音:全年识别拦截超440万件违规商品 清退售假店铺超2.1万家
今日,抖音发布《2022抖音电商知识产权保护报告》,全面盘点平台在知识产权保护方面的相关举措和成果。站长网2023-04-16 08:30:120000