新方法揭示了如何利用一个大语言模型来越狱另一个大语言模型
划重点:
🔍 一项由宾夕法尼亚大学的研究人员开发的新算法可以自动消除大型语言模型(LLM)中的安全漏洞。
🤖 这个名为Prompt Automatic Iterative Refinement(PAIR)的算法可以识别“越狱”提示,防止其生成有害内容。
🌐 PAIR不仅能够与ChatGPT等黑盒模型一起工作,还能够以较少尝试生成越狱提示,且这些提示具有可解释性和可传递性。
一项最新研究揭示了一种新的方法,允许一个大型语言模型(LLM)被用于越狱另一个,以揭示潜在的安全漏洞。
来自宾夕法尼亚大学的研究人员开发了一种名为Prompt Automatic Iterative Refinement(PAIR)的算法,该算法能够自动停止LLMs中的安全漏洞,防止其生成有害内容。
图源备注:图片由AI生成,图片授权服务商Midjourney
PAIR算法的独特之处在于它能够与黑盒模型(如ChatGPT)一起工作,而且它在生成越狱提示时所需的尝试次数较少,而且这些提示具有可解释性,可以在多个模型之间传递。这使得企业能够以经济高效的方式识别和修复其LLMs中的漏洞。
在研究中,研究人员使用了一个名为Vicuna的开源LLM作为攻击模型,并测试了多个目标模型,包括开源模型和商业模型。
研究结果显示,PAIR成功越狱了GPT-3.5和GPT-4的60%的设置,甚至在一些情况下只需要几十个查询,平均运行时间约为五分钟。这明显改进了现有的越狱算法,后者通常需要数千个查询和平均150分钟的攻击时间。
此外,PAIR生成的攻击具有人类可解释性,可以轻松传递到其他LLMs。研究人员认为这是由于PAIR的对抗性提示的语义性质,这些提示针对语言模型中的类似漏洞,因为它们通常是在相似的下一个单词预测任务上训练的。
PAIR算法的出现代表了一种使用LLMs作为优化器的新趋势。以前,用户不得不手动制作和调整提示以从LLMs中提取最佳结果。然而,通过将提示过程转化为可度量和可评估的问题,开发人员可以创建算法,其中模型的输出被循环用于优化,这将加速LLM领域的发展,可能引领领域中的新的和未预见的进展。
制造业中生成式 AI 快速进步显示 蓝领工人也面临被人工智能替代的风险
生成式人工智能正在席卷各行各业,虽然它被视为许多白领工作的巨大威胁,但制造业中技术的快速进步表明蓝领工人也面临被替代的风险。IT战略公司Intellibus的创始人和负责人EdWatal表示,人工智能正在快速推动第四次工业革命,制造业已经通过自动化、预测性维护和质量控制而发生了变革。站长网2023-10-17 11:09:350000余额宝宣布上线11年:累计为用户赚4499亿元
今日,余额宝迎来了其成立的第11个年头。据官方数据显示,在过去的十一年里,余额宝已为用户累计赚取了高达4499亿元的收益。截至目前,余额宝平台已与41家基金公司的45只货币基金建立了紧密的合作关系,为投资者提供了多样化的选择。站长网2024-06-21 21:30:380000文生图超级大合集!几乎包含所有模型,提示词教程
除了DALL·E3、Midjourney、StableDifusion,你还知道哪些好用小众的文生图模型吗?你知道一张精美的AI图片,需要哪些精准的提示词、效果融合以及制作流程吗?如果把几乎所有文生图模型集合在一个平台中,并且还能叠加效果生成图片,你愿意使用吗?满足你的需求,今天就为大家介绍大名鼎鼎的文生图大合集平台——civitai站长网2023-11-15 20:07:500000两00后为面子租iPhone14不还被起诉:后达成分期还款计划
近日,吉安市中级人民法院发布消息,泰和县法院沙村法庭成功调解了两起租赁手机合同纠纷案。据了解,2023年4月,戴某和郭某在泰和县某租赁公司租赁了两台iPhone14Promax。他们与租赁公司签订了手机租赁服务合同,租期分别为3个月和2个月。然而,戴某和郭某未按约定支付租金,并在租赁期限届满后未能归还租赁物。站长网2024-01-25 14:41:010000AI攻陷谷歌广告联盟,垃圾内容为何能骗到广告费
自去年年末ChatGPT用近乎于人类的对话能力,迅速使得大语言模型成为了资本市场的宠儿,也被外界认为AI这次可能真的要改变世界了。虽然会有一批人因为它而失业,但也可能会有一大批职业在AI的加持下赢得效率革命。当然,从现阶段来说,大模型依然还处于叫好不叫座的状态,日常用它来辅助工作、学习、生活的朋友其实并不多,但如今借助AI的力量来搞邪门歪道,却似乎要远比想象中多。站长网2023-07-04 14:40:280000