新方法揭示了如何利用一个大语言模型来越狱另一个大语言模型
划重点:
🔍 一项由宾夕法尼亚大学的研究人员开发的新算法可以自动消除大型语言模型(LLM)中的安全漏洞。
🤖 这个名为Prompt Automatic Iterative Refinement(PAIR)的算法可以识别“越狱”提示,防止其生成有害内容。
🌐 PAIR不仅能够与ChatGPT等黑盒模型一起工作,还能够以较少尝试生成越狱提示,且这些提示具有可解释性和可传递性。
一项最新研究揭示了一种新的方法,允许一个大型语言模型(LLM)被用于越狱另一个,以揭示潜在的安全漏洞。
来自宾夕法尼亚大学的研究人员开发了一种名为Prompt Automatic Iterative Refinement(PAIR)的算法,该算法能够自动停止LLMs中的安全漏洞,防止其生成有害内容。
图源备注:图片由AI生成,图片授权服务商Midjourney
PAIR算法的独特之处在于它能够与黑盒模型(如ChatGPT)一起工作,而且它在生成越狱提示时所需的尝试次数较少,而且这些提示具有可解释性,可以在多个模型之间传递。这使得企业能够以经济高效的方式识别和修复其LLMs中的漏洞。
在研究中,研究人员使用了一个名为Vicuna的开源LLM作为攻击模型,并测试了多个目标模型,包括开源模型和商业模型。
研究结果显示,PAIR成功越狱了GPT-3.5和GPT-4的60%的设置,甚至在一些情况下只需要几十个查询,平均运行时间约为五分钟。这明显改进了现有的越狱算法,后者通常需要数千个查询和平均150分钟的攻击时间。
此外,PAIR生成的攻击具有人类可解释性,可以轻松传递到其他LLMs。研究人员认为这是由于PAIR的对抗性提示的语义性质,这些提示针对语言模型中的类似漏洞,因为它们通常是在相似的下一个单词预测任务上训练的。
PAIR算法的出现代表了一种使用LLMs作为优化器的新趋势。以前,用户不得不手动制作和调整提示以从LLMs中提取最佳结果。然而,通过将提示过程转化为可度量和可评估的问题,开发人员可以创建算法,其中模型的输出被循环用于优化,这将加速LLM领域的发展,可能引领领域中的新的和未预见的进展。
谷歌扩展 Vertex AI 搜索和对话功能
要点:谷歌在其GoogleCloudNext大会上,正式为其企业AI平台VertexAI引入了新的功能,旨在实现更高级的用户工作流程等。谷歌已经将VertexAI搜索和对话能力从上一次的GoogleI/O预览版本扩展到新的功能,并宣布其正式上线。VertexAI搜索让开发者可以从各种企业源中检索信息,如文档库、数据库、网站等。他们可以轻松构建一个与客户交互的搜索引擎。站长网2023-09-04 10:48:180000英特尔:新一代酷睿Ultra处理器已适配超10款国内大模型
在联想集团于12月7日举办的“AIPC产业创新论坛”上,英特尔中国区技术总经理高宇透露,新一代的酷睿Ultra处理器已经适配了超过10款国内的大型AI模型。0001云从科技将于5月18日发布大模型产品 涵盖金融、游戏等多个领域
据36氪报道,人脸识别供应商云从科技将于5月18日发布大模型产品。据知情人士称,云从科技正在全力投入行业大模型研发,将其引入人机协同操作系统中。消息称,云从科技的大模型产品将主要应用于智慧金融、智慧交通以及公司此前披露定增预案中所述领域。该公司的大模型产品将面向政府、企业以及消费者三个方向,覆盖金融、游戏、质量、交通等多个领域。站长网2023-05-09 12:02:320003诺基亚宣布裁员16%:砍掉1.4万人
快科技10月19日消息,据国外媒体报道,诺基亚发布的三季度业绩报告显示,三季度净销售额为49.8亿欧元(约合384亿元人民币),低于之前的预估数额。其第三季度调整后营业利润为4.24亿欧元(约合32.7亿元人民币),低于预估的5.564亿欧元(约合43亿元人民币)。作为全球最大通信设备制造商之一,诺基亚目前面临着诸多挑战,包括全球经济增速放缓,以及手机运营商减少对基础设施的投资等等。站长网2023-10-19 21:37:580000对话漫友CEO赖春晖:AI 来了,漫画家还有未来吗?
能靠画漫画养活自己甚至实现财富自由的人只是凤毛麟角,大部分基层动漫作者仍然面临生存问题。很多动漫从业者自称“画手”,因为他们只负责漫画的线稿、上色、排版等工作。AI技术的应用,将加剧金字塔底的就业危机。各种娱乐形式在争夺用户的注意力和时间,漫画行业的市场环境和消费生态都发生了很大的变化,国内已经很难出现像漫威宇宙、《海贼王》《龙珠》这样量级的国民级漫画。站长网2023-05-04 14:08:260000