使用 AI 越狱 AI 模型:新方法可系统地探测 GPT-4 等大型语言模型的弱点,从而使其行为异常
上个月,OpenAI 董事会突然解雇了该公司的首席执行官,这引发了人们的猜测:董事会成员对人工智能突飞猛进的发展速度以及过快寻求技术商业化可能带来的风险感到震惊。
Robust Intelligence 是一家成立于 2020 年的初创公司,与耶鲁大学的研究者合作,开发了一种探测大型语言模型(LLMs)的系统性方法,包括 OpenAI 的 GPT-4。这种方法使用「对抗性」AI 模型发现能使语言模型行为异常的「越狱」提示。
在 OpenAI 董事会突然解雇公司首席执行官的背景下,Robust Intelligence 的研究工作引发了人们对 AI 技术进展速度及其商业化风险的关注。该公司警告称,一些现有的风险需要更多的关注。
尽管研究人员已向 OpenAI 发出了漏洞警告,但他们表示尚未收到回应。
哈佛大学计算机科学教授兼 Robust Intelligence 首席执行官 Yaron Singer 表示:「我们的发现表明,存在一种系统性的安全问题,目前这些问题尚未得到解决和关注。」
OpenAI 的发言人 Niko Felix 表示,公司对研究者分享他们的发现表示「感激」。Felix 说:「我们一直在努力使我们的模型在抵御对抗性攻击的同时保持其实用性和性能,使其更加安全和强大。」
新的越狱方法涉及使用额外的人工智能系统来生成和评估提示,系统试图通过向 API 发送请求来实现越狱。这只是一系列攻击中的最新一招,这些攻击似乎凸显了大型语言模型的根本弱点,并表明现有的保护这些模型的方法远远不够。
卡内基梅隆大学(Carnegie Mellon University)教授 Zico Kolter 说:「我非常担心,我们似乎很容易就能攻破这类模型,」他的研究小组在今年 8 月展示了大型语言模型中的漏洞。
Kolter 说,现在有些模型已经有了可以阻止某些攻击的防护措施,但他补充说,这些漏洞是这些模型工作方式的固有缺陷,因此很难防御。 Kolter说:「我认为,我们需要明白,这些漏洞是许多 LLM 固有的,」他说:「我们没有明确而行之有效的方法来防止它们。」
大型语言模型是最近出现的一种强大的、变革性的新型技术。一年前,OpenAI 的 ChatGPT 发布,其功能令普通人眼花缭乱,大型语言模型的潜力成为头条新闻。
在 ChatGPT 发布后的几个月里,发现新的越狱方法成了调皮用户以及对人工智能系统的安全性和可靠性感兴趣的人的热门消遣。但是,现在有几十家初创公司正在大型语言模型 API 的基础上构建原型和成熟的产品。OpenAI 在 11 月举行的首次开发者大会上表示,目前已有 200 多万开发者在使用其 API。
这些模型只是预测给定输入后应该出现的文本,但它们是在大量文本的基础上训练出来的,这些文本来自网络和其他数字资源,使用大量计算机芯片驱动,历时数周甚至数月。只要有足够的数据和训练,语言模型就能表现出超凡的预测能力,对各种输入做出反应,并提供连贯、贴切的信息。
这些模型也会表现出从训练数据中学到的偏差,当提示的答案不太直接时,它们往往会编造信息。如果没有保障措施,它们就会向人们提供如何获取毒品或制造炸弹等建议。为了对模型进行控制,这些模型背后的公司采用了同样的方法,使它们的回答看起来更连贯、更准确。这包括让人类对模型的回答进行评分,并利用反馈意见对模型进行微调,使其不易发生错误行为。
Robust Intelligence 提供了几个越狱示例,展示了如何绕过现有的安全措施。这些越狱不一定都能在 GPT-4 上运行的 ChatGPT 聊天机器人上工作,但其中一些,如生成网络钓鱼信息和为恶意行为者提供在政府计算机网络上隐藏的方法,是有效的。
纽约大学计算机安全和机器学习研究的副教授 Brendan Dolan-Gavitt 表示,Robust Intelligence 揭示的新技术表明,通过人类微调来确保模型安全并非万无一失。
Dolan-Gavitt 说,正在基于 GPT-4 等大型语言模型构建系统的公司应该采取额外的安全措施。他说:「我们需要确保设计使用 LLMs 的系统时,越狱不能让恶意用户访问他们不应该访问的内容。」
亚马逊推出AI助手Amazon Q 企业可提问公司数据
亚马逊云计算业务AWS最近推出了一款名为AmazonQ的聊天工具,企业可以在其中就公司数据提出问题。AWS首席执行官亚当·塞利普斯基在AWSre:Invent大会的主题演讲上宣布了这一消息。站长网2023-11-29 11:04:220000机器人也不怕被忽悠瘸了(doge)
四足机器人走着走着突然断了一条腿,还能继续前进吗?来自谷歌和密歇根大学的最新成果,给出了非常肯定的答案。他们发明的一种叫做AutoRobotics-Zero(ARZ)的搜索算法,既不靠大模型,也不用神经网络,可以让机器人一旦遇到剧烈的环境变化,就立刻自动更改行动策略。譬如断腿照样走:相比之下,别的神经网络方法还是这样婶儿的(手动狗头):英伟达AI科学家JimFan评价:站长网2023-08-07 17:44:2000002023十大营销事件盘点,请收藏学习!
2023年已经接近尾声,每年年底都是最适合做年终复盘和制定未来计划的。2023是消费复苏的一年,也是一众品牌顶着压力自建出新的一年。与此同时,还有AI迭代、人工智能浪潮来袭……人们所期待的全新格局正在建立,挑战和不确定性让大家对广告品牌行业的未来更加怀抱冀望。在迈步向前的同时,营销人也需要不时停驻复盘,这样方可行得更远。0000想不起电影名字?Film Recommender只需通过简单文字描述即可匹配电影
FilmRecommender是一款电影个性化推荐与发现工具。它允许用户通过简单的文字描述,比如提供背景设定、情节、主题或演员等信息,来查找和发现感兴趣的电影。体验地址:https://filmfinder.ai/FilmRecommender具有以下核心功能和价值:1.个性化电影推荐站长网2023-08-28 10:15:130000Unity中国推出Unity中国版引擎“团结引擎”
Unity中国正式发布了名为“团结引擎”的Unity中国版引擎。据介绍,该引擎已经兼容适配了中国科技生态内的众多软硬件平台。团结引擎目前支持Windows、Mac、Linux操作系统,以及Android、iOS、WebGL、WeixinMiniGame、HMIAndroid、QNX、EmbeddedLinux平台,并即将支持OpenHarmony开源项目和AliOS操作系统。站长网2023-08-24 16:51:300000