研究人员发布了针对ChatGPT和其他LLM的攻击算法

站长网2023-08-07 09:01:480阅

卡内基梅隆大学（CMU）的研究人员发表了 LLM Attacks，这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击的算法，包括 ChatGPT、Claude 和 Bard。这些攻击是自动生成的，对 GPT-3.5和 GPT-4的成功率为84%，对 PaLM-2的成功率为66%。

与大多数通过试错手动构建的“越狱”攻击不同，CMU 团队设计了一个三步过程，自动生成提示后缀，可以绕过 LLM 的安全机制，并导致有害的响应。这些提示也是可转移的，意味着一个给定的后缀通常可以作用于许多不同的 LLM，甚至是闭源模型。为了衡量算法的有效性，研究人员创建了一个名为 AdvBench 的基准;在这个基准上评估时，LLM Attacks 对 Vicuna 的成功率为88%，而基线对抗算法的成功率为25%。根据 CMU 团队的说法:

也许最令人担忧的是，这种行为是否能够被 LLM 提供商完全修复。类似的对抗攻击在计算机视觉领域已经被证明是一个非常难以解决的问题，在过去的10年里。有可能深度学习模型的本质使得这种威胁不可避免。因此，我们认为在增加对这种 AI 模型的使用和依赖时，应该考虑到这些因素。

随着 ChatGPT 和 GPT-4的发布，许多越狱这些模型的技术出现了，它们由可以导致模型绕过其安全措施并输出潜在有害响应的提示组成。虽然这些提示通常是通过实验发现的，但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure， here is （content of query）”，其中“content of query”是用户实际的提示，要求有害响应。

接下来，算法通过使用贪婪坐标梯度（GCG）方法，生成一个提示后缀，可以导致 LLM 输出目标序列。虽然这确实需要访问 LLM

研究人员发布了针对ChatGPT和其他LLM的攻击算法

0000

评论列表

共(0)条

相关推荐

站长资讯
全球最强大模型一夜易主，GPT-4时代终结，Claude 3提前狙击GPT-5，3秒读懂万字论文理解力接近人类
【新智元导读】就在刚刚，GPT-4被从大模型铁王座上扯下来了!OpenAI最强竞对Anthropic发布的Claude3系列模型，已经实现了对GPT-4的全面超越。网友表示:GPT-4时代已经终结，OpenAI可以请出Q*了。卷疯了卷疯了，大模型又变天了。就在刚刚，全球最强AI模型一夜易主，GPT-4被拉下神坛。
站长网2024-03-05 14:22:55
0001
站长资讯
刚刚，一位机器人戴着毕业帽走出清华
这年头，人形机器人都有清华的学士帽戴!这位走出清华二校门的机器人，简直要把门口参加暑期研习营的小孩们馋哭‍了。‍不‍仅拥‍有清华紫学士帽，在刚刚结束的WAIC“具身通用人工智能”论坛上，这个名叫小星的人形机器人，还和图灵奖得主、中国科学院院士姚期智合影贴贴。是谁羡慕了?我不说。
站长网2023-07-30 21:57:51
0000
站长资讯
飞书公布AI助手“My AI” 可做会议纪要、创办待办事项等
日前，字节跳动旗下办公软件飞书公布了AI助手「MyAI」。从官方演示来看，MyAI类似微软推出的OfficeCopilot，可为用户做会议纪要、自动创办待办事项、一键整理销售报告、对齐OKR等等，均通过自然语言交互完成。
站长网2023-04-12 14:48:41
0000
站长资讯
小米发布6月限时购车权益：送座椅终身增强智驾
站长之家(ChinaZ.com)5月31日消息:小米汽车宣布，从6月1日至6月30日，消费者在全系车型下定，将继续享受与5月相同的限时购车权益。这份礼包中包含了价值8000元的Nappa真皮座椅，以及小米智能驾驶增强智驾功能的终身免费使用权，为消费者的购车选择增添了更多诱惑。
站长网2024-06-01 20:30:47
0000
站长资讯
OpenAI 正在与 Helion Energy 洽谈“购买大量”聚变能源
据《华尔街日报》报道，西雅图地区的核聚变公司HelionEnergy正在与OpenAI洽谈一项重大交易，计划为后者的数据中心提供大量电力。OpenAI首席执行官兼联合创始人SamAltman已向Helion投资3.75亿美元，并担任该公司董事会主席。据报道，Altman在此次交易谈判中回避了直接参与。
站长网2024-06-04 14:56:29
0000