CipherChat:一个评估 LLM 安全对齐泛化能力的框架
CipherChat 是一个AI 框架,旨在系统地研究将安全对齐方法应用于非自然语言(具体来说是密码)的可行性。CipherChat 通过密码提示、系统角色分配和简洁的加密演示,使人类与 LLM(Large Language Models)进行交互,全面检查 LLM 对密码的理解、参与对话的能力以及对不恰当内容的敏感度。
项目地址:https://github.com/RobustNLP/CipherChat
研究强调了在处理非自然语言(如密码)时创建安全对齐方法的重要性,以确保与基础 LLM 的能力相匹配。
通过对 ChatGPT 和 GPT-4等现代 LLM 进行多个实验,研究发现一些密码能够成功规避 GPT-4的安全对齐程序,在某些安全领域几乎达到100% 的成功率。
研究还揭示了 LLM 中存在秘密密码的现象,研究团队推测 LLM 可能具有解密特定编码输入的潜在能力,从而暗示了一种独特的与密码相关的能力存在。基于这一观察,研究引入了一个名为 SelfCipher 的框架,通过角色扮演场景和少量自然语言演示来激活 LLM 内部的秘密密码能力。SelfCipher 的有效性展示了利用这些隐藏能力来提高 LLM 解密编码输入和生成有意义响应的潜力。
产品特点:
1. CipherChat 是一个用于评估 LLM(语言模型)的安全对齐泛化能力的框架。
2. 该框架可以系统地检查安全对齐在非自然语言(如密码)上的普适性。
3. 提供了一个示例运行命令和参数说明。
4. 通过使用密码将输入转换为对 LLM 的安全对齐不太可能覆盖的格式,实现了对安全对齐的规避。
5. 使用基于规则的解密器将 LLM 的输出从密码格式转换为自然语言形式。
6. 提供了实验结果和案例研究,以及消融研究和其他模型的讨论。
7. 可以在论文中找到更多详细信息,并提供了引用。
请注意:本产品仅供研究使用,严禁滥用。
小米14影像系统跨越式升级 首发搭载光影猎人传感器
小米14系列将于10月26日晚正式发布,官方今日公布了关于影像方面的预热信息。小米与徕卡联合打造了新镜头,并带来了全新的影像传感器品牌光影猎人。小米14将首发搭载光影猎人传感器,具备全时态、全场景下的超强瞬间精准捕捉能力。雷军亲自透露:“小米14影像系统跨越式升级,标准版就已经强到不可思议的程度。”站长网2023-10-24 21:42:180000蔚来与吉利控股签署换电战略合作协议
2023年11月29日,浙江吉利控股集团有限公司与蔚来控股有限公司在杭州签署了换电战略合作协议,双方将在换电电池标准、换电技术、换电服务网络建设及运营、换电车型研发及定制、电池资产管理及运营等多个领域展开全面合作。站长网2023-11-29 14:01:430000“百模大战”,来了
一夜之间,AI大模型热得发烫。继3月中旬,百度最先下场,以“文心一言”抢占了对标ChatGPT的“国内第一”后,过去一个月,大模型一直是市场的焦点。尤其是在过去一周里,各界选手纷纷“大干快上”,密集开“卷”,要么直接卷大模型,要么卷产品卷Demo,要么卷预告卷进展。总之,大模型江湖,彻底火起来了。百度最先挑起战事,阿里、商汤跟得最紧、跑得最猛,都已发布类ChatGPT产品。站长网2023-04-13 09:45:260000腾讯与悉尼大学联手打造GPT4Video:显著提升大语言模型视频生成能力
**划重点:**1.🤖**GPT4Video简介:**腾讯与悉尼大学合作推出GPT4Video,这是一个统一的多模态框架,赋予大型语言模型(LLMs)独特的视频理解和生成能力。2.🧠**技术亮点:**GPT4Video通过引入视频理解模块、LLM主体和视频生成组件,弥补了现有多模态语言模型在生成多模态输出方面的不足。站长网2023-12-07 09:36:470000微软与穆迪达成战略合作:基于 Azure OpenAI 服务的 Moody’s CoPilot 已部署给全球 1.4 万名员工
站长之家(ChinaZ.com)6月30日消息:穆迪公司今天宣布与微软公司达成战略合作伙伴关系,为金融服务和全球知识工作者提供下一代数据、分析、研究、协作和风险解决方案。图片来自Microsoft站长网2023-06-30 19:36:100000