Anthropic AI 团队研究显示:人工智能倾向于产生迎合用户的奉承性回应而非事实真相
站长之家(ChinaZ.com) 10 月 25 日消息:Anthropic 是一家美国的人工智能初创企业和公益公司,由 OpenAI 的前成员创立。Anthropic 专注于开发通用 AI 系统和语言模型,并秉持负责任的 AI 使用理念。Anthropic 开发的 Claude 2 于 2023 年七月推出。
根据 Anthropic AI团队的一项研究,建立在最常见学习范式之一的人工智能(AI)大型语言模型(LLMs)倾向于告诉人们他们想听到的东西,而不是生成包含真实信息的输出。
这是首批深入探讨 LLMs 心理学的研究之一,Anthropic 的研究人员发现,人类和 AI 都倾向于在一些时候选择所谓的奉承性回应,而非真实信息的输出。
根据该团队的研究论文:
「具体来说,我们展示了这些 AI 助手在被用户质疑时经常错误地承认错误,提供可预测的偏见反馈,并模仿用户犯的错误。这些实证发现的一致性表明,奉承可能确实是 RLHF(来自人类反馈的强化学习)模型训练方式的一个属性。」
本质上,这篇论文表明,即使是最强大的 AI 模型的回应也有些犹豫不决。在团队的研究中,他们能够通过使用倾向于奉承的语言编写提示,微妙地影响 AI 的输出。
在一个示例中,来自 X(前身为 Twitter)的帖子显示,一个提示表明用户(错误地)认为从太空中看太阳是黄色的。可能是由于提示的措辞方式,AI 在明显的奉承情况下产生了不真实的答案。
论文中的另一个示例显示,表明用户不同意 AI 的输出可能会导致立即出现奉承现象,因为模型在最小的提示下将其正确答案更改为错误答案。
最终,Anthropic 团队得出结论,这个问题可能是由于 LLMs 的训练方式。由于它们使用了充满不同准确性信息的数据集,例如社交媒体和互联网论坛帖子,通常通过一种名为「来自人类反馈的强化学习」(RLHF)的技术来实现对齐。
在 RLHF 范式中,人类与模型互动以调整其偏好。例如,在调整机器对可能引起个人识别信息或危险误信息的提示的响应时,这是有用的。
不幸的是,正如 Anthropic 的研究实证显示的,为调整用户偏好而构建的人类和 AI 模型倾向于选择奉承性答案而非真实答案,至少在「不可忽略」的一部分时间里是这样。
目前,似乎还没有解决这个问题的解决办法。Anthropic 建议,这项工作应激励「开发超越使用无辅助、非专家人类评级的训练方法」。
AI视野:ChatGPT和API发生重大中断;GPTs分阶段推出计划延迟;中国第二批11个大模型备案获批;阿里将开源720亿参数大模型
📰🤖📢AI新鲜事ChatGPT和API发生重大中断!11月9日凌晨,OpenAI在官网发布,ChatGPT和API发生重大中断,导致全球所有用户无法正常使用,宕机时间超过2小时。OpenAI已经找到问题所在并进行了修复,但仍然不稳定,会继续进行安全监控。【AiBase提要】⚠️宕机持续时间超过2小时🔍OpenAI已找到并修复问题🔄系统仍然不稳定,继续进行安全监控站长网2023-11-09 15:43:000000新研究称,利用AI创作者比人类更环保 碳排放更少
文章概要:-最新研究指出,人工智能系统如ChatGPT、BLOOM、DALL-E2和Midjourney完成的文学和艺术作品的碳排放比人类创作者要小得多。-该研究发现,人工智能可以在排放3至4个数量级更少的二氧化碳的同时产生有用的文本和图像。-然而,研究也承认,排放数据没有考虑到人工智能替代人类的影响。站长网2023-09-25 10:42:070000微软和西门子将在工业工作流程中部署生成式AI
西门子正在与微软合作,使用生成式人工智能工具来改进其工业工作流程中。微软的生成人工智能工具库包括人工智能聊天和代码生成,将用来加速和简化西门子的设计、工程、制造和运营流程。两家公司计划使用人工智能来加强西门子团队之间的沟通,加快代码编写速度,以帮助工程师更快地完成工作。这有望提高西门子员工的效率和生产力。站长网2023-04-14 15:17:440000知网 AI 智能写作推出“写作选题”新功能
知网AI智能写作推出了新功能模块——写作选题,它采用了最新的人工智能大模型技术,并以知网总库的海量学术文献资源作为底层分析数据,为研究者和写作者提供科学、智能的写作主题推荐服务。站长网2024-01-16 14:31:400000小鹏汽车申请XPGPT、XMARTGPT等商标
天眼查App显示,近日,广东小鹏汽车科技有限公司申请注册“XMARTGPT”“XPGPT”“XGPT”商标,国际分类涉及运输工具、通讯服务,当前商标状态均为申请中。今年3月,针对GPT-4,小鹏汽车董事长何小鹏曾表示:“GPT是最近数年的全新技术浪潮中,包括元宇宙,区块链,Web3中等中我唯一觉得既是趋势又在眼前又可产生颠覆的。”站长网2023-06-08 16:58:270000