外媒:ChatGPT新模型 o4 mini 的“AI幻觉率”高达48%

性能是提升了些,但,“胡说八道”的能力提升得更快,直接登顶……
最近,OpenAI 发布了他们最新的推理型 AI 模型 “o3” 和 “o4 mini” ,它们虽然具备了比上一代更强大的性能,但 AI 幻觉却变得更严重了 —— AI 幻觉是指生成型人工智能编造出实际并不存在的信息,并将其当作事实呈现的现象。
据海外 IT 专业媒体 TechCrunch 报道称,OpenAI 新发布的 o3 模型在 33% 的问题上出现了 AI 幻觉。这一数值是 o1(16%)和 o3 mini(14.8%)的两倍以上。而 o4 mini 模型更加严重 —— 该模型的幻觉率竟然高达 48%,表现出比包括 GPT-4o 在内的现有模型更加不稳定的状态。这一结论是该媒体引援 OpenAI 的 PersonQA 基准测试评估结果而报道的。
OpenAI 在 16 日以 “首款能够将图像融入思考过程的模型” 的口号,隆重介绍并推出这些AI模型。官方解释称,这些模型不仅仅是单纯地识别图像,还能在推理过程中运用视觉信息本身 —— 即 o3 和 o4 mini 模型具备了分析用户上传的图画、图表、图形等内容,以及处理模糊或旋转图像的能力。
在性能方面,在与编码相关的基准测试 SWE 测试中,o3 的得分为 69.1%,o4 mini的得分为 68.1%,不仅超过了之前的模型 o3 mini (49.3%),也高于竞争模型 Claude3.7Sonnet 模型(62.3%)的数值。然而,尽管有这些技术上的进步,AI幻觉出现率却反而比以前有所增加。一直以来,每当有新模型推出时,AI 幻觉的问题都在逐步得到改善,没曾想,OpenAI 这次的新模型却来了个“反其道而行”。
OpenAI 尚未对这一现象的原因给出明确的解释。在技术报告中,分析称:“随着模型需要应对比以前更多的用户请求,不仅是正确的结果,产生错误结果的情况似乎也在增加。” 接着表示,为了查明 AI 幻觉现象增加的确切原因,“需要进行更多的研究”。
人工智能行业认为,此次事件可能会给推理型模型的可靠性带来更多的质疑。特别是在法律、会计、税务等要求高度准确性的行业领域,如果 AI 幻觉问题得不到解决,相关引入推理型 AI 模型的可能性便会减小。
OpenAI 表示:“在所有问题领域完全消除‘幻觉’都是一项持续的研究课题”,并表示 “我们正在继续努力提高准确性和可靠性” 。
蚂蚁集团井贤栋:即将发布的大模型是全栈分布、纯自研的
9月7日,第二届外滩大会在上海开幕。在外滩大会主论坛“科技、金融、产业,融合发展新未来”圆桌对话上,联合国开发计划署可持续金融中心高级顾问迈克尔·舍伦、北京智源人工智能研究院顾问、美国国家工程院外籍院士张宏江、蚂蚁集团董事长兼CEO井贤栋和资深媒体人秦朔,就人工智能、数字科技与产业变革、金融发展进行了深度探讨。站长网2023-09-07 16:27:150000100万粉丝注意了!微博官宣头部“自媒体”账号前台实名显示
快科技10月31日消息,前不久,新浪微博CEO王高飞开始测试前台实名显示功能,会在微博主页显示实名信息。今日晚间,微博官方正式宣布这一全新运营管理方式。微博管理员官方微博发文称,为营造安全、文明、和谐的网络生态环境,增强平台头部自媒体”账号的可信度及权威性,微博将于近期引导头部自媒体”账号进行前台实名展示。具体说明如下:站长网2023-10-31 21:23:260000苹果被评为美国最糟糕雇主:员工留存率最低 平均1.7年就跳槽
快科技7月29日消息,很多人在找工作时都想进入大厂”,羡慕大公司中的各项福利待遇,以及能够大战拳脚的机会。在科技领域,苹果等公司是绝对当之无愧的龙头,但其中的员工却似乎并没有想象中的幸福,也没那么牢固。最近简历平台Resume.io公布了一份最新的研究报告,苹果公司被评为美国最糟糕的雇主,亚马逊、Meta和特斯拉等大型科技公司也紧随其后。站长网2023-07-29 10:40:220000手持式人工智能设备Rabbit R1一天内售出10000台
站长之家(ChinaZ.com)1月11日消息:近日,初创公司Rabbit推出的R1,一款迷你小工具,旨在提供便捷的应用程序使用体验,宣布在X上的一篇帖子中,首批产品已经售罄,一天内销售量超过10,000台。在该帖子中,Rabbit表示:“当我们开始构建R1时,我们内部期望发布当天能够售出500台设备,”并补充道:“在24小时内,我们已经实现了20倍的销售速度!”站长网2024-01-11 14:01:150001初创公司Particle.news推出“多视角”新闻阅读体验 解决AI对新闻生态系统的影响
由前Twitter工程师领导的团队正在重新思考如何使用人工智能来帮助人们处理新闻和信息。上周末进入内测的Particle.news是一家新的初创公司,提供个性化、“多视角”的新闻阅读体验,,通过利用人工智能来总结新闻,并以公平的方式呈现新闻内容。站长网2024-02-27 11:26:030000