GPT-4在图灵测试中成功率超过41%,人类保持在63%
站长网2023-11-27 11:45:130阅
**划重点:**
1. 🧪 图灵测试研究中,GPT-4成功率达到41%,人类有63%。
2. 🤯 对比GPT-3.5和GPT-4,显示付费版本在测试中表现更出色。
3. 🧠 图灵预测的计算能力要求未实现,人工智能仍有进步空间。
近期,Jones和Bergen进行了一项关于GPT-4在图灵测试中的研究,结果显示其成功率超过41%。
这一数字相比于传统的人工智能模型,如ELIZA的27%和GPT-3.5的14%,表现出明显的优势。研究设计了25个不同的语言模型,涵盖了各种GPT的版本,其中包括GPT-4。这些模型使用类似于手机消息应用的界面,并在拼写错误、大小写、延迟等方面引入了小的随机变化。
图灵测试是通过与人类进行对话,然后判断对方是人类还是人工智能的测试。与原始的图灵测试不同,这项研究的测试设计更简化,要求参与者在最多5分钟的时间内进行对话,每条消息不超过300字符。共有652名人类参与者完成了1810次测试。
1950年,艾伦·图灵曾预测,到了他认为的未来50年,计算机将具备足够的存储能力,以70%的概率“欺骗”人类。然而,研究表明,即使到了现在,GPT-4等模型也未达到这一水平,最高成功率仅为41%。
图源备注:图片由AI生成,图片授权服务商Midjourney
有趣的是,研究指出GPT-4是付费版本,而GPT-3.5则是免费版本。这表明,付费版本在测试中表现更好,凸显了技术进步对结果质量的影响。
人工智能在图灵测试中取得的进展令人印象深刻,但与人类63%的成功率相比,仍有改进的空间。这一研究进一步探讨了人工智能的发展趋势,揭示了技术的潜在局限性。
0000
评论列表
共(0)条相关推荐
手握10万主播达人,无忧传媒攻不下电商
无忧传媒持续加码电商直播业务,与互联网监管日趋严格,秀场直播行业有关。虽然目前无忧传媒已经在电商直播赛道展露头角,但值得注意的是,目前其仅有几个知名的电商主播,与超十万的主播达人大盘相比,显得微不足道。为了扩大电商业务的影响力,无忧传媒已不满足于抖音内部的流量。站长网2023-07-04 16:18:100001GitHub CEO:软件行业仍将人才供不应求 AI提升效率非替代人
站长之家(ChinaZ.com)9月25日消息:近期,人工智能技术蓬勃发展,其中生成式人工智能ChatGPT引发关注。这类新技术带来的创新,是否会对软件开发行业形成冲击?站长网2023-09-25 15:14:220000快速绘制,实时推理,tldraw+LCM太好玩啦!
近期清华发布的潜在一致性模型LCM以及tldraw结合fal.ai的API发布的实时绘图工具drawfast引起了广泛关注。站长网2023-12-01 10:44:270000ofo被强制执行1686万 涉及承揽合同纠纷
站长之家(ChinaZ.com)2月29日消息:2月28日,据企查查显示,ofo关联公司东峡大通(北京)管理咨询有限公司及其子公司北京拜克洛克科技有限公司近日新增了一则被执行人信息。据悉,该案件涉及承揽合同纠纷,执行标的达到1686万余元。北京市海淀区人民法院负责此次执行工作。站长网2024-02-29 09:04:250000英国科技大臣表示不打算设立全球AI监管机构
划重点1.英国科技大臣MichelleDonelan拒绝了设立全球人工智能监管机构的建议,强调英国计划将其AI安全峰会视为建立国际网络和框架的起点,以识别和管理新兴技术的风险。2.她明确表示,该峰会不旨在制定全球性法律法规或建立全球AI监管机构,以平息有关英国是否意欲成为新的全球AI监管机构所引发的猜测。站长网2023-10-18 22:09:430000