MIT微软证实GPT-4具备自我纠错能力较弱的模型则没有这种能力

站长网2023-07-05 19:13:321阅

最近，麻省理工学院（MIT）和微软的研究学者发现，GPT-4在自修复方面表现出了有效能力，而GPT-3.5则没有。此外，GPT-4还能够对GPT-3.5生成的代码提供反馈。

大型语言模型（LLM）已经被证明可以从自然语言中生成代码片段，但在应对复杂的编码挑战，例如专业竞赛和软件工程专业面试时，仍然面临巨大挑战。最近的研究试图通过自修复来提高模型的编码性能，自修复是指模型反思并纠正自身代码中的错误。

论文地址：https://arxiv.org/pdf/2306.09896.pdf

从本研究的实验中，研究者得出以下发现:

考虑到检查和修复的成本，只有GPT-4的自修复能力能够提供性能收益;对于GPT-3.5，在所有配置下，修复的通过率低于或等于基线模型或无修复方法的通过率。

即使对于GPT-4，性能提升也是适度的（从66%提升到71%的通过率），而且取决于初始程序是否具有足够的多样性。实验的预算是使用7000个标记，约45个独立同分布(i.i.d.)的GPT-4样本。

使用GPT-4生成的反馈替代GPT-3.5对错误的解释，可以获得更好的自修复性能，甚至超过了基线的无修复GPT-3.5方法（从50%提升到使用7000个标记时的54%）。

使用人类的解释代替GPT-4自身的解释可以显著改善修复结果，从而使通过测试的修复程序数量增加57%。

爱丁堡大学的博士生符尧表示:“只有GPT-4具备自我改进的能力，而较弱的模型则没有，这一发现非常有趣，表明大型模型可能具有一种新型的涌现能力，即通过改进自然语言反馈来实现，这种能力可能只存在于模型足够成熟（大而整齐）的情况下。类似的能力在论文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及。”

MIT微软证实GPT4具备自我纠错能力较弱的模型则没有这种能力

0001

评论列表

共(0)条

相关推荐

站长资讯
每周AI大事件 | 文心一言上线5大插件、OpenAI宣布首笔公开收购、GPT-4新增审核功能
欢迎来到站长之家的[每周AI大事件]，这里记录了过去一周值得关注的AI领域热点内容，帮助大家更好地了解人工智能领域的动态和发展风向。PART1动态[国内要闻]1.B站称已将大模型应用于旗下业务
站长网2023-08-19 01:13:09
0005
站长资讯
和定制的AI伴侣谈恋爱，只聊了3分钟他就承诺永远爱我
你会选择和AI恋爱吗?据《纽约时报》报道，全球已超过1000万人愿意选择AI恋人作为自己的伴侣。随着AI技术的不断成熟，AI技术驱动的人机交友软件也有了落地的可能，为你寻找一个AI伴侣不再是难事儿。最近，美国科技公司Luka推出了一款AI交友应用“Blush”。比起市场上已有的AI聊天机器人，Blush更像是一款恋爱约会模拟器。
站长网2023-07-08 17:08:57
0001
站长资讯
苹果独立的 AR 增强眼镜离上市至少还有四年时间
据彭博社的MarkGurman报道，苹果公司的增强现实眼镜设备距离推出至少还要四年时间。
站长网2023-05-19 14:28:40
0000
站长资讯
AI日报：Claude推Artifacts分享、重新混合功能；Magnific发布PS插件；Ollama0.2版本发布
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、独立开发者狂喜！Claude推Artifacts分享功能可在别人基础上修改
站长网2024-07-11 08:56:44
0000
站长资讯
恶意解读“小土豆”“小砂糖橘”等称呼微博：禁言！
快科技1月7日消息，近日微博管理员发布通告称，部分用户由于恶意解读小土豆”大冻梨”小砂糖橘”等称呼被禁言。通告表示，近期哈尔滨旅游爆火引发了广泛关注和讨论，而小土豆”、大冻梨”、小砂糖橘”等彼此间的爱称也在增加趣味的同时传递着友善与温情。但有个别用户罔顾事实刻意带节奏，恶意解读各种爱称并趁机挑动地域对立、性别对立，甚至发布人身攻击、地域攻击等极端言论。
站长网2024-01-07 15:34:02
0000