MIT微软证实GPT-4具备自我纠错能力 较弱的模型则没有这种能力
最近,麻省理工学院(MIT)和微软的研究学者发现,GPT-4在自修复方面表现出了有效能力,而GPT-3.5则没有。此外,GPT-4还能够对GPT-3.5生成的代码提供反馈。
大型语言模型(LLM)已经被证明可以从自然语言中生成代码片段,但在应对复杂的编码挑战,例如专业竞赛和软件工程专业面试时,仍然面临巨大挑战。最近的研究试图通过自修复来提高模型的编码性能,自修复是指模型反思并纠正自身代码中的错误。
论文地址:https://arxiv.org/pdf/2306.09896.pdf
从本研究的实验中,研究者得出以下发现:
考虑到检查和修复的成本,只有GPT-4的自修复能力能够提供性能收益;对于GPT-3.5,在所有配置下,修复的通过率低于或等于基线模型或无修复方法的通过率。
即使对于GPT-4,性能提升也是适度的(从66%提升到71%的通过率),而且取决于初始程序是否具有足够的多样性。实验的预算是使用7000个标记,约45个独立同分布(i.i.d.)的GPT-4样本。
使用GPT-4生成的反馈替代GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过了基线的无修复GPT-3.5方法(从50%提升到使用7000个标记时的54%)。
使用人类的解释代替GPT-4自身的解释可以显著改善修复结果,从而使通过测试的修复程序数量增加57%。
爱丁堡大学的博士生符尧表示:“只有GPT-4具备自我改进的能力,而较弱的模型则没有,这一发现非常有趣,表明大型模型可能具有一种新型的涌现能力,即通过改进自然语言反馈来实现,这种能力可能只存在于模型足够成熟(大而整齐)的情况下。类似的能力在论文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及。”
推特将允许用户从eToro购买和出售股票和其他资产
推特将与eToro合作,让用户访问并交易股票、加密货币和其他金融资产。eToro透露,从当地时间周四晚些时候开始,推特应用程序将推出一项新功能,该功能允许用户查看更多金融工具的市场图表,并从eToro平台上买卖股票和其他资产。站长网2023-04-15 09:58:560000斯坦福大学实锤GPT-4变笨了,OpenAI最新回应:确实存在“智力下降”
大模型天花板GPT-4,它是不是……变笨了?之前有不少用户提出质疑,并晒出了不少证据。对此,OpenAI7月14日澄清:“我们没有把GPT4弄笨。相反的,我们的每个新版本,都让GPT4比以前更聪明了。”PeterWelinder是OpenAI的产品产品VP但为了验证OpenAI的说法,斯坦福大学和加利福尼亚大学伯克利分校的三位研究员调查了3月至6月期间ChatGPT性能的变化。站长网2023-07-21 22:05:360000小红书金字塔运营模型:从流量到战略,做短期到长期价值
复盘了下近期和客户沟通的内容,发现大部分客户的问题都万变不离其宗。小红书如何做爆文?产品适不适合小红书?怎么投广告?如何选择达人?小红书投放要花多少钱等等。针对大家的问题,我总结了一个金字塔分层模型来帮大家理清不同阶段的商家应关注的底层逻辑,走多远都不能忘记出发的路。金字塔分层模型主要是从流量、生意、品牌和战略四个层面出发,图1:小红书运营4大层面一、流量层站长网2023-05-18 16:51:240000卡内基大学开源TOFU框架,帮助大模型遗忘隐私数据
要点:1、TOFU框架包含遗忘、数据集、评估等多个模块,提升大模型的安全性。2、TOFU数据集帮助深入理解大模型的遗忘过程,并提供全新的评估方案。3、TOFU的遗忘模块可以帮助开发者移除敏感数据,使大模型在行为上表现得好像从未学习过这些遗忘数据一样。站长网2024-01-19 10:03:340000特斯拉2023全年电动车交付量达181万辆 同比增长38%
昨日晚间,特斯拉发布了2023年的成绩单。2023年,特斯拉全年车辆交付同比大增38%,达到惊人的181万辆,同时产量也同比增长35%至185万辆,双双创下历史新高。在第四季度,特斯拉更是交付了484,507辆汽车,超出了市场预期的483,173辆。这一强劲表现主要得益于Model3/Y的持续热销,全年共交付了1,739,707辆,占据总交付量的绝大部分。站长网2024-01-03 08:54:340000