MIT斯坦福Transformer最新研究:过度训练会让中度模型“结构顿悟”
要点:
经过过度训练,中度模型如Transformer表现出结构性泛化能力,被称为"结构顿悟"(Structural Grokking)。
研究发现,对于Transformer类模型,长时间训练后,模型在泛化到新结构输入时能够有效地捕捉到句子的层级结构。
结果显示,模型的深度对结构顿悟呈倒U形缩放,中深度模型的泛化能力较深度和浅度模型更强。
最新研究指出,经过过度训练,中度的Transformer模型能够展现出结构性泛化能力,这一现象被称为"结构顿悟"。在自然语言处理中,先前的研究认为像Transformer这样的神经序列模型在泛化到新的结构输入时难以有效地捕捉句子的层级结构。
论文地址:https://arxiv.org/pdf/2305.18741.pdf
然而,斯坦福和MIT的研究人员发现,通过对Transformer类模型进行长时间的训练,模型能够获得这种结构性的泛化能力。他们将这一现象命名为"结构顿悟",形容为神经网络经历了一个"aha moment",在训练的某一刻忽然实现了对层级结构的理解。这种现象的发生被证明在不同数据集上呈现出倒U形的深度缩放,中深度模型的泛化能力表现最佳。
研究进一步指出,提前停止训练会导致泛化性能被低估,而中度深度的Transformer模型在泛化到新结构输入时呈现出显著的优势。研究还分析了结构顿悟的内部属性,包括参数权重的L2norm、注意力稀疏性和模型的树结构性。结果显示,中度深度模型在这些属性上表现出最佳的结构顿悟,而权重范数和注意力稀疏性的动态变化与模型的泛化性能密切相关。
这项研究为理解神经序列模型的泛化机制提供了新的视角。通过揭示结构顿悟的存在,研究强调了模型深度与泛化性能之间的关系,并为改善自然语言处理模型的泛化能力提供了有价值的启示。这一发现有望在未来的深度学习研究中引起更多关注,为模型设计和训练策略提供指导。
蛋白质通用大模型xTrimoPGLM来了 由百图生科与清华大学合作开发
百图生科与清华大学合作开发了一款名为xTrimoPGLM的蛋白质语言模型,该模型的参数量高达1000亿,是目前蛋白质领域首个达到这一规模的“通用大模型”。xTrimoPGLM在13个任务上取得了SOTA(State-of-the-Art)成果,超越了AlphaFold2等蛋白质AI模型。站长网2023-07-10 09:15:510001软银宣布“日本版GPT”开发成功:将在明年推出产品
快科技8月4日消息,早些时候,软银集团CEO孙正义宣布,已经组建了100人左右的团队,准备开发日本版的ChtaGPT”。近日,软银集团电信部门CEO宫川润一宣布,日本版GPT”开发进度顺利,目前正在进行AI的训练过程。预计到2024年,软银就将推出自家日本版GPT”的成品产品。宫川润一声称,为了实现这一宏伟目标”,软银将成立全资子公司SBIntuitions,专注于训练生成式人工智能。站长网2023-08-05 09:08:480000Opera One 全新版本正式发布:原生 AI 集成、新的模块化设计
Opera浏览器的全新版本OperaOne今天正式发布,其在竞争对手中最引人注目的特色是原生人工智能集成。图片来自Opera开发人员表示,OperaOne引入了Aria,它是「第一个真正的原生浏览器人工智能」。用户可以通过命令行或浏览器侧边栏调用Aria,并利用OpenAI的GPT技术优化网页搜索。根据新闻稿:站长网2023-06-21 15:26:070001OpenAI 的战略重心是 API 调用:正在跨越从「尝鲜者」到「早期大众」的鸿沟
根据网络分析公司Similarweb上周发布的最新数据,6月ChatGPT全球访问量出现了推出以来的首次环比负增长,降幅达9.7%,一度引发市场担心。另一家研究机构BernsteinResearch则加强了这一论点,其发现ChatGPT用户的流失率,即停止使用该服务的用户百分比,飙升至20%左右。站长网2023-07-18 03:16:590000过于低效?5成以上开发者觉得开会是在浪费时间
【编者按】多年来,科技界的从业者普遍对会议感到厌倦,调查显示32%的人认为会议没必要。Shopify取消了所有三人以上的会议,节省了322,000个员工工时。会议浪费时间、糟糕的会议造成负面影响,但会议对协作、决策和知识分享有价值。优化会议策略包括精选参与者、明确议程、控制会议时间,使用合适的工具替代部分会议,可以提高工作效率。站长网2023-07-18 12:30:500000