Headless语言模型:通过捆绑嵌入提高模型的训练速度
站长网2023-09-20 11:06:292阅
要点:
1. 提出了一种新的预训练方法,称为无预测头语言模型,它移除了对词汇空间概率分布的预测需求,而是关注用对比方式重构表示。
2. 该方法只需要改变目标函数,可以直接应用于经典语言模型预训练目标。
3. 在单语和多语编码器以及单语解码器中实验表明,Headless语言模型预训练相比经典方法在给定运算量下表现更好,计算效率更高。
研究人员发现了一种改进语言模型性能的方法——Headless语言模型,即将输入嵌入与模型的其他嵌入捆绑在一起,并使用对比损失。通常情况下,语言模型的输入和输出嵌入层是分开的,但这种新方法通过捆绑它们,提高了模型的训练速度和准确性。这一创新有望在大规模语言处理任务中取得广泛应用。
Headless语言模型通过移除语言模型预测词汇空间概率分布的需求,改为学习重构输入嵌入的对比方式,提供了一种创新预训练方法。作者提出了一种对比权重绑定损失,可以直接作为经典语言模型的目标函数替代,因此可以轻松集成到已有代码库中。
论文地址:https://arxiv.org/pdf/2309.08351.pdf
在英文和多语言单向编码器以及英文解码器模型的中等规模预训练实验中发现,在类似运算量下,Headless语言模型相比经典方法有显著提升,下游表现更好,数据效率更高,计算效率也更高。
例如,Headless语言模型在GLUE基准测试上的结果比对应的经典模型高1.6分,在LAMBADA数据集上的准确率提高了2.7分。
此外,训练Headless语言模型可以节省高达20倍的运算量。总的来说,这项工作为以对比学习取代交叉熵作为自监督预训练目标开辟了道路,为语言表示学习提供了一种高效可行的替代方案。
0002
评论列表
共(0)条相关推荐
报告:生成式AI将帮助 60% 的亚洲顶尖企业提高员工保留率
一份新报告显示,到2025年,大约60%的亚洲顶级公司将升级硬件和软件技术,通过个性化工作体验和加强协作来提高员工保留率生成式人工智能作为组织进步的游戏规则改变者而出现,在三个关键领域编织了个无缝的挂毯:智能文档处理(IDP)、生成自动化和知识共享。站长网2024-01-16 16:56:550000Meta 旗下 WhatsApp 在 Beta 版中测试人工智能生成贴纸
Meta旗下的WhatsApp开始测试一项新的AI生成贴纸功能。WABetaInfo报道称,Android版WhatsApp测试计划中的一些测试人员已经发现了这种新的AI驱动的贴纸功能,允许WhatsApp用户基于文本描述生成贴纸。站长网2023-08-16 11:49:080000华为天才少年大模型创业,原职级P20,现主攻AI公文写作
第一批华为天才少年的一员,也入局大模型创业了。谁?李博杰。华为2012实验室原成员,职级P20(技术专家A级别),以第一批“天才少年”的身份于2019年加入华为。离职前,他是2012实验室下属计算机网络与协议实验室助理科学家、副首席专家。再往前追溯,加入华为之前,他是中科大少年班的成员。站长网2023-08-09 09:29:280000顶级技术分析师丹·艾夫斯:AI“淘金热”就像互联网的繁荣一样
站长网2023-06-13 22:27:200000微信小游戏出现新爆款,居然出自一家棋牌大厂?
途游游戏可能度过了10年以来最好的一年。每次在iOS畅销榜上留意新品的时候,总会不自觉地忽略棋牌和捕鱼类游戏。它们总归不那么「游戏」,不太具备参考价值。然而不可置否的是,棋牌和捕鱼十分能挣钱,在途游游戏身上尤甚。根据SensorTower,途游游戏自2021年11月开始进入全球收入榜的TOP30,主要仅靠《捕鱼大作战》这一款游戏,同期这款产品排进了SensorTower国内收入榜的TOP20。站长网2023-06-06 16:24:460000