Meta提出全新注意力机制S2A 大模型准确率提升至80.3%

站长网2023-11-28 17:13:220阅

要点:

1. Meta提出的注意力机制S2A能有效提升LLM回答问题的事实性和客观性，降低模型对无关信息的敏感度，使其更准确。

2. S2A通过深思熟虑的注意力机制（System2Attention）解决了LLM在回答问题时容易受上下文中虚假相关性影响的问题，提高了模型的推理能力。

3. S2A的实现方式利用LLM本身构建，通过指令调整的LLM删除不相关文本，重写上下文，以更好地控制注意力焦点，进而提升回答的准确性。

在2023科技领域，大语言模型（LLM）的应用日益广泛，但其在回答问题时存在的问题引起了关注。Meta团队提出的新注意力机制S2A通过解决LLM容易受到上下文虚假相关性的问题，显著提升了模型的准确性和客观性。这一机制的提出得到了深度学习领域的重要人物LeCun的认可，他表示这将有助于使LLM更具推理能力。

传统LLM存在的问题包括对无关信息的过度敏感和容易受到用户观点的影响。S2A通过更深思熟虑的注意力机制，即System2Attention，有效解决了这些问题。以一个数学计算的例子为证，S2A可以过滤掉无关信息，使模型更关注问题的实质，从而提高答案的准确性。

论文地址：https://arxiv.org/pdf/2311.11829.pdf

S2A的实现方式是利用LLM本身构建，通过指令调整的LLM来删除不相关的文本，重新生成上下文。这不仅使模型能够在输出响应之前深思熟虑地推理，还能够控制注意力焦点，类似于人类的方式。实验证明，S2A显著提高了模型的性能，使其更适应复杂的推理任务。

随着理解的加深，添加的文本是无关紧要的，应该被忽略。通过引入更深思熟虑的注意力机制，S2A为解决LLM的问题提供了一种可行的方法，为大型语言模型的进一步发展铺平了道路。

Meta提出全新注意力机制S2A大模型准确率提升至803

0000

评论列表

共(0)条

相关推荐

站长资讯
视觉语言模型BLIVA:让AI更擅长阅读图像中的文本懂得看路牌和食品包装
文章概要:1.BLIVA是一种视觉语言模型，擅长读取图像中的文本。2.BLIVA结合了InstructBLIP的学习查询嵌入和LLaVA的编码修补嵌入。3.BLIVA在多个数据集上表现优异，可用于识别路牌、食品包装等场景。BLIVA是一种视觉语言模型，擅长读取图像中的文本，使其在许多行业的现实场景和应用中发挥作用。
站长网2023-08-28 11:38:20
0000
站长资讯
百度百家号宣布百+加热功能升级可一键跳转至百+官网
百度百家号宣布，百将于1月8日完成加热功能的全面升级。据悉，百是百度的内容加热和助推工具，可以帮助创作者和品牌主将内容推荐给更多潜在用户，提升作品热度和营销转化能力。它依托于百度的超大用户规模，通过智能推荐和定向投放的方式，展示加热后的图文、视频、直播等内容。
站长网2024-01-05 16:39:22
0000
疯抢82亿件电商退换货，快递企业赢麻了
不断攀升的电商退换货率，正在“拯救”深陷低价战泥潭中的快递企业。据近期丰巢招股书中披露数据，去年全国电商退换货快递高达82亿件，预计2028年会增长到209亿件，换算下来，现在每天有超过2000万件商品被退换货。而四年后，每两天就会有1亿多件商品被退换货。
站长网站长资讯2024-10-18 23:40:32
0000
站长资讯
微软 AI 驱动的 Office 文档 Microsoft 365 Copilot 定价每月 30 美元
微软将为采用其最新技术的企业用户提供AI驱动的Office文档未来，并为此定下了一个高昂的价格。Microsoft365Copilot将以每个用户每月30美元的价格提供给Microsoft365E3、E5、商业标准版和商业高级版的客户。
站长网2023-07-19 12:29:53
0000
站长资讯
国产大模型黑马诞生，千亿级拿下双榜第一！知识正确性能力突出，大幅降低LLM幻觉问题
【新智元导读】夸克，也下场大模型了。甫一问世，夸克大模型就迅速登顶权威测评双榜第一，幻觉率大幅降低，可以预见，风靡年轻人的夸克APP，要掀起新的飓风了。最近的各大手机厂商和互联网公司，都在卯足了劲儿地发布大模型。而其中的一匹黑马，显得格外引人注目——千亿级在C-Eval和CMMLU两大权威评测中拿下双榜第一，百亿级在法律、医疗、问答等领域的性能评测中名列榜首。
站长网2023-11-25 13:43:08
0000