Vary-toy:具有高级视觉词汇视觉语音模型 适用于标准GPU
划重点:
📌 挑战与潜力:大型视觉语言模型(LVLMs)在计算机视觉(CV)和自然语言处理(NLP)交叉任务中表现出色,但在图像感知能力方面仍有潜力待发。
📌 模型结构:目前的LVLMs通常采用图像标记作为前缀或交叉注意力进行特征融合。然而,模型的效率可能受到视觉词汇网络在编码视觉信号方面的限制。
📌 解决方案:MEGVII Technology的研究人员提出了Vary-toy,通过优化视觉词汇创建过程,旨在提高LVLMs的图像感知能力。
在过去的一年里,大型视觉语言模型(LVLMs)已经成为人工智能研究的一个突出焦点。当以不同方式启动时,这些模型在各种下游任务中表现出色。然而,LVLMs在图像感知能力方面仍有显著的提升潜力。
对于推动模型开发和实施,提高对视觉概念的感知能力至关重要。这一进展面临两个主要挑战:当前视觉词汇网络的不足和优化大量参数的高计算成本。
流行的LVLMs在计算机视觉(CV)和自然语言处理(NLP)交叉任务中表现出色,如图像字幕、视觉问答(VQA)、模因理解和场景OCR,主要得益于出色的视觉词汇网络,如CLIP。这些LVLMs通常采用两种主要结构:将图像标记作为前缀或使用交叉注意力进行特征融合。然而,无论架构如何,模型的上限可能受制于其视觉词汇网络在编码视觉信号方面的效率。
为了解决这个问题,研究人员提出了一种简单而有效的方法,通过使用较小的自回归模型(如OPT-125M)训练新的视觉词汇网络,并将其与现有词汇合并,创建最终的LVLM。然而,该方法存在缺点,包括网络容量的浪费和使用7B LLM的Vary-base的高迭代成本。
MEGVII Technology的研究人员推出了Vary-toy,这是一个更小版本,旨在缓解这些问题。这一种具有高级视觉词汇的开创性紧凑型大型视觉语言模型,适用于标准GPU。
Vary-toy沿用了Vary相同的流程,但优化了视觉词汇创建过程。他们不将自然图像视为负样本,而是将目标检测任务纳入词汇网络,结合密集的文本数据(PDF)和自然对象位置数据。这种方法增强了Vary-toy的通用性。在创建和强化词汇之后,他们将其与CLIP合并,并集成到一个1.8B语言模型中。
在DocVQA、ChartQA、MMvet和RefCOCO等具有挑战性的基准测试上的实验结果展示了Vary-toy的能力。它在这些基准测试中取得了出色的性能,展示了其作为更小但强大的LVLM的潜力。
Vary-toy取得了令人瞩目的结果,包括DocVQA上的65.6% ANLS,ChartQA上的59.1%准确率,RefCOCO上的88.1%准确率,以及MMVet上的29%。
Vary-toy的小尺寸使其对于资源有限的研究人员来说成为进一步探索和改进LVLM研究的实用基准。研究人员计划公开发布代码,供研究社区进一步探索和采用。
Vary-toy可实现的场景案例展示:
项目入口:https://top.aibase.com/tool/vary-toy
论文:https://arxiv.org/abs/2401.12503
编剧、导演福音!StoriaBoard:由AI驱动的故事可视化工具
StoriaBoard是一款由先进的生成式人工智能技术驱动的下一代故事板工具,旨在帮助创作者和制片人将他们的创意变成大银幕上的杰作。无论您是一名编剧、导演还是制片人,StoriaBoard都为您提供了强大的工具,以更轻松、更高效地规划和可视化您的故事。体验地址:https://app.storia.ai/核心功能:站长网2023-09-28 16:01:580001市场监管总局修订出台禁止滥用知识产权排除、限制竞争行为规定
据国家市场监督管理总局消息,为鼓励创新,维护知识产权领域公平竞争的市场秩序,助力全国统一大市场建设和知识产权强国建设,结合近年来反垄断监管执法的新形势、新情况、新问题,市场监管总局修订出台了《禁止滥用知识产权排除、限制竞争行为规定》,将于2023年8月1日起正式施行。站长网2023-06-30 01:34:590001百度发布2023年Q1财报:营收311亿元 净利润大幅增长48%
快科技5月16日消息,百度发布截至2023年3月31日的第一季度财务报告。第一季度百度实现营收311亿元,同比增长10%;归属百度的净利润(non-GAAP)达57亿元,同比大幅增长48%,营收和利润双双超市场预期。站长网2023-05-16 20:59:200003Meta Quest 3固件泄“天机”:新头显支持室内物体自动识别
快科技8月31日消息,早些时候,Meta宣布,将在9月27日正式发布新一代VR头显MetaQuest3。现在,这款头显的系统固件泄露,展现出了它的部分新功能。根据目前泄露的信息,Quest3可以通过内置的传感器自动识别房间内的物体,并用网格覆盖。此外,用户还可以通过图标标注物体的类型,比如沙发、桌子等。站长网2023-08-31 20:01:240000报告显示:尽管AI工具普及,人工写作需求依旧旺盛
🔍划重点:1.人工智能内容生成工具兴起,对写作行业产生影响,但新数据显示,写手需求依然强劲。2.自由职业者网站Freelancer.com季度报告显示,2023年第三季度,与写作、内容创作和营销相关的工作是自由职业者市场中增长最快的。3.随着AI技术不断进步,人们对创造性写作的需求持续增加,雇主再次积极寻找自由职业者支持创意写作和内容创作项目。站长网2023-10-19 15:01:400000