哈工深发布多模态大模型九天性能提升5%

站长网2023-12-04 14:15:490阅

要点:

九天（JiuTian-LION）是哈尔滨工业大学(深圳)发布的全新多模态大语言模型，通过双层视觉知识增强，在13个视觉语言任务上取得了state-of-the-art性能，特别在Visual Spatial Reasoning上提升了5%。

视觉信息提取不足问题得到解决，九天模型通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据，有效提升了视觉理解能力，减轻了MLLMs的幻觉现象。

新方法框架包括分段指令微调策略和混合适配器，解决了图像级理解任务和区域级定位任务之间的冲突，同时引入了软提示方法以提高高层语义注入的效果。

哈尔滨工业大学（深圳）近期发布了名为九天(JiuTian-LION)的多模态大语言模型，通过融合细粒度空间感知和高层语义视觉知识，取得了在13个视觉语言任务上的state-of-the-art性能，尤其在Visual Spatial Reasoning任务上实现了5%的性能提升。

论文链接:https://arxiv.org/abs/2311.11860

GitHub:https://github.com/rshaojimmy/JiuTian

项目主页:https://rshaojimmy.github.io/Projects/JiuTian-LION

传统的多模态大语言模型在视觉信息提取上存在不足，导致了视觉定位偏差和幻觉等问题。九天模型通过双层视觉知识增强策略，解决了这一问题。

其方法框架包括分段指令微调策略和混合适配器，首次分析了图像级理解任务和区域级定位任务之间的内部冲突，实现了两种任务的互相提升。通过注入细粒度空间感知和高层语义视觉知识，九天在包括图像描述、视觉问题、和视觉定位等17个视觉语言任务上实现了显著的性能提升，其中13个评测任务达到了国际领先水平。

与现有的多模态大语言模型相比，九天通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据，有效地提升了视觉理解能力，生成更准确的文本回应，减少了模型的幻觉现象。总体而言，九天为多模态大语言模型领域带来了新的思路和性能突破，为视觉语言任务的研究提供了有力的支持。

哈工深发布多模态大模型九天性能提升5

0000

评论列表

共(0)条

相关推荐

站长资讯
微软人工智能研究人员泄露 38TB 数据：包括密钥、密码和 Teams 消息
微软的人工智能研究员在GitHub上发布开源训练数据存储桶时，意外暴露了数十TB的敏感数据，包括私钥和密码。云安全初创公司Wiz发现了这个属于微软AI研究部门的GitHub仓库，并将其作为其持续进行的云托管数据意外曝光工作的一部分分享给TechCrunch。
站长网2023-09-19 08:56:43
0000
这些仿冒新闻单位、“新闻主播”账号，被集中清理
10万余个仿冒“新闻主播”等违规账号被清理国家网信办近期开展“清朗·规范重点流量环节网络传播秩序”专项行动，紧盯短视频平台、热搜热榜等重点流量环节，压实平台主体责任，全面清理违规采编、违规转载、炮制虚假新闻等扰乱网络传播秩序信息，排查处置仿冒“新闻主播”等违规账号。4月6日以来，各网站平台集中清理仿冒新闻单位、“新闻主播”账号10.7万个，清理虚假新闻信息83.5万条。
站长网站长资讯2023-05-23 19:10:29
0000
站长资讯
超实用的10个最新AI工具汇总！建议收藏
随着AI大模型不断更新迭代，AI应用也来爆炸式增长。在国内外各类已发布的AI工具中，“头号AI玩家”精选了10款近期新上线的、实用的AI工具，涵盖AI聊天、文案写作、图像生成、视频分析、智能办公等领域，建议收藏再看?AgentGPTAutoGPT网页版
站长网2023-04-21 16:50:19
0005
站长资讯
淘宝更新手淘搜索展示销量统计逻辑
日前，淘宝店长发布通知称，淘宝手淘搜索展示的销量统计逻辑更新。1、按综合排序搜索:为了提高消费者搜索体验，搜索侧从4月开始逐步升级手淘搜索综合排序下的销量展示逻辑，新的逻辑正在灰测中，目前共有4种展示逻辑，不同消费者看到的商品销量可能会不一样，展示逻辑如下:
站长网2023-05-12 20:41:09
0000
站长资讯
华为“天生会画”App 发布今日开启公测
今日，华为正式启动了全新自研专业绘画软件“天生会画”的公测，MatePadPro13.2英寸罗兰紫版首发预装。“天生会画”的诞生凝聚了华为技术研发团队在8大领域的专业智慧和努力，同时，这一软件也得到了中国美术学院专业团队的鼎力支持，共同参与了专业笔刷、定制色卡等关键工具的开发与制作。这款软件不仅真实、专业，更融合了智慧与易用性，旨在满足广大创作者的多样化需求。
站长网2024-05-15 16:27:17
0000