哈工深发布多模态大模型九天 性能提升5%
要点:
九天(JiuTian-LION) 是哈尔滨工业大学(深圳)发布的全新多模态大语言模型,通过双层视觉知识增强,在13个视觉语言任务上取得了state-of-the-art性能,特别在Visual Spatial Reasoning上提升了5%。
视觉信息提取不足问题得到解决,九天模型通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据,有效提升了视觉理解能力,减轻了MLLMs的幻觉现象。
新方法框架包括分段指令微调策略和混合适配器,解决了图像级理解任务和区域级定位任务之间的冲突,同时引入了软提示方法以提高高层语义注入的效果。
哈尔滨工业大学(深圳)近期发布了名为九天(JiuTian-LION)的多模态大语言模型,通过融合细粒度空间感知和高层语义视觉知识,取得了在13个视觉语言任务上的state-of-the-art性能,尤其在Visual Spatial Reasoning任务上实现了5%的性能提升。
论文链接:https://arxiv.org/abs/2311.11860
GitHub:https://github.com/rshaojimmy/JiuTian
项目主页:https://rshaojimmy.github.io/Projects/JiuTian-LION
传统的多模态大语言模型在视觉信息提取上存在不足,导致了视觉定位偏差和幻觉等问题。九天模型通过双层视觉知识增强策略,解决了这一问题。
其方法框架包括分段指令微调策略和混合适配器,首次分析了图像级理解任务和区域级定位任务之间的内部冲突,实现了两种任务的互相提升。通过注入细粒度空间感知和高层语义视觉知识,九天在包括图像描述、视觉问题、和视觉定位等17个视觉语言任务上实现了显著的性能提升,其中13个评测任务达到了国际领先水平。
与现有的多模态大语言模型相比,九天通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据,有效地提升了视觉理解能力,生成更准确的文本回应,减少了模型的幻觉现象。总体而言,九天为多模态大语言模型领域带来了新的思路和性能突破,为视觉语言任务的研究提供了有力的支持。
密集推荐科技股 券商称“AI ”料迎第二波行情
来源:中国证券报4月以来,科技股大面积回调,芯片、算力等细分板块集体下挫。不过,从上周(5月15日至21日)券商给予“买入”“增持”“推荐”评级的近400只个股看,有相当一部分属于电子、计算机等科技板块。机构人士认为,前期科技股的回调属于短线回调,休整蓄势后仍将重新走强。科技股受青睐0000清华大学开发出新视觉语言模型 可更准确理解 GUI
清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。CogAgent通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的GUI元素和文本内容,这是有效GUI交互的关键要求。站长网2023-12-27 15:46:220000马斯克指责Threads功能抄袭推特的限流功能
最近,马斯克和扎克伯格之间的“口水战”又有新的发展,马斯克公开指责Meta旗下的社交软件Threads的最新功能是对推特的抄袭。具体的说,Threads近期推出了“Ratelimit”功能,该功能通过采取限流等手段,减少垃圾信息对用户的干扰。对于Threads的这一新功能,马斯克在推特上留言说“LmaoooCopy”,并配上了一个emoji表情来表示讽刺。站长网2023-07-18 18:29:3600001周涨粉183万!炫富博主们的“致富经”!
TFboys的门票说送就送?3万多的生活费说给就给,不眨眼?开法拉利、住豪华酒店、看时装展、评论区疯狂“撒钱”!为什么隔着屏幕都能闻到铜臭的芬芳?这是谁的抖音,又是哪位“少爷”的美好生活?最近,抖音博主“东南的日常”火了!“东南的日常”是今年于7月19日首发视频的新账号,他的大号是叫“东南”的、拥有270万粉丝的主播。这个主播自从年初来到抖音,就被贴上了土豪的标签。站长网2023-08-17 12:01:5800012024大模型应用元年,科大讯飞率先打响商业化第一枪
浩浩荡荡的AIGC潮流,叠加资本资金如火如荼地注入,过去一年里,AI赛道焕发了新生,再度登上了科技语境的浪潮之巅。然而,与大模型战场的热闹相比,在商业化落地场景,AIGC的步伐却略显踌躇——技术层面,从文字到图像创作再到视频创作,AI屡屡交出了刷新大众视野的答卷,但如何使AI满足实际的商业期望,却仍是摆在行业面前的,一道复杂而严峻的课题。站长网2024-02-01 09:28:360000