参数小,性能强!开源多模态模型—TinyGPT-V
安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V。
TinyGPT-V以微软开源的Phi-2作为基础大语言模型,同时使用了视觉模型EVA实现多模态能力。尽管TinyGPT-V只有28亿参数,但其性能可以媲美上百亿参数的模型。
此外,TinyGPT-V训练只需要24G GPU就能完成,不需要A100、H100那些高端显卡来训练。
所以,非常适用于中小型企业和个人开发者,同时可以部署在手机、笔记本等移动设备上。
开源地址:https://github.com/DLYuanGod/TinyGPT-V
论文地址:https://arxiv.org/abs/2312.16862
TinyGPT-V主要架构
TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。
开发人员选择了微软最新开源的Phi-2,作为TinyGPT-V的基础大语言模型。Phi-2只有27亿参数,但理解和推理能力非常强,在多项复杂基准测试中体现出与大130亿参数模型接近或者超过的效果。
视觉编码器采用了与MiniGPT-v2相同的架构,基于ViT的EVA模型。这是一个预训练好的视觉基础模型,在整个TinyGPT-V的训练过程中保持冻结状态。
线性投影层的作用则是,将视觉编码器提取的图像特征嵌入到大语言模型中,使大语言模型能够理解图像信息。
TinyGPT-V中的第一层线性投影层采用了来自BLIP-2的Q-Former结构,这样可以最大程度复用BLIP-2的预训练成果。
第二层线性投影层用新的高斯分布初始化,目的是弥补前一层输出和语言模型嵌入层之间的维度差距。
TinyGPT-V训练流程
TinyGPT-V的训练经过了四个阶段,每个阶段所使用的数据集及实验流程各不相同。
第一阶段是热身训练,目的是使Phi-2模型适应图像模式的输入。这个阶段使用的训练数据包含Conceptual Caption、SBU和LAION三个数据集,总计约500万幅图像和对应的描述文本。
第二阶段进行预训练,目的是进一步减少图像文本对上的损失。这个阶段同样使用第一阶段的Conceptual Caption、SBU和LAION数据集。实验设置了4个阶段,每个阶段有5000个迭代。
第三阶段进行指令调优,使用MiniGPT-4和LLaVA的一些带指令的图像文本对进行模型训练,如“描述这张图片的内容”。
第四阶段进行多任务调优。这一阶段使用了更为复杂和丰富的多模态数据集,如LLaVA中复杂语义对齐的句子、Flickr30K中的物体解析数据集、多任务混合语料、纯文本语料等。
同时采用了与第二阶段类似的学习率策略,最终使得损失从2.720下降到了1.399。
为了测试TinyGPT-V的性能,研究人员从多个角度评估了在视觉问答、视空间推理、图片字幕生成等多个视觉语言任务上的表现。
结果显示,TinyGPT-V的参数很小,性能却非常强悍,例如,在VSR空间推理任务上,以53.2%的准确率,超过所有参与测试的模型。
本文素材来源TinyGPT-V论文,如有侵权请联系删除
创业首秀七天流水破5000万,公司CEO:都是米哈游逼的
不得不说,今年的游戏大潮淹没了很多没那么受市场关注的产品。如果不是紧盯行业动态,你很有可能都没注意到《我的御剑日记》已经上线快一个月了。坦白说,游戏的成绩不算差,首周流水破5000万,最高冲到畅销榜第21名,目前稳定在Top50。站长网2023-06-09 19:25:560000华为Pocket 2折叠手机发布会官宣:2月22日见
今日,华为余承东在社交媒体上自豪地宣布,华为在折叠手机领域持续领先,凭借出色的设计和性能赢得了消费者的广泛认可。他透露,华为即将在2月22日举办一场备受瞩目的时尚盛典,届时全新的小折叠旗舰手机——HUAWEIPocket2将正式亮相。站长网2024-02-19 09:35:450000估值数十亿,批量生产数字人!中国独角兽盯上直播电商
硅基智能创始人司马华鹏最近“写”了一本新书——《大模型时代:ChatGPT拉开硅基文明序幕》。确切地说,这本围绕人工智能、大模型、ChatGPT、数字人等领域展开讨论,前后洋洋洒洒数十万字的著作,是他与团队一起勾勒出框架和脉络,然后交给ChatGPT完成撰写的。甚至,AI还揽下了部分的销售工作。与DNA编码为核心的碳基生命相对应,以文本编码为核心的AI智能体为社会注入了新的硅基劳动力资源。站长网2023-09-10 08:38:490000万物皆可饭圈:中文互联网“饭圈扩大化”现象研究
所谓“饭圈”,本来是对娱乐圈狂热粉丝的一种戏谑性称呼。娱乐圈是一个很大的概念,“饭圈”主要发源于其中的偶像团体这一细分领域,此领域具备如下特点:站长网2023-09-11 09:13:290000美团拟开发鸿蒙系统APP:多个相关岗位正招聘开发人员
快科技11月9日消息,美团招聘官网最近更新了多个和鸿蒙相关的社招开发岗位,主要开发美团鸿蒙App、大众点评鸿蒙App,为布局鸿蒙系统招兵买马。其中一个工作地点在北京的鸿蒙高级工程师(C)”岗位就是面向的美团鸿蒙App研发团队,根据描述其岗位职责主要包括:1.参与鸿蒙端动态化容器的架构设计,确保项目研发质量和代码的可维护性;站长网2023-11-09 21:38:370000