蚂蚁集团CodeFuse-VLM开源 支持多模态多任务预训练/微调
站长网2024-02-05 16:39:370阅
CodeFuse-VLM是一个支持多种视觉模型和语言大模型的框架,用户可以根据自己的需求搭配不同的Vision Encoder和LLM。
CodeFuse-VLM-14B模型在多个通用和代码任务上的性能超过LLAVA-1.5和Qwen-VL。
该框架还支持高效的PEFT微调,能有效提升微调训练速度并降低对资源的需求。
此外,CodeFuse-VLM还被用于训练网页图片到前端代码的多模态大模型,提高了前端工程师的开发效率。
CodeFuse-MFT-VLM 项目地址:
https://github.com/codefuse-ai/CodeFuse-MFT-VLM
CodeFuse-VLM-14B模型地址:
https://modelscope.cn/models/ss41979310/CodeFuse-VLM-14B/files
0000
评论列表
共(0)条相关推荐
Databricks 以 13 亿美元收购 OpenAI 竞争对手 MosaicML:打造企业定制化生成式 AI 模型的未来
Databricks同意以约13亿美元的估值收购生成式人工智能初创公司MosaicML,此举旨在满足企业构建类似ChatGPT的工具的快速增长需求。站长网2023-06-28 15:35:230000Meta的MyoSuite2.0通过机器学习模仿幼儿移动
由MetaAI发布的MyoSuite2.0系列,与加拿大麦吉尔大学、美国东北大学和荷兰特文特大学的研究人员合作新项目。该项目将机器学习应用于生物力学控制问题,目的是展示人类水平的灵巧和敏捷。手臂和腿部是该团队迄今为止创建的最生理复杂的模型,协调大型和小型肌肉群是一个相当棘手的控制问题。该平台包括了一系列基线肌骨模型和开源基准任务,供研究人员尝试。站长网2023-08-16 09:25:200000今日AI:Suno《宫保鸡丁》杀入全球AI音乐榜前十;AI太烧钱? Stability AI CEO辞职;Domo AI上线照片转视频功能;Viggle让静态图片跳舞
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用DomoAI上线新功能只需一张照片和视频即可让人物动起来【AiBase提要:】⭐️只需一张照片和一个动态视频就可以让静态的图像跳舞站长网2024-03-25 19:13:1600001年涨粉820万!八零徐姥姥爆火,普通人怎么拍农村视频?
本文转载自运营公举小磊磊(公众号ID:gongjulei),免费阅读200万字新媒体运营知识,提升新媒体运营能力。在已经趋向红海的短视频行业,一位叫做“八零徐姥姥”的奇迹正在发生。她是一位80多岁的农村姥姥,身居辽宁小村庄,这样一位和互联网毫无关联的老人,也拥有抖音账号,并且粉丝数以惊人的速度从零开始增长,一年内疯狂涨粉820万。站长网2023-12-29 16:56:420002统一图像和文字生成的MiniGPT-5来了:Token变Voken,模型不仅能续写,还会自动配图了
大模型正在实现语言和视觉的跨越,有望无缝地理解和生成文本和图像内容。在最近的一系列研究中,多模态特征集成不仅是一种不断发展的趋势,而且已经带来了从多模态对话到内容创建工具等关键进步。大型语言模型在文本理解和生成方面已经展现出无与伦比的能力。然而,同时生成具有连贯文本叙述的图像仍然是一个有待发展的领域。站长网2023-10-09 15:03:350000