挑战GPT-4V!清华唐杰&智谱开源国产多模态模型CogVLM-17B
站长网2023-10-10 14:26:290阅
清华大学与智谱AI合作开发的CogVLM-17B是一款国产多模态模型,具有卓越的性能。该模型不仅可以识别图像中的对象,还能分辨完整可见和部分可见的物体。
CogVLM-17B已经在10项权威跨模态基准上取得了SOTA(State-of-the-Art)性能,并在多个领域超越了谷歌的模型。它被形象地称为“14边形战士”,展现了其多模态处理的出色能力。
试玩地址:
https://36.103.203.44:7861
开源及论文地址:
https://github.com/THUDM/CogVLM
CogVLM-17B采用了独特的深度融合方法,通过四个关键组件实现了图像特征和文本特征的深度对齐。这些组件包括ViT编码器、MLP适配器、大型预训练语言模型以及视觉专家模块。与传统的浅层对齐方法相比,CogVLM-17B的深度融合方法提高了性能,同时避免了微调语言模型的全部参数可能损害NLP任务性能的问题。
CogVLM-17B在视觉问题解决方面表现出色,包括识别复杂场景中的对象、回答关于图像内容的问题、解决带图的编程题等。
此外,它还展示了出色的文字识别能力,尽管没有专门的OCR数据进行训练。CogVLM-17B已经开源,并提供了在线试玩,虽然目前仅支持英文,但计划在未来提供中英双语版本。
这款国产多模态模型的出现,不仅丰富了多模态领域的技术研究,还为各种视觉问题的解决提供了强大的工具。其深度融合方法的创新性标志着多模态模型训练范式的改变,为未来的研究和应用提供了新的思路和可能性。
0000
评论列表
共(0)条相关推荐
春运期间滴滴打车需求飙升65% 40城设福利站感谢司机师傅
滴滴出行数据显示,今年春运开启以来,相比2019年同期,打车需求上涨了65%,整个春运期间打车需求预计将相比2019年同期上涨约40%。滴滴计划在全国40个城市举办第十届滴滴司机福利站,为服务岗位的司机师傅送去节日礼物与关怀,并发放超过3亿元的司机补贴。站长网2024-01-31 11:11:270000疯狂的街拍:谁在用你的照片赚钱?
城市街拍再一次走上风口浪尖,缘于一次偶然曝光的“牵手”。不久前,一名中年男子和一名年轻女子身着粉色“情侣装”,在成都太古里牵手逛街的视频在网络上疯传。最开始,这只是驻扎在太古里的摄影师常年“创作”的街拍作品之一,后来,网友扒出照片上两位主人公均供职于中石油,为上下级,并且二人还是婚外情关系。站长网2023-06-13 17:58:250002今日AI:Suno《宫保鸡丁》杀入全球AI音乐榜前十;AI太烧钱? Stability AI CEO辞职;Domo AI上线照片转视频功能;Viggle让静态图片跳舞
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用DomoAI上线新功能只需一张照片和视频即可让人物动起来【AiBase提要:】⭐️只需一张照片和一个动态视频就可以让静态的图像跳舞站长网2024-03-25 19:13:160000软银计划自主开发生成式人工智能 :提供给金融和医药等公司应用
据日经新闻报道,软银集团(SoftBank)计划在更广泛的行业进军即将到来该领域前,独立开发自己的生成式人工智能。软银还计划开发一台超级计算机来构建自家模型,并计划在未来几年将该模型提供给金融和医药等专业领域的公司进行应用。据报道,日本电信巨头日本电报电话公司(NTT)也正在开发类似的生成式人工智能。站长网2023-06-30 01:34:590000vivo大模型云端方案vivo_Agent_LM_7B亮相
近日,vivo的大模型云端方案也已经出现在C-Eval排行榜上。该排行榜是一个全面的中文基础模型评估套件,包含13948个多项选择题,涵盖人文、社科、理工等多个学科和不同难度级别。从C-Eval给出的信息来看,vivo_Agent_LM_7B是由vivoAI全球研究院自主研发的大规模预训练语言模型,拥有70亿参数。站长网2023-08-16 09:05:130006