首页站长资讯挑战GPT-4V！清华唐杰&智谱开源国产多模态模型CogVLM-17B

挑战GPT-4V！清华唐杰&智谱开源国产多模态模型CogVLM-17B

站长网2023-10-10 14:26:290阅

清华大学与智谱AI合作开发的CogVLM-17B是一款国产多模态模型，具有卓越的性能。该模型不仅可以识别图像中的对象，还能分辨完整可见和部分可见的物体。

CogVLM-17B已经在10项权威跨模态基准上取得了SOTA（State-of-the-Art）性能，并在多个领域超越了谷歌的模型。它被形象地称为“14边形战士”，展现了其多模态处理的出色能力。

试玩地址:

https://36.103.203.44:7861

开源及论文地址:

https://github.com/THUDM/CogVLM

CogVLM-17B采用了独特的深度融合方法，通过四个关键组件实现了图像特征和文本特征的深度对齐。这些组件包括ViT编码器、MLP适配器、大型预训练语言模型以及视觉专家模块。与传统的浅层对齐方法相比，CogVLM-17B的深度融合方法提高了性能，同时避免了微调语言模型的全部参数可能损害NLP任务性能的问题。

CogVLM-17B在视觉问题解决方面表现出色，包括识别复杂场景中的对象、回答关于图像内容的问题、解决带图的编程题等。

此外，它还展示了出色的文字识别能力，尽管没有专门的OCR数据进行训练。CogVLM-17B已经开源，并提供了在线试玩，虽然目前仅支持英文，但计划在未来提供中英双语版本。

这款国产多模态模型的出现，不仅丰富了多模态领域的技术研究，还为各种视觉问题的解决提供了强大的工具。其深度融合方法的创新性标志着多模态模型训练范式的改变，为未来的研究和应用提供了新的思路和可能性。

挑战GPT4V 清华唐杰amp智谱开源国产多模态模型CogVLM17B

0000

评论列表

共(0)条

相关推荐

站长资讯
Redmi K70系列官宣将于11月29日发布
小米官方宣布，RedmiK70系列手机的发布会将于11月29日晚7点举行。目前，小米已经对RedmiK70E一款机型进行了详细预热。这款新机将首发搭载天玑8300-Ultra处理器，配备1.5K柔性直屏，支持1920HzPWM高频调光，1800nit峰值亮度，12bit色深，配有5500mAh电池90W快充。
站长网2023-11-23 09:25:14
0001
站长资讯
电脑里破解软件又少一款！Win11原生录屏免费平替了：新增快捷键
快科技4月11日讯，去年12月，Windows11自带截图工具升级到了version11.2211.11.0版本后，录屏功能终于上线。据WL报道，微软正在开发一组新的Windows11键盘快捷键，即WinShiftR，按下后会弹出录制警告，点击开始即可，点击关闭后视频将被保存在本地。
站长网2023-04-12 13:49:01
0000
WPS逆袭微软Office背后雷军揭秘：这是中国软件行业最励志的故事
快科技11月30日消息，日前雷军在武大130周年珞珈论坛演讲时提到，WPS是一个硬核的技术英雄梦想，是中国软件行业最励志的故事。WPS的逆袭，就是坚持的胜利。雷军表示，办公软件这样的大型商业软件，开发难度极高，目前全球主要就微软Office、金山WPS这两款。
站长网站长资讯2023-11-30 20:49:27
0000
站长资讯
调查：欧洲有 72% 的组织采用生成式人工智能
最近全球影响力的领先解决方案集成商InsightEnterprises进行的一项调查显示，欧洲72%的组织正在采用或已经制定了关于生成性人工智能（generativeAI）的政策。只有6%的调查对象表示在近期没有采用生成性人工智能的计划。52%的受访者表示，未来三年采用生成性人工智能的主要原因是提高员工生产力。
站长网2023-08-02 18:06:43
0000
站长资讯
俞敏洪给抖音上了一课
风头正盛的东方甄选旗下直播间突遭抖音关停三天，如今期限已到，该直播间却并未在第一时间开播。这场风波要从7月26日说起，当天，“东方甄选自营产品”抖音账号发布停播通知，称因规则要求，暂停营业3天。随后，东方甄选在自有APP上开播，并宣布进行85折促销，该账号继续以“自营产品”这一名称在APP内直播，当晚同时在线人数超过2.6万。
站长网2023-07-31 09:27:45
0000