注册

北大提出统一的视觉语言大模型Chat

首页标签北大提出统一的视觉语言大模型Chat

站长资讯
北大提出统一的视觉语言大模型Chat-UniVi 3天训练成果惊艳众人
要点:北大和中山大学研究者提出的Chat-UniVi是一种统一的视觉语言大模型，能够在统一的视觉表征下同时处理图片和视频任务，且仅需三天训练即可获得130亿参数的通用视觉语言大模型。Chat-UniVi采用动态视觉token来统一表示图片和视频，通过最近邻的密度峰聚类算法获取动态视觉token，多尺度表征提高了模型的性能，使其在图片和视频的各种任务中取得卓越性能。
站长网2023-11-29 14:42:29
0001

热点

关注

雷军与小米车主集体大合影：一起喊“小米SU7大卖”
2024-04-12 11:22:53
雷军晒自己的小米SU7创始版编号竟不是0001
2024-04-12 11:22:53
抖音拟以超7.5亿元收购海联金汇旗下支付牌照
2024-04-12 11:22:52
开源世界模型LWM ：百万级上下文，长视频理解超GPT-4
2024-04-12 11:22:51
有网友曝光OpenAI 发给红队测试人员邀请邮件：GPT-5已经开始红队测试
2024-04-12 11:22:50
GPT-5红队测试邮件曝光，最早6月发布？网友在线逼问Altman，数十亿美元超算26年启动
2024-04-12 11:22:47
李飞飞主讲，斯坦福2024 CS231n开课，依旧座无虚席
2024-04-12 11:20:43

推荐