华人团队颠覆CV!SEEM模型可一键分割图像和视频
站长网2023-04-23 18:08:290阅
继Meta的「分割一切」之后,又一个颠覆CV的模型来了!近日,威斯康辛麦迪逊、微软、港科大等机构的研究人员提出SEEM模型,通过不同的视觉提示和语言提示,一键分割图像、视频。
论文地址:https://arxiv.org/pdf/2304.06718.pdf
SEEM模型是一种新型的分割模型,这一模型可以在没有提示的开放集中执行任何分割任务,比如语义分割、实例分割和全景分割。
此外,它还支持任意组合的视觉,文本和引用区域提示,允许多功能和交互式的引用分割。
在模型架构上,SEEM采用了常见的编码器-解码器架构。其独特的地方在于具有查询和提示之间复杂的交互。
SEEM模型可以通过多模态提示实现一次性分割所有地方的一切,包括图像和视频。这个模型的出现将会对计算机视觉领域产生深远的影响,也将会对未来的技术发展方向产生指导作用。
0000
评论列表
共(0)条相关推荐
谷歌Bard遭遇提示注入攻击 或存在数据泄漏风险
要点:谷歌Bard遭遇提示注入攻击,黑客利用自然语言破解人工智能系统,可能导致数据泄漏风险。攻击者通过提示注入有效载荷,利用Bard的漏洞进行图像Markdown注入,试图泄露聊天历史记录。研究者发现Bard存在零点击渲染图片的漏洞,结合GoogleAppsScript成功绕过内容安全策略,实现数据泄露。站长网2023-11-20 15:04:030000英国因青少年隐私问题对 Snap AI 聊天机器人展开调查
站长之家(ChinaZ.com)10月7日消息:Snap公司因其生成式人工智能聊天机器人可能对Snapchat用户,尤其是13至17岁的青少年,构成的潜在隐私风险而在英国面临调查。图片来自Snap站长网2023-10-07 09:16:560000OpenAI CEO:AI可以提高员工生产力 但也会制造更多失业
OpenAI的首席执行官SamAltman说,生成型人工智能技术,如ChatGPT,可能会在未来几年提高许多员工的生产力,但也有可能导致一些人失去工作。站长网2023-07-28 17:15:280000首个开源MoE大模型发布!7Bx8个专家,离GPT-4最近的一集
“取消今晚所有计划!”,许多AI开发者决定不睡了。只因首个开源MoE大模型刚刚由MistralAI发布。MoE架构全称专家混合(Mixture-of-Experts),也就是传闻中GPT-4采用的方案,可以说这是开源大模型离GPT-4最近的一集了。没有发布会、没有宣传视频,只靠一个磁力链接,就产生如此轰动效果。具体参数还得是网速快的人下载完之后,从配置文件里截图发出来的:0003全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线
大模型看书,从来没有这么快过。国内大模型创业公司,正在技术前沿创造新的记录。10月30日,百川智能正式发布Baichuan2-192K长窗口大模型,将大语言模型(LLM)上下文窗口的长度一举提升到了192Ktoken。站长网2023-11-01 17:08:090000