微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听
站长网2023-11-15 19:25:570阅
要点:
微软Azure AI推出的MM-Vid整合了GPT-4V与专用工具,能解读长达一小时的视频并为视障人士提供解说。
MM-Vid通过将长视频分解成连贯叙述,结合GPT-4V的多模态理解能力,实现对真实世界视频的全面理解。
实验证明MM-Vid在任务如问答、多模态推理、人物识别、音频描述等方面表现出色,具备在交互式环境中持续接收流视频帧输入的能力。
近期,微软Azure AI发布了MM-Vid,这是一项结合GPT-4V与专用工具的创新,致力于解读长视频并为视障人士提供更好的体验。
目前,人工智能在长视频理解领域所面临的复杂挑战,包括分析多个片段、提取不同信息源、实时处理动态环境等。而MM-Vid的工作流程,包括多模态预处理、外部知识收集、视频片段描述生成和脚本生成等四个关键模块。通过GPT-4V,MM-Vid能够生成连贯的脚本,为后续任务提供全面的视频理解。
项目地址:https://multimodal-vid.github.io/
实验证明MM-Vid在多个任务上都取得了显著的成果,包括有根据的问答、多模态推理、长视频理解、多视频情景分析等。特别是在人物识别和说话人识别方面,通过采用视觉prompt设计,MM-Vid展现出更高的质量和准确性。
而MM-Vid在交互式环境中的应用,如具身智能体和玩视频游戏,证明其在持续接收流视频帧输入方面的有效性。
综合而言,微软的MM-Vid在大型多模态模型领域取得了显著进展,成功地将GPT-4V与专用工具集成,为视频理解提供了更强大的解决方案,不仅满足了常规视频理解的需求,还为视障人士提供了更丰富的体验。这一创新有望推动视觉领域的发展,使得语言模型在多模态环境下的应用更加广泛。
0000
评论列表
共(0)条相关推荐
微信上线“安静模式”新功能 音视频通话不会发出声音
微信官方宣布上线了一个新功能:“安静模式”。在iOS微信更新到最新版本,通过“微信”-“我”-“设置”-“关怀模式”-“安静模式”,就能开启。据了解,开启“安静模式”之后,微信在消息通知、音视频通话、视频号内容播放等所有场景下,都不会再发出声音。官方表示,“安静模式”可以为聋人自如地玩手机创造更好的环境。“安静模式”下,一切无声,但如果需要临时开启声音,可以点击手机“”音量。站长网2023-06-20 11:54:230000快跑比爬坡更易损伤小腿胫骨?这项研究有新发现
科技日报记者张佳欣快跑和爬坡,哪一项运动更容易损伤小腿胫骨?据近日发表在预印服务器arXiv上的一篇论文,加拿大和美国的一个研究团队发现,与上坡或下坡相比,在快速跑步时可能面临更大的胫骨骨折风险。跑步时,双脚反复撞击地面的运动过程可能会导致胫骨夹板,甚至是胫骨骨折。研究人员知道,当跑步者增加训练强度时,这些损伤经常会发生,但还不太清楚训练的哪些方面最有可能导致这些损伤。站长网2023-05-24 18:56:130000我们尝试用AI创作了一条圣诞动画(附ChatGPT+Pika等制作流程全记录)
最近,AI视频生成领域可以说是迎来了一波小爆发,前有明星产品RunwayGen2,后有黑马Pika1.0爆火,随着越来越多的玩家和产品涌入AI视频赛道,视频创作的门槛似乎越来越低了。例如,今年圣诞节就有不少网友用Pika1.0整活,生成了各种脑洞大开的AI圣诞老人。话不多说,下面请看圣诞老人的多重人生🔽正在开圣诞摇滚专场的🎅🏻:站长网2023-12-25 18:52:230002微软大语言模型Gorilla在编写 API 调用方面击败了 GPT-4
本文概要:1.微软研究人员开发的Gorilla是一种大语言模型,能够准确生成API调用。2.Gorilla通过减轻幻觉问题和适应文档更改,在测试中表现优于GPT-4等其他语言模型。3.Gorilla已在GitHub上提供代码、模型、数据和演示,并计划扩展到更多领域。站长网2023-08-11 11:12:400001手持式人工智能设备Rabbit R1一天内售出10000台
站长之家(ChinaZ.com)1月11日消息:近日,初创公司Rabbit推出的R1,一款迷你小工具,旨在提供便捷的应用程序使用体验,宣布在X上的一篇帖子中,首批产品已经售罄,一天内销售量超过10,000台。在该帖子中,Rabbit表示:“当我们开始构建R1时,我们内部期望发布当天能够售出500台设备,”并补充道:“在24小时内,我们已经实现了20倍的销售速度!”站长网2024-01-11 14:01:150001