中科院提出全新多视图世界模型和自动驾驶世界模型Drive-WM
要点:
由中科院自动化所研究团队提出的 Drive-WM 模型结合多视图世界模型,利用 Diffusion 模型生成逼真视频场景,为自动驾驶系统提供多视图预测和规划,极大提高安全性。
Drive-WM 模型首次将世界模型与端到端规划相结合,利用世界模型在每个时间步上预测未来情景,通过图像奖励函数全面评估,实现更安全、有效的规划。
Drive-WM 的生成能力提供新思路,特别是在面对 Out-of-Distribution(OOD)场景时,通过生成视频进行微调,使规划器在复杂场景中表现更佳,揭示了未来场景评估对规划的提升作用。
随着自动驾驶技术的迅猛发展,中科院自动化所的团队提出的 Drive-WM 模型成为自动驾驶领域的关键创新。这一模型通过多视图世界模型,利用生成式世界模型的强大生成能力,实现了多视图预测和规划,为自动驾驶系统的安全性提供了新的保障。在 CVPR2023自动驾驶研讨会上,Drive-WM 模型引起了广泛关注。
该模型不仅突破了世界模型与端到端规划的整合,还在面对 OOD 场景时表现出鲁棒性。通过对比实验,作者揭示了目前端到端规划器在面对 OOD 情况时的不足之处,而 Drive-WM 模型则通过生成视频进行学习,提高规划器在复杂场景中的性能。
论文地址:https://arxiv.org/pdf/2311.17918.pdf
此外,Drive-WM 还展示了其多视图视频生成的出色能力,通过引入时序层的编码和视图分解建模,实现了时空一致性。论文详细描述了模型的设计和控制选项,包括使用文本、场景布局、运动信息来控制多视图视频的生成,展示了其高质量和可控性。
Drive-WM 对于自动驾驶系统有着潜在影响,世界模型与端到端规划的结合将提高自动驾驶的安全、稳定和可靠性。这一技术突破有望推动自动驾驶领域迈向新的里程碑。
《重生之我教雷军做手机》遭举报下架 作者曾期望重塑小米形象
近日,一本名为《重生之我教雷军做手机》的网络小说引发广泛关注,但遗憾的是,它已经遭到举报下架。根据该书作者的回应,他创作这本书的初衷只是出于娱乐目的,并非有任何恶意。站长网2024-03-05 12:45:090000阿里云通义千问2.0正式升级发布 参数规模达千亿
在2023年的云栖大会上,阿里云首席技术官周靖人宣布了阿里大模型家族的全面升级发布,通义千问2.0正式升级发布。据介绍,通义千问2.0模型的参数规模达到了千亿级别,无论是在阅读理解、逻辑思维还是数据处理等方面,都实现了大幅度提升,达到了国际先进水平。同时,通义千问App也随着发布,用户可以下载该应用程序进行体验,支持语音对话等功能。站长网2023-10-31 14:38:480002微软 Bing 聊天测试新功能 将可预测未来股票价格趋势
站长之家(ChinaZ.com)6月29日消息:微软正在测试其AI搜索聊天机器人Bing聊天的一项新功能,该功能可以使用期权价格推断未来股票价格的概率。该功能目前仍在开发中,但如果成功,可能会彻底改变投资者的决策方式。站长网2023-06-29 19:26:300000低价席卷电商:开“卷”2023、答卷2024
“不是羽绒服买不起,而是军大衣更有性价比”,这句网络流行用语走红的同时,背后实则是消费观念的微妙转变——消费者的需求正在从过去的追求“多与品质”悄然转变为当下的注重“少与性价比”。0000智源研究院推出text-to-3D生成模型 GeoDream
近日,智源研究院联合清华和北邮团队推出text-to-3D生成模型GeoDream,能够将输入的文字描述转化为高质量和多视角一致性的3D资产。与传统的方法不同,GeoDream通过解耦的方式利用2D和3D先验,解决了3D结构不一致性的问题,并支持导出高保真的texturemeshes和高分辨率的渲染图片。站长网2024-01-16 10:08:170000