GitHub又火了一款AI工具 DUSt3R :2张图2秒钟3D 重建
划重点:
⭐️ 一款名为 DUSt3R 的新工具火爆 GitHub,能在2秒钟内通过2张图片完成3D 重建。
⭐️ DUSt3R 在单目 / 多视图深度估计以及相对位姿估计任务上表现出色。
⭐️ 作者团队采用全新方法,无需相机校准或视点姿势先验信息,能在任意图像中完成3D 重建。
一款名为 DUSt3R 的 AI 工具近日在 GitHub 上备受瞩目,其能够在短短2秒钟内通过仅有2张图片完成3D 重建,让许多网友大呼惊奇,甚至认为这比之前热门的 Sora 更加实用。这一工具在单目 / 多视图深度估计以及相对位姿估计任务上表现出色,被认为是目前最先进的技术之一。
作者团队采用了一种全新的方法,称为 DUSt3R,它不需要任何相机校准或视点姿势的先验信息,就能完成任意图像的密集或无约束3D 重建。这意味着用户只需提供图片,无需额外的测量数据,便能轻松获得完整的3D 重建效果。DUSt3R 的网络架构基于标准 Transformer 编码器和解码器,受到 CroCo 的启发,并通过简单的回归损失训练完成。
在实验中,DUSt3R 在多项任务上取得了 SOTA 的成绩,包括绝对姿态估计、多视图姿态回归、单目深度估计和多视图深度估计。不仅如此,DUSt3R 还能够处理两张没有任何重叠内容的图像,仍然准确地完成3D 视图的重建,展现出其强大的功能和适用性。
该工具的出现引起了许多网友的兴趣,有人甚至在实验中测试了不同相机拍摄的图像,结果依然有效。DUSt3R 的出现为3D 重建任务提供了一种简单而高效的解决方案,让用户可以更轻松地完成相关工作。其优异的性能和快速的重建速度让人对其未来应用前景充满期待。
通过 DUSt3R 这一新工具的出现,用户可以更快速地实现3D 重建,无论是在室内还是室外场景,都能得到准确且完整的效果。这一技术的应用将极大地方便用户进行相关任务,带来更多可能性和创新。
论文https://arxiv.org/abs/2312.14132
项目入口:https://top.aibase.com/tool/dust3r
35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4
35年来,认知科学、人工智能、语言学和哲学领域的研究人员一直在争论神经网络是否能实现类似人类的系统泛化。具体来说,人们一直认为,AI无法像人类一样具有「系统泛化(systematicgeneralization)」能力,不能对没有经过训练的知识做到「举一反三」,几十年来这一直被认为是AI的最大局限之一。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-10-27 09:16:320000Hugging Face推开源多模态AI模型IDEFICS 支持图像、文本输入
本文概要:1.HuggingFace推出开源多模态AI模型IDEFICS,支持图像和文本输入。2.IDEFICS基于DeepMind的Flamingo视觉语言模型,表现与专利模型相当。3.IDEFICS有90亿和800亿参数版本,支持生成连贯的文本。站长网2023-08-24 20:13:370000世界品牌实验室2023年世界品牌500强发布:华为排中国第五
由世界品牌实验室独家编制的2023年度《世界品牌500强》排行榜于12月13日在美国纽约揭晓。美国在500强中占据193席,稳居品牌大国第一。法国、中国、日本和英国为世界品牌大国的第二阵营。值得注意的是,中国品牌入选数(48个)首次超越日本(43个),跃居全球第三。0000Stability AI推出文生图模型Stable Cascade 仅限于非商用
日前,美国AI创企StabilityAI发布了StableCascade预览版。这个模型是基于Würstchen架构的文本到图像扩散模型,可以在消费级硬件上进行训练和微调。该模型的发布是根据非商业许可证,只允许用于非商业目的。这意味着用户可以在自己的项目中免费使用这个模型,但不能用于商业用途。站长网2024-02-19 11:11:480000谷歌演示「通用翻译器」:AI 重新生成匹配新语言口型的视频
谷歌正在测试一种功能强大的新翻译服务,这种服务可以用新语言重新配音视频,同时使说话者的唇形与他们从未说过的话同步。它可能非常有用,但该公司已经明确表示存在滥用可能,并采取了预防措施。站长网2023-05-11 11:56:200001