字节大模型BuboGPT已开源 demo可玩

站长网2023-08-19 13:07:076阅

字节推出了一种新的大模型，名为 BuboGPT，BuboGPT 是一种先进的大型语言模型（LLM），能够将文本、图像和音频等多模态输入进行整合，并具有将回复与视觉对象进行对接的独特能力。它展示了在对齐或未对齐的任意图像音频数据理解方面的出色对话能力。

项目地址:https://bubo-gpt.github.io/

通过文字描述、图像定位和声音定位，BuboGPT 可以准确判断声音来源，即使音频和图像之间没有直接关系，也可以合理描述两者之间的可能关系。

研究人员表示，相比其他多模态大模型，BuboGPT 利用文本与其他模态之间的丰富信息和明确对应关系，提供了对视觉对象及给定模态的细粒度理解。

为了实现多模态理解，BuboGPT 使用了一个共享的语义空间，并构建了一个视觉定位 pipeline，其中包括标记模块、定位模块和实体匹配模块。

通过语言作为桥梁，BuboGPT 能够将视觉对象与其他模态连接起来。研究人员还展示了 BuboGPT 在图像描述、声音来源识别等方面的能力，并开源了代码和数据集，发布了可玩的 demo。

https://huggingface.co/spaces/magicr/BuboGPT（demo）

核心功能:

- 多模态理解: BuboGPT 实现了文本、视觉和音频的联合多模态理解和对话功能。

- 视觉对接: BuboGPT 能够将文本与图像中的特定部分进行准确关联，实现细粒度的视觉对接。

- 音频理解: BuboGPT 能够准确描述音频片段中的各个声音部分，即使对人类来说一些音频片段过于短暂难以察觉。

- 对齐和非对齐理解: BuboGPT 能够处理匹配的音频 - 图像对，实现完美的对齐理解，并能对任意音频 - 图像对进行高质量的响应。

字节大模型BuboGPT已开源demo可玩

0006

评论列表

共(0)条

相关推荐

站长资讯
麦肯锡报告：生成式AI每年可为全球经济带来高达4.4万亿美元的收入
近来似乎大公司的领导对生成式人工智能感到非常兴奋，并且急于宣布或接受新的人工智能工具。然而，这些举措将对经济造成什么影响呢?
站长网2023-06-15 10:10:38
0001
站长资讯
AI耗电迅速增长，将很快达到一个国家的电力消耗水平
文章概要:1.AI数据中心的电力需求正快速膨胀，预计到2027年可能达到1.34万亿千瓦时，相当于阿根廷、荷兰或瑞典的年度用电量，引发环保担忧。2.专家呼吁重新评估AI领域的投资，尤其是像OpenAI和Google这样的科技巨头的高能耗运营方式，提出需要降低环境成本。
站长网2023-10-12 09:52:49
0000
站长资讯
汇丰推出利用人工智能投资的「AI全球战术指数」：速度比人类快数千倍
汇丰银行(HSBC)今天宣布推出汇丰AI全球战术指数（HSBCAIGlobalTacticalIndex），该指数将使用由亚马逊网络服务公司(AWS)提供的机器学习，与股票投资相结合。
站长网2023-04-21 09:24:10
0000
站长资讯
罗永浩回应被指五宗罪称自己是流量本量
罗永浩近日发表了一篇长达五千字的文章《关于近期一些传闻和谣言的事实澄清》，在其中对近期围绕他的一些谣言和传闻进行了澄清。文章中，他针对被指蹭俞敏洪流量的指控作出回应，强调自己作为中国第一代网红，自网络红人这一概念出现以来就已成名，并且是罕见地持续红了20年的网红。
站长网2024-08-08 20:40:09
0000
站长资讯
市场监管总局无条件批准微软收购动视暴雪
据国家市场监管总局公布的5月15日-5月21日无条件批准经营者集中案件列表显示，国家市场监管总局无条件批准微软公司收购动视暴雪公司股权案，审结时间为5月18日。2022年1月，微软公司发布声明称，将以每股95美元的价格全现金收购动视暴雪，包括动视暴雪的净现金在内，交易价值687亿美元。交易完成后，微软将成为世界上收入第三高的游戏公司，仅次于腾讯和索尼。
站长网2023-05-30 16:37:45
0000