LP-MusicCaps:基于 LLM 的伪音乐字幕生成方法
站长网2023-08-03 18:16:430阅
LP-MusicCaps 是一种基于 LLM 的伪音乐字幕生成方法。该项目的目标是为音乐生成字幕。它通过将大型语言模型应用于标签数据集,生成了一个大规模的音乐字幕数据集,为研究者们提供了更多的训练数据,以便成功训练音乐字幕生成模型。
项目地址:https://github.com/seungheondoh/lp-music-caps
其核心功能包括:
1. 标签到字幕:利用现有标签,使用 OpenAI 的 GPT-3.5Turbo API 生成高质量、上下文相关的音乐字幕。
2. 音频到字幕:使用音乐音频和伪字幕对,训练端到端的跨模态编码器 - 解码器模型,用于音乐字幕生成。
3.系统性评估方案:LP-MusicCaps 提出了一种系统性评估方案,通过多种定量评估指标和人工评估来评估大规模音乐字幕数据集的质量。
4.零样本学习和迁移学习支持:LP-MusicCaps 训练的模型在零样本学习和迁移学习场景下表现良好,证明了基于大型语言模型的伪字幕的有效性。
0000
评论列表
共(0)条相关推荐
百度透露大模型与搜索引擎结合进展:支持视频和图表回答提问
据科创板日报报道,百度集团副总裁、搜索平台负责人肖阳透露了百度正在内测的“极致满足”和“AI伙伴”的新搜索功能,分别包括:输入搜索词时,百度首页可呈现多答案解释,也支持用视频直接回答用户的问题,并让视频自动定位到关键段落;也可以用书籍来直接回复问题。站长网2023-06-30 19:36:110000谷歌再雪前耻,新Bard逆袭GPT-4冲上LLM排行榜第二!Jeff Dean高呼我们回来了
【新智元导读】谷歌Bard又行了?在第三方LLM「排位赛」排行榜上,Bard击败GPT-4成为第二名。JeffDean兴奋宣布:谷歌回来了!一夜之间,Bard逆袭GPT-4,性能直逼最强GPT-4Turbo!这个听起来似乎像梦里的事情,确确实实地发生了。就在昨天,谷歌首席JeffDean发推提前透露了谷歌的最新版模型——GeminiPro-scale。站长网2024-01-29 09:28:320000任天堂Switch游戏机6月销量创新高,或将夺得日本市场冠军
据日本经济新闻报道,任天堂的游戏机Switch在今年6月创下了销售记录,售出了38万台机器,同比去年增长了68%。这主要得益于《塞尔达传说:王国之泪》的推动。然而,分析师预测Switch游戏机的销量可能在今年后开始下降,预计本财年的净利润将下降21%,达到3400亿日元(约172.78亿元人民币)。站长网2023-07-10 15:59:490000视频号到大声谈钱的时候了
最近,资深从业者欧阳(化名)决定从某头部MCN机构离职,投身视频号开始新的创业。在他看来,视频号的红利期只剩不到一年,需要抓紧了。但与此同时,不少从业者认为,因为基建不完善、流量不精准、方法难掌握、用户老龄化等问题,视频号仍处于早期阶段,还需要继续观望。站长网2023-09-20 17:53:490000iPhone15或将新增粉红色等新配色 浅蓝色将被取消
据mashable报道,根据爆料者ShrimpApplePro的消息,苹果即将推出的iPhone15将有三种新颜色:绿色、黄色和粉色。这是标准版的iPhone15的新颜色;Pro版的型号通常颜色较少。如果这个消息是准确的,那么iPhone15的完整颜色系列将包括以下颜色:午夜、星光、绿色、黄色、粉色和Product(RED)。站长网2023-07-18 19:02:020000