天津大学大模型评测报告:GPT-4和百度文心一言显著领先
站长网2023-08-15 08:42:201阅
8月12日,天津大学和信创海河实验室举办了一次大模型技术与评测研讨会,会上发布了首份大模型评测报告。
该报告对国内外14个大语言模型进行了中文综合能力评测,结果显示,GPT-4和百度文心一言相对于其他模型综合性能领先。
在此次评测中,GPT-4对参评模型的主观题回答进行了打分,结果显示,GPT-4认为文心一言生成的中文内容质量更高。相比人工评价,在基于 GPT-4的自动评测中,文心一言的总得分超过了 GPT-4,位居榜首。
天津大学表示,大模型有望重塑人工智能的发展模式,国产大模型正在迎头赶上国际类似模型,并在某些指标上实现了超越。百度文心一言在评测中展现了强大的实力,具备了在相关行业落地的技术基础。
百度表示,百度在大模型生态的构建上具备先发优势,目前已经有15万家企业申请接入文心一言测试。
0001
评论列表
共(0)条相关推荐
UIUC清华联手发布全新代码大模型Magicoder 不到7B参数
要点:UIUC清华合作推出Magicoder,仅7B参数在代码生成领域媲美顶级代码模型,并全面开源代码、权重和数据。Magicoder采用OSS-INSTRUCT方法,通过从开源代码中获取灵感,生成多样、真实和可控的编码指令数据,强调真实性对于指令调整的重要性。站长网2023-12-19 14:24:390000北大新成果:无需训练,机器人听指令就能灵活走位
要点:1.北大研究团队开发了一种具身导航系统,使机器人可以根据口头指令在室内环境中移动,无需额外训练或建图。2.这一系统涉及多个关键任务,包括指令分析、视觉感知、完成估计和决策测试,由大模型专家团队协同完成。3.DiscussNav系统通过与大模型专家互动,使机器人能够根据人类指令移动,解决了机器人导航训练数据稀缺的问题,同时具备零样本能力,能够执行多样的导航指令。站长网2023-11-06 17:57:160000“认养一头牛”抖音商城成交增4倍的背后,原来是做对了这件事
内容场之外,抖音商城正在通过花式整活,为越来越多的品牌带来新的增长点。7月31日-8月13日,乳品品牌认养一头牛在抖音商城的日均销量环比活动前增长了40倍,且爆款产品连续5日销量都超过万单,订单增速超50倍。00002023网易云音乐年度听歌报告正式上线
网易云音乐宣布,2023年度听歌报告正式上线。用户可以通过官方App搜索“年度报告”,回顾自己在这一年里的听歌历程。今年的年度报告中,网易云音乐为用户总结了个人年度歌曲、年度歌手、年度专辑、年度歌单等选项,并回顾了用户最喜欢的听歌时段、被遗忘的歌曲等。与往年不同的是,今年是网易云音乐推出的第十年,用户过去十年的年度歌曲也被陈列出来。站长网2023-12-20 09:24:110000AI创作爆火、数字人和虚拟主播涌现,公会和机构如何紧跟风口?
5月12日,#AI出来后第一个失业的是孙燕姿#冲上热搜。这是因为,B站上有用户利用AI技术创造出AI孙燕姿,其翻唱各类经典曲目的视频达上千个,音色几乎媲美真人,其中翻唱的《下雨天》、《发如雪》收获了破百万的点击量。站长网2023-05-18 09:09:500000