研究:AI模型仍不擅长生成干净代码 GPT-4的API误用率达62%
文章概要:
1. AI模型在回答Java编码问题时,仍存在许多API误用问题。GPT-3.5和GPT-4的API误用率分别达到49.83%和62.09%。
2. Llama2API误用率最低,但由于它生成的代码较少,误导性很大。一旦生成更多代码,其误用率也大幅上升。
3. 添加相关API使用示例能稍微改善结果,但仍有改进空间。代码的可靠性和稳健性仍是难题。
近期,计算机科学家对几个大型语言模型在StackOverflow的Java编码问题上的回答进行了评估,结果发现这些模型的代码质量仍然不尽如人意。
研究人员收集了1208个StackOverflow上的Java编码问题,这些问题涉及24个常见的Java API。然后他们用4个可生成代码的大型语言模型(GPT-3.5、GPT-4、Llama2和Vicuna-1.5)进行了回答,并根据自己开发的API检查器RobustAPI对回答进行评估。RobustAPI旨在评估代码的可靠性,即抵御失败和意外输入的能力,以及承受高工作负载的能力。
加州大学圣地亚哥分校的研究人员测试了 OpenAI 的 GPT-3.5和 GPT-4,以及大型模型系统组织的两个开放模型:Meta 的 Llama2和 Vicuna-1.5。他们对这组问题进行了三种不同的测试:零样本,其中输入提示中没有提供正确的 API 使用示例;one-shot-imrelevant,其中提供的示例与问题无关;一次性相关,其中提示中提供了正确的 API 使用示例。
这些模型在零样本测试中表现出的总体 API 误用率如下:
GPT-3.5(49.83%);GPT-4(62.09%);Llama2(0.66%);和Vicuna-1.5 (16.97%)。
简单的说就是,在零样本测试中,GPT-3.5和GPT-4的API误用率较高,分别达到49.83%和62.09%。
Llama2的误用率最低,只有0.66%,但这主要是因为其大多数回答并不包含任何代码。
在添加不相关示例的一次样本测试中,各模型的误用率有所上升,尤其是Llama2上的升幅最大。这说明一旦生成了更多代码,Llama2的误用问题也显现出来。
对于一次性无关测试,误用率分别为:
GPT-3.5(62.00%);GPT-4(64.34%);Llama2(49.17%);和 Vicuna-1.5(48.51%)。
而在提供相关示例的一次样本测试中,误用率有所下降,但仍普遍存在,误用率如下:
GPT-3.5(31.13%);GPT-4(49.17%);Llama2(47.02%);和 Vicuna-1.5(27.32%)。
研究认为,大型语言模型代码生成能力的提升与代码可靠性和稳健性之间存在明显差距。模型生成的代码充其量只保证语义上的正确性,而忽视了意外输入和高负载环境下的稳定可靠性要求。改善这一问题仍有很大的空间。语言模型的代码生成还需要在工程质量上下功夫,而不仅仅追求生成更多代码。
中科院发布“紫东太初”全模态大模型
6月16日,在人工智能框架生态峰会2023上,中国科学院自动化研究所正式发布“紫东太初”全模态大模型。“紫东太初”全模态大模型是在千亿参数多模态大模型“紫东太初”1.0基础上升级打造的2.0版本,在语音、图像和文本三模态的基础上,加入视频、信号、3D点云等模态数据,研究突破了认知增强的多模态关联等关键技术,具备全模态理解能力、生成能力和关联能力。站长网2023-06-17 08:34:250000DeepMind CEO专访:AI还没到拼算力的时候,谷歌优势在研发,智能体是下一个爆点
GoogleDeepMind首席执行官Hassabis最近在接受WIRED采访时表示,AI技术现在还有很大的改进空间,还远没有到只能拼算力的时候。谷歌的优势在于科研能力,未来智能体将改变AI的格局。虽然谷歌的Gemini在开年的AI产品大战中没有获得太多的关注,但是GoogleDeepMind作为人类最前沿的AI机构,依然在抵达通用人工智能的道路上紧追OpenAI。0000小米申请“汽车超级工厂”“泰坦合金”等商标
小米科技有限责任公司近日在多个领域申请注册了中英文商标,其中包括“小米泰坦”、“小米泰坦合金”、“小米超级电机”、“小米汽车超级工厂”和“小米EV超级工厂”等。这些商标的注册申请涵盖了运输工具、金属材料和建筑修理等领域,但目前商标状态为等待实质审查。据悉,小米已建成并投产了9100吨大压铸工厂,拥有整套压铸岛流水线,60台设备,并自研了大压铸材料,即小米泰坦合金。站长网2024-01-15 16:04:510000Sora文生视频火爆出圈!清华大学公布文生视频专利
快科技2月20日消息,2月16日,OpenAI发布其首款文生视频大模型Sora。Sora可根据文字提示生成60秒视频,输出视频堪比影视CG,一经发布火爆出圈。据国家知识产权局网站显示,2月2日,清华大学申请的一种定制化多主体文生视频方法、装置、设备及介质”专利公布。专利摘要显示,该申请提供一种定制化多主体文生视频方法、装置、设备及介质,涉及神经网络技术领域。站长网2024-02-20 22:51:260000网红撑起劳斯莱斯销量半边天?
1月8日,劳斯莱斯宣布,2023年全球总共交付6032辆汽车,创下历史最高纪录。其中,美国仍然是公司最大市场,其次为大中华区;在欧洲,英国是最大单一市场;并且中东和亚太地区销量都创下纪录。笔者把这则消息发给身边朋友,没想到很多人第一反应是“怎么这么少?”。平时刷短视频、各种社交平台上,动不动就能刷到网红各种“提库里南”的视频和帖子。站长网2024-01-10 14:20:350000