蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval

站长网2023-11-02 15:31:590阅

蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。

该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题，共计4850道题目。

此外，还针对 AIOps 任务做了细分，并添加了日志解析、时序异常检测、时序分类和根因分析等任务。

目前，DevOps-Eval已发布了第一期的评测榜单，评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模型。DevOps-Eval 的评测方式包括 Zero-shot 和 Few-shot，评测结果显示各模型得分相差不大。

未来，DevOps-Eval 将持续优化，丰富评测数据集，重点关注 AIOps 领域，并增加更多的评测模型。

GitHub 地址:

https://github.com/codefuse-ai/codefuse-devops-eval

HuggingFace 地址:

https://huggingface.co/datasets/codefuse-admin/devopseval-exam

蚂蚁集团发布DevOps领域大模型评测基准DevOpsEval

0000

评论列表

共(0)条

相关推荐

站长资讯
AI文档阅读神器司马阅通过聊天方式帮你精准获取关键信息
司马阅是一款基于AI技术的智能文档助手，可以上传PDF、Word等多种格式文档，通过语音或文字与文档进行交互，快速定位关键信息。比如可以帮你:1、分析一份合同的风险保护倾向2、总结一个行业报告的发展趋势3、判断一份专业简历的技能水平4、提炼一个产品手册的关键卖点5、概括一份研究论文的核心要点
站长网2023-09-08 14:51:26
0000
站长资讯
谷歌研究:大型语言模型难以自我纠正推理错误
谷歌研究表明，大型语言模型在没有外部指导的情况下难以自我纠正推理错误谷歌DeepMind最新研究发现，大型语言模型（LLM）在没有外部指导的情况下难以自我纠正推理错误。这项研究结果对于开发更智能的语言模型具有重要意义。
站长网2023-10-19 09:20:49
0000
站长资讯
三星将推出先进的 3D AI 芯片封装技术 SAINT 与台积电竞争
三星电子计划于明年推出一项先进的三维（3D）芯片封装技术，以与代工龙头台积电（TSMC）展开竞争。总部位于韩国水原市的这家芯片制造商将使用该技术——SAINT（SamsungAdvancedInterconnectionTechnology，三星高级互连技术）——来集成高性能芯片所需的存储器和处理器，包括AI芯片，并大幅减小其尺寸。
站长网2023-11-14 08:55:36
0000
华为“纯血鸿蒙”明年亮相！鸿蒙先锋应用专区上线华为商店
快科技12月17日消息，自9月华为宣布鸿蒙原生应用全面启动以来，已有社交、影音、游戏、金融、食品等领域的企业加入鸿蒙生态建设，开发鸿蒙原生应用。日前，华为应用市场众测版新增鸿蒙先锋应用专区”，与之前的鸿蒙应用专区不太一样。这些应用放在鸿蒙先锋应用专区是代表已经官宣进行鸿蒙原生应用开发，也可以说是为鸿蒙原生应用提前宣传引流。
站长网站长资讯2023-12-17 12:57:49
0000
站长资讯
花旗高管表示:生成式AI在银行业具有变革性，但在客户支持方面存在风险
**划重点:**1.💼花旗银行的首席分析技术与创新负责人表示，生成式人工智能在数据驱动决策方面产生积极转变，但由于风险仍然较高，银行暂时决定不推出外部聊天机器人。2.🔄花旗银行通过三个主要方向运用生成式人工智能，包括协助客服代理、自动化手动任务以及内部搜索引擎的创新。3.🔍花旗银行内设的任务组对所有生成式人工智能项目进行审查，并确保负责任地执行。
站长网2024-03-07 15:18:41
0000