CodeFuse微调框架MFTCoder升级v0.3.0版本 支持Mixtral等模型
MFTCoder 是蚂蚁CodeFuse开源的一种多任务微调框架,可以在多个任务上同时进行微调。它通过结合多种损失函数解决了多任务学习中的挑战。MFTCoder 具备高效训练特征,包括高效的数据 Tokenization 模式和支持 PEFT 微调,能提升微调训练速度并降低资源需求。
MFTCoder 在 v0.3.0版本中进行了重磅升级。
首先,它支持了 Mixtral 等更多的主流开源 LLMs 模型,如 Mistral、Deepseek-coder、Chatglm3等。这些模型经过 MFTCoder 微调后,在代码能力上有了显著的提升。
其次,新版本适配了最新的 transformers v4.36.0和 FlashAttention2v2.3.6,使得 MFTCoder 可以更好地利用最新的 Attention 实现,如 sliding_window Attention,进一步提升模型性能。
第三,MFTCoder-accelerate 框架在原有支持 Accelerate DeepSpeed 的基础上,增加了对 FSDP 的支持,提供了更多的选择。
最后,MFTCoder 引入了 Self-Paced Loss 作为新的收敛均衡技术,可以调整不同任务的权重,控制不同任务的收敛速度,实现多任务同时收敛。
通过多任务微调,CodeFuse-Mixtral-8x7B 在各种语言的 Pass@1评测中的性能得到了显著提升,达到40.9% ->52.8%。这使得 CodeFuse-Mixtral-8x7B 成为当前开源的非代码大模型中代码能力领先的模型之一。
项目地址:https://github.com/codefuse-ai/MFTCoder/tree/main/mftcoder_accelerate
谷歌和微软联手培养AI未来:推出面向初学者的入门课程
要点:谷歌和微软近期发布了针对初学者的人工智能(AI)入门课程,分别与RaspberryPi基金会和OpenAI合作,致力于从儿童时期培养对AI的兴趣和理解。谷歌的课程名为「ExperienceAI」,与RaspberryPi基金会合作,面向11-14岁的学生,通过实际案例和互动课程传授基本的AI知识,包括模型分类和对数据集偏见的认知。站长网2023-11-27 14:22:430000淘宝成立直播电商公司 为MCN机构等推出全托管服务
淘宝近日成立了直播电商公司,专为那些有意在淘宝平台上开播的明星、KOL以及MCN机构提供全面的托管运营支持。淘天直播运营团队将主导该公司的运营工作,与主播们建立灵活的合作模式,可以选择保底或分润的方式。站长网2024-02-20 15:31:330000谷歌寻求澳大利亚放宽规定 为AI数据挖掘提供版权豁免
日前,谷歌呼吁澳大利亚政府对用于人工智能训练模型的数据提供版权豁免——否则就有落后的风险。这家搜索巨头在提交的文件中发表了评论表示,应该引入人工智能的数据挖掘豁免。此类豁免将允许那些开发人工智能系统的人合法访问受版权保护的内容,以训练和构建系统。谷歌引用了GoogleTranslate等应用程序作为一个例子,说明有更多内置灵活性的版权框架有助于这些产品的开发,而澳大利亚目前缺乏这种灵活性。站长网2023-04-21 10:50:540000生成式AI推动芯片行业逆势增长 英伟达成最大赢家
文章概要:1.经历连续五个季度下滑后,半导体行业在第二季度实现逆势增长,营收增加3.8%,创下自2021年以来的首次季度连续增长。2.英伟达(Nvidia)在2Q23推动半导体行业逆转,单季度收入增加46.5亿美元,其中25亿美元来自英伟达,主要受到生成式人工智能(GAI)需求的快速增长推动。站长网2023-09-08 10:36:290000DLight:专为开发者设计的UI渲染库 仅占用4KB 空间
DLight是一个专为开发者设计的UI渲染库,具有直观和用户友好的API。可以快速搭建网站和复杂的Web应用。在编译时优化代码性能,即使在有限的优化知识下,也可使代码执行速度接近原生JavaScript。DLight仅占用4KB空间。项目地址:https://github.com/dlight-js/dligh核心功能:站长网2023-08-30 14:01:050000