零一万物API开放 多模态中文图表体验超越GPT-4V
要点:
1、零一万物API正式开放,提供三款模型,支持通用聊天、多文档阅读理解、多模态输入等功能。
2、多模态模型Yi-VL-Plus在中文图表体验上超越GPT-4V,支持图表识别、信息提取、问答和推理。
3、Yi-34B-Chat-200K模型开放,准确率高达99.8%,可用于长文本理解、小说内容总结和论文要点提取。
近日,零一万物API正式向开发者开放,其中包含三款强大的模型。首先是Yi-34B-Chat-0205,支持通用聊天、问答、对话、写作和翻译等功能;其次是Yi-34B-Chat-200K,能处理多文档阅读理解和构建超长知识库;最后是Yi-VL-Plus多模态模型,支持文本、视觉多模态输入,中文图表体验超越GPT-4V。这些模型的开放将促进更广泛的应用场景落地,形成更加繁荣的生态。
地址:https://platform.lingyiwanwu.com/playground
Yi-VL-Plus作为多模态模型,在中文图表体验上展现出优异的性能,能够识别复杂图表、提取信息并进行推理。相比之下,GPT-4V在这方面表现不佳,例如在处理折线图和饼状图时准确度较低。Yi-VL-Plus不仅可以准确识别图表内容,还能将其转换成其他格式,如markdown。这种多模态能力为用户提供了更加便捷和准确的图表分析体验。
另一款模型Yi-34B-Chat-200K的开放,让大模型应用进入了长文本时代。该模型具有极高的准确率,可用于理解多篇文档内容、分析海量数据和提取关键信息。文学爱好者可以通过该模型快速掌握几十万字小说的精髓,科研人员也可以高效提取论文要点。这种上下文能力的提升,将在各个领域带来更多可能性和便利。
零一万物API的开放为开发者们带来了丰富的宝藏,Yi大模型的强大功能将有助于各种应用场景的优化和提升。无论是在图表识别、文本理解还是长篇文本分析方面,这些模型都展现出了令人惊叹的性能。开发者们赶快来寻宝吧,探索这些API带来的无限可能!
这些行为或将永久封禁账号?抖音这次“憋”不住了
“走过路过机会别错过,机会难得,全场清仓处理,赔钱甩卖……”相信这样震耳欲聋的叫卖词,你一定在大街上听到过,说好的清仓最后一天,却能熬一年,“狼来了”次数一多,我们再也不相信所谓的清仓大甩卖了。站长网2023-09-06 18:51:020000一文读懂!究竟什么是量子,它有多神奇?
编者按中央经济工作会议指出:科技自立自强是促进发展大局的根本支撑,只要秉持科学精神、把握科学规律、大力推动自主创新,就一定能够把国家发展建立在更加安全、更为可靠的基础之上。近年来,量子科技发展突飞猛进,成为促进高质量发展、保障国家安全的重要力量。据此,本版今起推出量子科技系列报道,关注量子科技的发端与发展。科技日报记者吴长锋站长网2023-05-25 07:09:250000Midjourney开始训练视频模型!V6将有重大版本更新
Midjourney昨晚发布了一些重要的消息,称他们即将开始训练视频模型,并且计划从一月开始进行这项工作。此外,他们还宣布下周将迎来V6版本的一次重要更新,其中文本处理方面将有显著的进步,内容的连贯性会有所提高,并且对于提示的准确性也将得到改善。总的来说,各方面都会有所提升。站长网2023-12-28 15:34:410000谷歌推扩散模型变种UFOGen 真正实现一步文生图
要点:1.谷歌研究团队提出了一种名为UFOGen的扩散模型变种,只需要一步就能生成高质量的图片。2.UFOGen通过改变生成器的参数化方式和重构损失函数的计算方式,理论上可以实现一步生成。3.UFOGen的生成器和判别器都是由StableDiffusion模型初始化,这样可以最大限度地利用StableDiffusion的内部信息。站长网2023-11-20 14:54:030001大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着Sora的爆火,人们看到了AI视频生成的巨大潜力,对这一领域的关注度也越来越高。除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑,例如对视频进行「风格迁移」或者替换视频中的物体,但关于更改视频中对象的「动作」的尝试还很少。站长网2024-03-04 19:32:370000