零一万物Yi-VL多模态语言模型上线 包括Yi-VL-34B、Yi-VL-6B两个版本
零一万物 Yi-VL 多模态语言模型是零一万物 Yi 系列模型家族的新成员,它在图文理解和对话生成方面具备卓越的能力。Yi-VL 模型在英文数据集 MMMU 和中文数据集 CMMMU 上都取得了领先成绩,展示了在复杂跨学科任务上的实力。
Yi-VL 模型分为 Yi-VL-34B 和 Yi-VL-6B 两个版本,它们在全新多模态基准测试 MMMU 中表现出色。MMMU 数据集包含了来自六大核心学科的11500个问题,涉及多种异构图像类型和交织的文本图像信息。Yi-VL-34B 在该测试集上以41.6% 的准确率超越了一系列多模态大模型,仅次于 GPT-4V,展现了强大的跨学科知识理解和应用能力。
在针对中文场景打造的 CMMMU 数据集上,Yi-VL 模型也展现了独特优势。CMMMU 包含约12000道源自大学考试、测验和教科书的中文多模态问题。Yi-VL-34B 以36.5% 的准确率紧随 GPT-4V 之后,领先于当前最前沿的开源多模态模型。
Yi-VL 模型的核心亮点之一是基于 Yi 语言模型的强大文本理解能力,它只需对图片进行对齐,就可以得到优秀的多模态视觉语言模型。
Yi-VL 模型基于开源 LLaVA 架构,包含三个主要模块:Vision Transformer(ViT)、Projection 模块和大规模语言模型 Yi-34B-Chat 和 Yi-6B-Chat。ViT 用于图像编码,Projection 模块实现了图像特征与文本特征空间对齐的能力,大规模语言模型提供了强大的语言理解和生成能力。
Yi-VL 模型的训练过程分为三个阶段:第一阶段使用1亿张的 “图像 - 文本” 配对数据集训练 ViT 和 Projection 模块;第二阶段将 ViT 的图像分辨率提升至448x448,并使用约2500万 “图像 - 文本” 对进行训练;第三阶段对整个模型的参数进行训练,目标是提高模型在多模态聊天互动中的表现。
除了 Yi-VL 模型,零一万物技术团队还验证了使用其他多模态训练方法(如 BLIP、Flamingo、EVA)基于 Yi 语言模型可以快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。
Yi-VL 模型地址:
https://huggingface.co/01-ai
https://www.modelscope.cn/organization/01ai
最高12%分成奖励,快手直播加码视频“宫格”聊天室
从去年以来,视频「宫格」直播(也称视频「宫格」聊天室)成为了行业内的热门直播内容,不少主播想要入局,许多公会也在大力招募该类型的主播。因此,许多平台都在积极布局。近日,快手就上线了一项新的激励政策,这次面向的就是视频「宫格」直播。据新播场拿到的政策内容显示,快手直播娱乐公会视频「宫格」政策十分友好,进入门槛低、分成高,对公会和主播们非常友好。站长网2023-05-24 13:57:190001AI芯片创企Taalas获5000万美元融资 定制专用芯片助力AI模型
据外媒SiliconANGLE报道,由Tenstorrent创始人LjubisaBajic领导的AI芯片创企Taalas已成功完成两轮共计5000万美元的融资,旨在为特定AI模型打造定制化专用芯片。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-03-11 16:19:280000阿里影业宣布收购大麦 预计2023年第四季度完成
阿里巴巴影业集团有限公司宣布,与阿里巴巴集团控股有限公司的全资子公司阿里巴巴投资有限公司签订股份购买协议,阿里影业将附条件收购经营“大麦”品牌的PonyMediaHoldingsInc.的全部股权。站长网2023-09-20 08:58:100000阿根廷软件巨头Globant计划投资10亿美元在拉美建立AI业务
据美通社消息,阿根廷软件巨头Globant计划投资10亿美元在拉丁美洲建立其AI业务,在未来五到六年内将公司员工人数增加近一倍。作为投资计划的一部分,Globant正在推行的举措包括:站长网2023-08-11 15:35:110000支付宝商家群升级:群功能免费免研发、可联动10大公私域场景
支付宝继合作伙伴大会宣布免费开放商家群后,10月12日,通过支付宝开放平台公众号宣布产品再度升级:商家群核心运营工具均免研发免费开放,还新增支付宝10大公私域入口与流量激励政策,进一步为商家私域运营降本增效。社群运营一直被认为是商家做私域的必经之路,此前商家做社群运营,需要自身具备相对成熟的私域流量体系,借助投放或营销活动等完成拉新。站长网2023-10-12 11:49:370000