Prismer: 一个专家集合的视觉语言模型 支持多节点训练
prismer 是一种视觉语言模型的实现,旨在提供一个具有专家集合的系统。该系统基于 PyTorch1.13开发,使用了 Huggingface 的加速工具包,支持多节点多 GPU 的训练。它可以进行图像描述和视觉问答等任务,并且在预训练和微调方面都取得了良好的性能。通过继承来自公开的、预先训练的领域专家的大部分网络权重并在训练期间冻结它们,Prismer 只需要训练几个组件。
项目地址:https://github.com/nvlabs/prismer
核心功能:
1. 提供了 Prismer 和 PrismerZ 两种模型的预训练和微调检查点,可以进行零 - shot 图像描述和视觉问答任务。
2. 支持使用多个专家模型进行集合,提高模型的表现。
3. 提供了用于生成专家标签的工具,以构建多标签数据集。
4. 支持使用自定义数据集进行训练和微调,并提供了训练和评估脚本。
5. 提供了一个简洁的示例,可在单个 GPU 上进行图像描述任务。
优点:
Prismer 模型有几个优点,但最值得注意的优点之一是它在训练时非常有效地使用数据。Prismer 构建在预训练的纯视觉和纯语言骨干模型之上,以实现这一目标,并大幅减少获得与其他最先进的视觉语言模型同等性能所需的 GPU 时间。人们可以使用这些预先训练的参数来使用大量可用的网络规模知识。
研究人员还为视觉编码器开发了多模态信号输入。创建的多模态辅助知识可以更好地捕获有关输入图像的语义和信息。Prismer 的架构经过优化,可以最大限度地利用经过培训的专家,并且可训练的参数很少。
研究人员在 Prismer 中纳入了两种经过预培训的专家:
主干网专家负责将文本和图片翻译成有意义的标记序列的预训练模型分别称为“仅视觉”和“仅语言”模型。
根据训练中使用的数据,话语模型的主持人可能会以各种方式标记任务。
特性
知识渊博的人越多,结果就越好。随着 Prismer 模态专家数量的增加,其性能也随之提高。
专业技能越强,结果越高 研究人员用均匀分布中的随机噪声替换部分预测深度标签,以创建损坏的深度专家,并评估专家质量对 Prismer 性能的影响。
抵制无益的意见 研究结果进一步表明,当噪声预测专家加入时,Prismer 的性能是稳定的。
特斯拉Cyberquad玩具车今日开售 售价11990元
特斯拉中国官网今天上午10点正式上线销售Cyberquad玩具车,这款玩具车的灵感来自于特斯拉标志性的Cybertruck设计语言,具有锂离子电池供电、续航里程可达13公里、最高时速为8km/h等特点,适合8-12岁的儿童使用。站长网2023-07-14 16:20:410000三星Galaxy S24 AI 将开启类似于 Note、可折叠设备的“移动新时代”
随着三星即将于1月17日推出GalaxyS24系列,一场以人工智能为主题的“移动新时代”正式拉开序幕。在最新的预告片中,三星通过回顾自家手机的历史,强调了其在塑造手机演进方面的关键作用。在新的预告片中,三星跟随公交车上的两个人谈论手机的变化,并回顾了三星手机历史上的几个关键垫脚石。这些包括:站长网2024-01-04 10:04:550000在夜校,年轻人用五百元“重启人生”
图源备注:图片由AI生成,图片授权服务商Midjourney“夜校”的概念,正在全国风靡。11月6日,央视新闻报道,上海夜校的秋季班火爆到65万人同时在线抢课,达到了一课难求的程度。短时间内,夜校风吹遍了全国各地,打开小红书,北京夜校、西安夜校、深圳夜校、成都夜校、天津夜校、长沙夜校纷纷开启了学员招募。站长网2023-11-12 10:29:100000山东研发出无人驾驶公交:整个过程不需要人工干预
快科技4月8日消息,据闪电新闻报道,山东一企业开发出新一代5G智能公交客车,能根据路线自主设定起始点、停靠点和终点,整个过程不需要人工干预。这辆车配备各种雷达、摄像头、高清定位系统,可以自动躲避障碍物,可谓360度无盲区感知。据了解,这辆车的自动驾驶等级,是目前行业内最高等级,已经过8万公里的自动驾驶测试,没发生一起交通事故。站长网2023-04-12 11:39:250000B站UP主9天用Runway搞出《海贼王》真人版电影 视频播放近百万
近期,AI生成的影视短片引起了广泛关注。例如,B站UP主“AI疯人院”制作的AI版《西游记》,恐怖短片《Another》以及麻省理工黑客松最佳AI影片《怀旧的宇航员》等作品,都给观众留下了深刻印象。站长网2024-03-19 21:47:280000