CommonCanvas:一种使用创意共享图片训练开放扩散模型的方法
核心要点:
研究团队提出了一种使用创意共享图片训练开放扩散模型的方法,以克服高质量数据和版权问题的挑战。
他们使用迁移学习技术创建了合成标题,与精选的创意共享图片匹配,用于训练生成模型,将文字转化为图像。
这一方法大大提高了生成模型的质量,创建了称为CommonCanvas的一组模型,可与SD2相媲美。
近年来,人工智能在文本到图像生成领域取得了显著进展。将书面描述转化为视觉表现具有广泛的应用,从创作内容到帮助盲人和讲故事。然而,研究人员面临着两个重大障碍,即缺乏高质量数据和从互联网抓取的数据集涉及的版权问题。
为了克服这些问题,一支研究团队提出了一个创新的方法,他们创建了一个创意共享许可(CC)的图像数据集,用于训练开放扩散模型,这些模型可以胜过Stable Diffusion2(SD2)。
论文地址:https://arxiv.org/pdf/2310.16825.pdf
这个方法有两个主要挑战:首先,高分辨率的CC照片虽然是开放许可的,但它们经常缺乏文本描述,这对于文本到图像生成模型的训练至关重要。
其次,与像LAION这样的大型专有数据集相比,CC照片数量较少,尽管它们是重要的资源。这引发了是否有足够的数据可以有效训练高质量模型的问题。
为了解决这些问题,研究团队采用了迁移学习技术,使用预训练模型创建了出色的合成标题,并将其与精心选择的CC照片相匹配。这种方法利用了模型从照片或其他输入生成文本的能力,通过创建一个照片和虚构标题的数据集,用于训练生成模型,将文字转化为视觉内容。
此外,他们还制定了一种既节约计算资源又高效利用数据的训练方法,以解决第二个挑战。这意味着有足够的CC照片可供训练高质量模型。最终,研究团队培训了多个文本到图像生成模型,这些模型被称为CommonCanvas系列,并在生成质量上媲美SD2。
通过该方法,他们克服了数据集大小的限制和使用人工标题的问题,实现了高质量的图像生成。总之,他们的研究为创意共享图像的利用提供了新方法,为生成模型的进一步发展提供了有力支持。同时,他们还将训练好的CommonCanvas模型、CC照片、人工标题和CommonCatalog数据集免费提供在GitHub上,以鼓励更多的合作和研究。
粉嫩清爽 联想moto发布moto razr 40 Ultra柔和桃限定版
12月8日,联想moto正式发布了motorazr40Ultra柔和桃限定版。这款手机在小折叠领域诠释了2024年的时尚态度。作为Pantone2024年度代表色,柔和桃呈现出清新的蜜桃色调,包含粉红色和橘色之间的舒适感受,给人以宁静而感性的体验。0001苹果即将在欧洲、亚洲和中东推出返校优惠
苹果今天计划在英国和欧洲、亚洲、中东部分国家推出其年度“返校季”促销活动。在即将开启返校季教育优惠的国家,苹果的网站目前处于关闭状态。在符合条件的国家,高等教育学生和教育工作者可以在购买指定的Mac和iPad时,获得苹果礼品卡、AirPods或ApplePencil。站长网2023-07-13 17:55:310000理想AD Max 3.0上热搜 将在本季度开启内测
今日,理想汽车宣布进入“双能战略”的发展新阶段,在“智能”和“电能”方面全面发力。到2025年,理想汽车将形成“1款超级旗舰5款增程电动车型5款高压纯电车型”的产品布局,面向20万以上的市场,全面满足家庭用户需求。站长网2023-04-18 10:37:080001海底捞平价子品牌“嗨捞火锅”如何成为排队王?
“广东人看完都沉默了,痛失广东市场”“海底捞有自己的穷鬼套餐”“不是海底捞吃不起,而是嗨捞更有性价比”海底捞最近刚推出的全新子品牌平价火锅“嗨捞火锅”变成了新的打卡排队王。“嗨捞火锅”目前仅在北京开设两家门店,品牌首店位于北京北苑龙湖天街,在9月26日正式开店。19.8元的锅底,22元一盘肉,平均客单价低至80元,海底捞子品牌的名气加上陌生的价格让“嗨捞火锅”门店持续火热。站长网2023-11-04 09:36:490000腾讯将发布大模型训练自研向量数据库
据科创板日报报道,腾讯云将于7月4日下午发布一款自主研发的向量数据库(TencentCloudVectorDB),该数据库主要面向大规模模型的训练。通过使用这款数据库,企业原先需要花费一个月时间才能完成的大模型接入工作,将缩短到三天时间,极大提升工作效率。据透露,该数据库已经在腾讯视频、QQ浏览器的AI检索和查询场景中得到了成功应用。站长网2023-07-04 14:40:290000