轻松识别Midjourney等AI生成图片,开源GenImage
AIGC时代,人人都可以使用Midjourney、Stable Diffusion等AI产品生成高质量图片,其逼真程度肉眼难以区分真假。这种虚假照片有时会对社会产生不良影响,例如,生成公众人物不雅图片用于散播谣言;合成虚假图片用于金融欺诈,造成信任危机等。
因此,华为诺亚方舟实验室开源了百万量级的GenImage数据集,帮助企业、开发者快速构建区分AI生成的图像和真实图像的检测器和评估工具,致力于构建AIGC时代的ImageNet。
开源地址:https://github.com/GenImage-Dataset/GenImage
论文:https://arxiv.org/abs/2306.08571
项目主页:https://genimage-dataset.github.io/
GenImage主要优点
1)大量图像,包括超过一百万对 AI 生成的假图像和收集的真实图像。
2)丰富的图像内容,涵盖广泛的1000类图像。
3) 最先进的生成器,Midjourney、Stable Diffusion、ADM、GLIDE、Wukong、VQDM等,利用先进的扩散模型和 GAN 合成图像。
上述优点使得在GenImage 上训练的检测器能够经过全面的评估,并表现出对不同图像的强大适用性。
华为团队对数据集进行了全面分析,并提出了两个任务来评估类似于真实场景的检测方法。交叉生成器:检测器在一种生成器生成的数据上训练,在其他生成器生成的数据上验证。这个任务目的是考察检测器在不同生成器上的泛化能力。
退化图像识别:检测器需要对于低分辨率,模糊和压缩图像进行识别。这个任务主要考察检测器在真实条件(如互联网上传播)中面对低质量图像时的泛化问题。
数据集介绍
过去开源界也推出了一些数据集,主要有三个特点。第一数据规模小,第二都是基于GAN的,第三是局限于人脸数据。随着时间推移,数据规模慢慢地在增加,生成器也从GAN时代过渡到Diffusion时代,数据的范围也在增加。
但是一个大规模以Diffusion模型为主,涵盖各类通用图像的数据集仍然是缺失的。
基于此,华为团队提出一个对标imagenet的genimage数据集。真实的图片采用了ImageNet。
虚假的图片采用ImageNet的标签进行生成。华为团队利用了八个先进的生成器来生成,分别是Midjourney,
Stable Diffusion V1.4, Stable Diffusion V1.5, ADM, GLIDE, Wukong,VQDM和BigGAN。
这些生成器生成的图片总数基本与真实图片一致。每个生成器生成的图片数量也基本一致。每一类生成的图片数量基本一致。
实验结果
华为团队做了一些实验来考察这个数据集。他们发现在某个生成器上训练的ResNet-50模型在其他的测试准确率会明显降低。
然而在真实情况下华为团队难以得知遇到的图像的生成器是什么。因此检测器对于不同生成器生成图片的泛化能力很重要。
华为团队对比了现有方法在Stable Diffusion V1.4上训练,然后在各种生成器上测试的结果,也评测了各种生成器上训练,然后在各种生成器上测试的结果。
Testing Subset那一列中的每一个数据点,都是在八个生成器上训练,然后在一个生成器上测试得到的平均结果。然后华为团队将这些测试集上的结果平均,得到最右侧的平均结果。
华为团队对测试集进行退化处理,采用不同参数下的低分辨率,JPEG压缩和高斯模糊,评测结果如下
那么采集这么多数据是不是有用呢?华为团队做了相关实验,证明通过提升数据类比和每类的图片数量是可以提高性能。
针对GenImage数据集对于不同图片的泛化能力,华为团队发现他对于人脸和艺术类图片也能达到很好的效果。
未来展望
随着AI生成图片能力的不断提升,对于AI生成的图片实现有效检测的需求将会越来越迫切。本数据集致力于为真实环境下的生成图片检测提供有效训练数据。
华为团队使用ResNet-50在本数据集中训练,然后在真实推文中进行检测。如下图,ResNet-50能够有效识别真图和假图。
这个结果证明了GenIamge可以用于训练模型以判别真实世界的虚假信息。华为团队认为,该领域未来值得努力的方向是不断提升检测器在GenImage数据集上的准确率,并进而提升其在真实世界面对虚假信息的能力。
本文素材来源华为GenImage,如有侵权请联系删除
END
字节跳动成立新AI部门Flow 发力AI应用层
据36氪消息,字节跳动近期成立了一个新的AI部门Flow,由技术副总裁洪定坤领导。据一位知情人士透露,该部门的业务带头人是字节大模型团队的负责人朱文佳。这些信息尚未得到字节跳动的官方回应。点击前往抖音豆包官网体验入口据了解,Flow部门主要关注AI应用领域。站长网2023-11-28 17:41:180000京东自营推出“免费上门退换”服务 将覆盖超九成第三方商家
随着春节假期的结束,京东服务再次迎来了全新的升级。这一次,京东自营率先推出了“免费上门退换”服务,为消费者带来了前所未有的便利。凡是打标有“免费上门退换”标签的商品,无论大小、轻重,还是数量多少,都可以享受到免费上门退换的待遇。这意味着用户不再需要为退换货支付任何运费,既省钱又省心,还省去了自行处理的繁琐过程。站长网2024-02-22 14:04:210000复旦大学团队发布中文医疗健康个人助手DISC-MedLLM 单轮问答和多轮对话均表现亮眼
复旦大学数据智能与社会计算实验室(FudanDISC)发布了中文医疗健康个人助手DISC-MedLLM。该模型在单轮问答和多轮对话的医疗健康咨询评测中表现出色,相比已有医学对话模型具有明显优势。课题组同时公开了包含47万高质量监督微调样本的DISC-Med-SFT数据集,以及模型参数和技术报告。DISC-MedLLM的三大特点:1)可靠丰富的专业知识,基于医学知识图谱采样获得;站长网2023-09-01 15:13:190000我在抖音卖农具,热销10万+
各位村民好,我是村长。今天分享的这个账号你一定要看,因为很多人根本就看不上这么赚钱的生意。我的核心目的希望让大家关注其中的两点,如果你能够深刻的去思考,也许也能找到赚钱的机会。01在抖音卖农具这个账号在抖音上卖农具,就是锄头、铲子、耙子等等。现在太多的年轻人,尤其是95后、00后都不在农村长大,也不种地了,在大城市里更没有机会。站长网2023-06-29 19:26:260000小米发布2023年第二季度财报:营收673.5亿元 同比下滑4%
小米发布2023年第二季度财报。财报显示,该季度小米实现营收673.5亿元,同比下滑4%,市场预期658.4亿元。实现净利润36.66亿元,同比增长168.5%,市场预期净利润31.59亿元。其中,IoT与生活消费产品收入223亿元,同比增长12.3%;互联网服务74亿元,同比增长6.8%;其他收入10.61亿元,同比减少5.2%。智能手机收入366亿元,同比减少13.4%。站长网2023-08-29 18:03:080000