研究发现大型 AI 数据集包含虐待儿童图像:该数据集已用于构建流行的人工智能图像生成器,包括 Stable Diffusion
根据斯坦福互联网观察站周三发布的一项新研究,流行的人工智能(AI)图像生成器的基础数据库中隐藏着数千张儿童性虐待图片(CSAM)。作为对这一研究的回应,一些最大和最常用的图像数据库的运营商关闭了对它们的访问权限。
斯坦福大学的这个监督团队与加拿大儿童保护中心以及其他反虐待慈善机构合作,在巨大的 AI 数据库 LAION 中发现了超过 3200 张涉嫌儿童性虐待的图片,并向执法部门报告了原始照片链接。其中 1000 多张涉嫌图片被确认为儿童性虐待材料。
研究者们写道:「我们发现即使在 2023 年晚些时候,拥有 LAION-5B 数据集也意味着拥有数千张非法图片。」
对此,LAION 在斯坦福互联网观察站报告发布前夕做出了迅速反应,宣布暂时撤下其数据集。LAION(代表非营利性的大规模人工智能开放网络)在一份声明中表示,「我们对非法内容采取零容忍政策,出于谨慎考虑,我们已撤下 LAION 数据集,以确保在重新发布之前它们是安全的」。
尽管这些图片只占 LAION 约 58 亿张图片指数的一小部分,斯坦福团队表示,这可能影响 AI 工具生成有害输出的能力,并加剧对多次出现的实际受害者的先前虐待。
研究人员表示,这些图片还使 AI 系统更容易生成虚假儿童的逼真和明确的图像,以及将社交媒体上完全穿着衣服的真实青少年的照片转换为裸体照片,这让全世界的学校和执法部门感到震惊。直到最近,反虐待研究人员认为,一些未经检查的 AI 工具产生虐待儿童的图像的唯一方式是通过结合两类在线图片——成人色情和对孩子的无害照片。
斯坦福互联网观察站呼吁采取更为激进的措施。其中之一是要求所有基于 LAION-5B(包含超过 50 亿张图像文本对)构建训练集的人「删除它们或与中间商合作清理材料」。另一个措施是实际上让去年推出的 Stable Diffusion 的旧版本从互联网上最黑暗的角落消失。
斯坦福互联网观察站的首席技术官 David Thiel 表示:「合法平台可以停止提供它的下载,特别是如果它们经常用于生成虐待图像并且没有阻止它们的保障措施。」
解决这个问题并不容易,可以追溯到许多生成性 AI 项目「实际上被匆忙地推向市场」并且由于该领域竞争激烈而广泛可用,Thiel 说。
「将整个互联网的抓取数据集用于训练模型本应该限于研究操作,如果有的话,而不是在没有更多严格关注的情况下开源,」Thiel 在接受采访时说。
影响 LAION 数据集开发的一个主要 LAION 用户是总部位于伦敦的初创公司 Stability AI,该公司制作了 Stable Diffusion 文本到图像模型。根据斯坦福报告,Stable Diffusion 的新版本已大大降低了生成有害内容的可能性,但去年推出的旧版本(Stability AI 表示它没有发布)仍然嵌入到其他应用程序和工具中,并且仍然是「生成明确图像的最受欢迎的模型」。
「我们无法撤回这一模型。这个模型已经在许多人的本地机器上被人们所拥有,」加拿大儿童保护中心信息技术主任 Lloyd Richardson 说。该中心运营着加拿大网络性剥削举报热线。
Stability AI 周三表示,它只托管过滤后的 Stable Diffusion 版本,并且「自从接管 Stable Diffusion 的独家开发以来,Stability AI 已采取积极措施来减少滥用风险」。
「这些过滤器阻止了不安全内容到达模型,」该公司在一份准备好的声明中说。「通过在内容到达模型之前将其移除,我们可以帮助防止模型生成不安全内容。」
LAION 本周表示,它开发了「严格的过滤器」来检测和移除非法内容,然后才发布其数据集,并仍在努力改进这些过滤器。斯坦福报告承认,LAION 的开发者试图过滤掉「未成年」的露骨内容,但如果他们早些时候与儿童安全专家协商,可能会做得更好。
许多文本到图像生成器都以某种方式从 LAION 数据库派生而来,尽管并不总是清楚是哪些生成器。Dall-E 和 ChatGPT 的开发商 OpenAI 表示,它没有使用 LAION,并对其模型进行了微调,以拒绝涉及未成年人的色情内容的请求。
Google 基于 LAION 数据集构建了其文本到图像 Imagen 模型,但在 2022 年决定不公开发布,原因是对数据库进行的审计「发现了大量不当内容,包括色情图像、种族主义辱骂和有害的社会刻板印象」。
LAION 的创始人是德国研究员和教师 Christoph Schuhmann,他今年早些时候表示,公开提供如此庞大的视觉数据库的部分原因是为了确保 AI 发展的未来不受少数强大公司的控制。
机皇小米14 Ultra要来了!卢伟冰大年初三正在纠结发布会
快科技2月12日消息,今天是大年初三,刚刚晋升小米总经理的卢伟冰一大早就发消息,称正在纠结哪天开始准备小米14Ultra的发布会。以此来看,小米14Ultra发布会应该会在年后很快揭晓,2月份之内有望登场。值得一提的是,小米官方在海外宣布了2月25日的小米14系列发布会,超大杯小米14Ultra极有可能登场,而国内可能还会提前一步。站长网2024-02-12 09:12:210000苹果下调自研车自动驾驶目标 推迟自研车上市时间
1月24日,据外媒报道,苹果公司的汽车开发项目遭遇挫折,导致该款汽车的发布日期较原计划推迟了两年。自2014年启动以来,苹果的“泰坦项目”经历了一系列重组、裁员、领导层变动和战略调整。尽管每年投入高达10亿美元,但目前该项目仍未进入正式的原型阶段。站长网2024-01-24 14:00:100000开源中国完成股份重组,中国移动、联想等公司入股
根据天眼查App显示,开源中国的关联公司开源共识(上海)网络技术有限公司在7月18日发生了工商变更,新增了中国移动旗下的北京中移数字新经济产业基金合伙企业、联想旗下的湖北省联想长江科技产业基金合伙企业、中国互联网投资基金等多家企业作为股东。同时,原股东百度旗下的传课计算机系统(北京)有限公司的出资额减少,公司注册资本也有所增加。站长网2023-07-20 17:30:380000天降10万+?“看一看”能重新盘活公众号流量吗
微信公众号可能还有流量红利。最近,不少公众号运营者被“看一看”的流量推荐“撞到了腰”,迎来一小波爆款激增。6月12日,和菜头在个人公众号“槽边往事”发文《被流量撞了一下》,提到当月热度最高的一篇推文阅读量超48万,其中“看一看”的流量占比达到60%。他判断,“看一看”可能会是“微信内部一条难能可贵的内容曝光和传播渠道”,不可小觑。站长网2023-06-16 20:15:080000企鹅FM发布下线公告 将在 9 月 6 日 0 时正式停止运营
今日,企鹅FM发布公告,宣布由于业务调整,即日起将关闭用户注册及充值功能。并在2023年9月6日0时正式停止运营。企鹅FM表示,用户的原创录音可在PC端访问原创录音下载页面进行留存,下载服务将于9月6日0时停止运营后关闭,届时所有原创录音将无法收听、下载。站长网2023-07-05 17:28:180000