作者指控 Meta 不顾自己律师的警告,将受版权保护的书籍用于人工智能训练
Meta 在一起夏季提起的版权侵权诉讼中的最新提交文件显示,尽管律师警告使用数千本盗版书籍训练其 AI 模型的法律风险,该公司仍然这样做了。
周一晚间提交的新文件整合了针对 Facebook 和 Instagram 所有者的两起诉讼,由喜剧演员 Sarah Silverman、普利策奖得主 Michael Chabon 以及其他著名作者提起。他们指控 Meta 未经许可使用他们的作品训练其人工智能语言模型 Llama。
上个月,加州法官驳回了 Silverman 诉讼的一部分,并表示将允许作者修改他们的指控。Meta 尚未对这些指控作出回应。
周一提交的新起诉包括 Meta 关联研究员在 Discord 服务器上讨论数据集采购的聊天记录,这可能是一个重要证据,表明 Meta 知道其使用这些书籍可能不受美国版权法保护。
在起诉中引用的聊天记录中,研究员 Tim Dettmers 描述了他与 Meta 法律部门就使用书籍文件作为训练数据是否「合法」进行的讨论。
Dettmers 在 2021 年写道,他提到 Meta 承认用来训练 Llama 第一版的一个数据集「The Pile」,「在 Facebook,有很多人有兴趣使用 (The Pile),包括我自己,但以其当前形式,我们因法律原因无法使用它。」
根据起诉,Dettmers 在前一个月写道,Meta 的律师告诉他「如果数据被用来训练模型或发布,则不能使用该数据」。
尽管 Dettmers 没有详细描述律师的担忧,但聊天中的其他人指出,「仍在享有版权的书籍」可能是最大的担忧来源。他们表示,对数据的训练应该「属于合理使用范畴」,这是一种保护版权作品某些未经许可使用的美国法律原则。Dettmers 表示,他目前无法立即对这些指控发表评论。
今年,科技公司面临了一系列来自内容创作者的诉讼,他们指控这些公司剽窃受版权保护的作品,以构建在全球引起轰动并引发投资热潮的生成型 AI 模型。
如果这些案件成功,可能会抑制生成型 AI 的热潮,因为它们可能会通过迫使 AI 公司补偿艺术家、作者和其他内容创作者使用其作品而提高构建数据密集型模型的成本。
同时,欧洲新的临时人工智能法规可能会迫使公司披露用于训练模型的数据,从而可能使它们面临更多法律风险。
Meta 在 2 月发布了其 Llama 大型语言模型的第一个版本,并公布了用于训练的数据集列表,包括「ThePile」的 Books3 部分。根据起诉,组建该数据集的人称其包含 196,640 本书。
该公司并未透露其最新版本模型 Llama 2 的训练数据,该模型已于今年夏天投入商业使用。
Llama 2 对月活跃用户少于 7 亿的公司免费使用。其发布在科技领域被视为生成型 AI 软件市场的潜在游戏规则改变者,威胁到像 OpenAI 和 Google 这样的主导者,后者对其模型的使用收费。
UC伯克利发布大语言模型榜单 清华ChatGLM冲进前五
日前,UC伯克利发起了大语言模型版排位赛,让大语言模型随机进行battle,并根据它们的Elo得分进行排名。排行榜数据显示,Vicuna以1169分排名第一,Koala位列第二。这两个模型都有130亿参数。LAION的OpenAssistant排在第三。清华提出的ChatGLM,虽然只有60亿参数,但依然冲进了前五,只比130亿参数的Alpaca落后了23分。站长网2023-05-05 11:10:180001做陪诊师,月入3万?
各位村民好,我是村长。许多视频博主都在说,生意好的时候,一天收入轻松上千元。不知道大家近一年来,在刷短视频的时候,有没有看到过一些医院陪诊的内容。之前也有一位村民和村长聊过,自己想做这方面的事情。今天村长就和大家简单来聊一下,医院陪诊或者叫陪诊师这个项目能不能做?以及该怎么做才能赚钱?01陪诊的需求源自哪里站长网2023-04-12 15:29:130000快递员预测新规实施或引发离职潮:派件效率或下降
《快递市场管理办法》自今日起正式施行,该法规详细规定了保障快件安全、防止快件丢失、损毁、内件短少等方面的要求,并严禁抛扔、踩踏快件等不当行为。同时,法规也明确了快递服务时限和投递地址的约定,除非遭遇不可抗力因素,否则快递企业必须在承诺的时间内将快件投递到指定的收件地址和收件人手中。站长网2024-03-01 08:44:040000商汤科技推出基于大模型体系的数字水印解决方案SenseTrust
商汤科技率先推出了基于其大模型体系的数字水印解决方案SenseTrust,以确保数据的可溯源和可追踪性。数字水印是一种将标识信息嵌入到AI生成的数字内容中的技术,可以用于验证内容的真实性和来源,防止虚假信息传播,加强版权保护。商汤的数字水印解决方案结合了传统频域技术、深度学习和扩散模型等技术,可以在不影响生成内容质量的情况下对内容进行确权和溯源。站长网2023-08-31 08:56:530000OpenAI逐步恢复 ChatGPT Plus 会员注册 已向部分用户发出邀请
OpenAI已经开始逐渐恢复ChatGPTPlus注册,已有部分用户收到邀请。站长网2023-12-13 08:36:480000