反盗版组织下线AI训练数据集 “Books3” Meta大模型也曾使用
本文概要:
1. 反盗版组织成功要求在线盗版书籍资源库 The Eye 下线 AI 训练数据集 "Books3"。
2. "Books3" 数据集包含了37GB 的文本,用于训练人工智能模型,已被多家公司使用。
3. 反盗版组织表示 AI 对版权产生了新的挑战,计划继续打击其他存有该数据集的网站。
近日,反盗版组织成功要求在线盗版书籍资源库 The Eye 下线 AI 训练数据集 "Books3" 的事件。"Books3" 数据集是一个大规模的盗版书籍资源,包含了37GB 的文本,用于训练人工智能模型。
Books3存储库包含196,640本书,全部采用 plain.txt 格式,旨在为新兴的 AI 项目提供与 ChatGPT 制造商 OpenAI 等项目竞争的优势。
丹麦的反盗版组织 Rights Alliance 向 The Eye 发送了 DMCA 通知书,要求其下线该数据集。该组织表示,Books3数据集包含其成员公司出版的约150本书。Rights Alliance 还联系了 AI 模型托管网站 Hugging Face(该网站托管了数据卡和 Books3下载链接)以及 EleutherAI。两个组织都将反盗版组织的目标指向了“The Eye”。
非营利研究组织 EleutherAI 最初发布 Books3作为 AI 训练集 The Pile 的一部分,The Pile 是一个800GB 的开源训练数据块,其中包含22个专门为训练语言模型而设计的其他数据集。
尽管 "Books3" 数据集已被下线,其发布者Shawn Presser(人工智能开发人员和著名开源人工智能支持者) 又在 Twitter 上发布了两个新的下载链接。反盗版组织表示将继续追踪和打击存有该数据集的网站。
尽管如此,大型科技公司在训练 AI 模型时使用版权数据的普遍性,但这些公司并不会公开发布其训练数据,这造成了与个人和非营利项目的不公平竞争。反盗版组织表示,AI 对版权产生了新的挑战,需要加强监管和规范。
据了解,Meta 等公司也使用了 "Books3" 数据集来训练 AI 模型。在描述原始 LlaMA 语言模型的白皮书中,Meta 研究人员将 Books3描述为“用于训练大型语言模型的公开数据集”。Meta 引用了来自The Pile的这个数据集。另外,OpenAI 的 GPT-3模型使用 Books2训练集来训练其 AI。Books1和 Books2都占 GPT-3训练数据的近15%。
雷军:在年度演讲上将公布小米AI新进展
今日,小米创办人雷军在接受《人物》采访时,针对“你怕不怕被AI取代?说不定AI比你干得更好。”的提问,雷军表示,有可能,我也挺期待的,不过呢,这一天可能还需要很漫长的时间。小米在AI上也有些新的进展,将在今晚的演讲上和大家说一说。据了解,2023年雷军的年度演讲将于8月14日晚7点举行,主题为“成长”。这将是雷军的第4次年度演讲,他将在演讲中与大家分享过去30多年中几次关键的成长经历和感悟。站长网2023-08-14 14:40:410000郭明錤:「没有迹象」表明苹果将在 2024 年推出生成式 AI 技术
站长之家(ChinaZ.com)8月3日消息:根据分析师郭明錤的说法,苹果的生成式人工智能技术进展明显落后于竞争对手,并且没有迹象显示该公司计划在明年推出人工智能服务。在Medium上的一篇新文章中,郭明錤解释了苹果即将发布的财报将如何影响苹果股票和供应链。由于在人工智能领域进展不足,该公司在财报电话会议上可能不会花太多时间讨论人工智能。站长网2023-08-03 10:41:330000分析显示:AI 女友比 AI 男友更受欢迎,下载量多七倍
站长之家(ChinaZ.com)3月16日消息:根据AppRadar和专注于应用增长解决方案的公司SplitMetrics的分析,AI女友比AI男友更受欢迎,大约多七倍。AI伴侣的受欢迎程度飙升,SplitMetrics发现,在GooglePlay商店中,AI伴侣应用已达到2.25亿的终身下载量(LifetimeDownloads)。站长网2024-03-16 13:45:110000OpenAI 首席执行官 Sam Altman 解释他为何在人工智能之外大力投资能源
Oklo公司是一家先进的裂变微型反应堆创业公司,周二宣布通过与特殊目的收购公司AltCAcquisitionCorp.进行合并以进行上市交易。AltC由OpenAI首席执行官SamAltman和ChurchillCapital共同创立,Altman也是Oklo董事会主席。站长网2023-07-12 17:26:030000Meta翻译大模型可模仿语气语速,AI再也不“莫得感情”了
Meta发布了全新AI翻译大模型,实时语音转换延迟不超过2秒。感受一把这个速度(西班牙语<=>英语):不仅速度快,它的准确率还和离线模型一样高。最重要的是,像什么停顿、语气、语速和情绪……它都可以复刻。例如模仿耳语:原声1,量子位,3秒翻译1,量子位,3秒例如模仿悲伤:原声2,量子位,3秒翻译2,量子位,3秒有了它,再也不用吐槽AI翻译“莫的感情”了。0000