Meta 停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源
版权问题引发大规模的生成式人工智能争议,Meta 试图以不公开训练数据的方式规避争议。
周二,社交媒体巨头 Meta 发布了一款名为 Llama 2 的庞大新模型,但在研究论文中几乎没有透露使用了哪些数据。「新的公开可用的在线数据,」Meta 的研究人员在论文中写道,几乎没有其他信息。
这是不同寻常的。迄今为止,人工智能行业一直对模型的训练数据持开放态度。原因在于:这种强大的技术必须被理解,其输出必须尽可能地可解释和可追溯,以便研究人员在出现问题时可以进行修复。训练数据对这些模型的性能至关重要。
例如,原始的 Transformer 研究论文揭示了用于训练的详细数据。其中包括来自WSJ 的约 40,000 个句子。
Meta 在今年二月发布第一版 LLaMA 时,论文中列出了所有的训练数据。它包括一堆图书和 Common Crawl 数据集,这是一个自 2008 年以来积累的庞大互联网副本,存储在亚马逊的云端,随时可以下载。该数据集占 Meta 用于训练 LLaMA 的信息的三分之二以上。
而在过去五个月里,出版商、作家和其他创作者突然意识到他们的作品被用于训练所有这些人工智能模型。他们并没有被征求许可。
已经有一系列诉讼挑战了科技公司使用这些信息训练 AI 模型的权利。Sarah Silverman的投诉可能是迄今为止最有名的一个。
对于大型科技公司来说,他们知道这是一个风险。微软作为产业领导者 OpenAI 的支持者,最近在其季度 SEC 文件中增加了这个风险因素。微软在四月份增加的新部分中强调了版权作为知识产权法的重要组成部分。
谷歌,作为另一个人工智能领域的领导者,不愿为在线内容付费,因为这会削弱其高盈利的商业模式。谷歌的高级法律顾问 Halimah DeLaine Prado 表示,美国法律「支持使用公共信息来创造新的有益用途」,这一观点在法庭上可能占上风。
而 Meta 似乎已经认定,在这个新法律问题得到解决之前,不告诉任何人使用了哪些数据是一个安全的做法。
此外,Meta 可能还有其他原因保持沉默。Lamini AI 创业公司的 CEO Sharon Zhou 提出了一些理论,包括最具争议的一点:Meta 在规避法律责任,公司想要保留将 Llama 2 复制的能力,也有可能是因为整理所有元数据是很费时的工作,所以 Meta 可能会在合适的时候发布训练数据的细节。
对此,Meta 表示,他们将发布模型权重和起始代码,以供开发者使用,并强调他们致力于负责任和道德的开发生成式 AI 产品,确保他们的政策符合不同背景的要求和不断变化的社会期望。
百度Apollo展示AI智能座舱 引入文心大模型
5月23日,百度Apollo汽车智能化业务展示了以文心大模型为基础的新一代AI智舱探索成果。据悉,这是国内首个大模型在汽车行业应用的成果探索,有望在未来推进量产。基于文心大模型能力探索下,智舱将具备出行场景对话式交互、逻辑推理、策略规划和知识问答等多项能力,同时也展示了在当前智舱命令式交互下覆盖全车多音区、毫秒级响应、免唤醒全时交互的极致体验。站长网2023-05-24 08:53:460000侵害用户权益!工信部通报56款App:羊了个羊上榜
5月7日消息,据工信微报”公众号介绍,工信部依据《个人信息保护法》《网络安全法》《电信条例》《电信和互联网用户个人信息保护规定》等法律法规,持续开展App侵害用户权益专项整治行动。近期,工信部组织第三方检测机构对群众关注的实用工具、休闲娱乐及短视频等移动互联网应用程序及第三方软件开发工具包(SDK)进行检查,发现56款App(SDK)存在侵害用户权益行为。站长网2023-05-07 08:53:090000Novel:一款Notion风格编辑器 搭载强大AI智能自动补全功能
Novel是一款开源的WYSIWYG编辑器,采用Notion风格,并搭载了强大的AI智能自动补全功能。它不仅提供直观的所见即所得编辑体验,还通过人工智能技术为用户提供自动补全建议,使编辑过程更加高效和智能。项目地址:https://github.com/steven-tey/novel核心功能:站长网2023-12-18 11:51:330001AI视野:荣耀发布魔法大模型;阿里推开源版FaceChain;钉钉小冰合作推一键定制数字人;微博上线AI评论机器人
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📈💻💡大模型动态荣耀发布魔法大模型站长网2024-01-10 16:50:010000