全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容
根据人工智能内容检测器 Originality.AI 的最新数据,全球前 1000 个网站中有近 20% 阻止爬虫机器人收集网络数据用于 AI 服务。
在缺乏明确法律或监管规定管理 AI 使用版权材料的情况下,大小不一的网站都自行采取措施。
OpenAI 于 8 月初推出了其 GPTBot 爬虫,并宣布所收集到的数据「可能被用于改进未来模型」,承诺排除付费内容并指导网站如何禁止该爬虫。随后,包括《纽约时报》、路透社和 CNN 等知名新闻网站开始阻止 GPTBot,并且许多其他网站也效仿。
根据 Originality.AI 的数据,在全球前 1000 个最受欢迎的网站中,阻止 OpenAI ChatGPT bot 的数量从 8 月 22 日 9.1% 增加到 8 月 29 日 12%。封锁 ChatGPT bot 的最大网站是亚马逊、Quora 和 Indeed。数据显示,更大型的网站更有可能已经封锁了 AI 爬虫机器人。
Common Crawl Bot 是另一个定期收集某些 AI 服务使用的 Web 数据的爬虫程序,在全球前 1000 个顶级网站上被屏蔽率为 6.77%。
任何您可以从 Web 浏览器访问的页面都可以被爬虫程序「抓取」,它们就像浏览器一样运行,但将材料存储在数据库中而不是向用户显示。
这就是搜索引擎如 Google 收集信息的方式。网站所有者一直有能力发布指令,告诉这些爬虫程序离开他们的网站,但合作完全是自愿性质,并且恶意操作者可以忽略这些指令。
谷歌和其他网络公司认为其数据爬虫工作属于合理使用范围,但许多出版商和知识产权持有人长期以来一直反对此做法,并且该公司因此面临了多起诉讼。大型语言模型和生成式 AI 的兴起使得这个问题重新受到关注,因为 AI 公司派出自己的爬虫程序收集数据以培训其模型并提供聊天机器人所需素材。
自从 Google 和其他搜索网站将用户引导至其支持广告的网站后,一些出版商至少认为允许搜索爬虫程序进入其网站具有某种价值。然而,在 AI 时代中,出版商更积极地阻止爬虫程序进入其网站,因为暂时没有将其数据交给 AI 公司的好处。许多媒体公司目前正在与 AI 公司就以费用向其授权数据进行谈判,但这些谈判还处于早期阶段。
在过去 20 年中被 Google 拿走了一些东西的媒体机构对 OpenAI 等快速商业化的 AI 服务持敌意和「我们不会再上当」的态度。据 The Information 报道,OpenAI 预计在未来一年内将带来超过 10 亿美元的收入。
新闻媒体公司正在努力找到平衡点,在接受和抵制人工智能之间挣扎。一方面,该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。
另一方面,在人们对新闻媒体公司的信任度处于历史低点之际,将人工智能引入新闻编辑室的工作流程,会带来具有挑战性的道德问题。
而如果太多的网络阻碍人工智能爬虫,它们的所有者可能会发现更难改进和更新他们的人工智能产品——而且好的数据也变得越来越难找到。
Originality.AI 的发现显示,前 1000 个网站中 GPTBot 的屏蔽率每周增加约 5%。
国内大模型北京占一半 基础好,产品迭代最活跃
根据财联社的报道,北京市经济和信息化局党组书记、局长姜广智在2023全球数字经济大会人工智能高峰论坛上透露,目前已有80多个大模型公开发布,其中约有一半来自北京。北京正在计划推出“算力券”政策,以支持中小企业在基于落地应用场景的情况下获取多样化、低成本的优质算力。站长网2023-07-04 14:40:320000AI制作高质量超萌猫片,Pika Labs一句话就能生成
文章概要:1.PikaLabs可快速生成高质量视频2.用户只需输入文字提示即可制作视频3.PikaLabs搭载在Discord上,需要官方批准才能使用PikaLabs是一款强大的文本转视频AI平台,能快速生成高质量的视频作品。用户只需输入一个文字提示,PikaLabs就能生成剧情连贯、画面精美的视频。站长网2023-08-29 17:27:340000蚂蚁集团开源代码大模型CodeFuse
在近日的外滩大会分论坛上,蚂蚁集团正式开源了代码大模型CodeFuse。CodeFuse是蚂蚁自研的代码生成专属大模型,根据开发者的输入提供智能建议和实时支持,帮助开发者自动生成代码、自动增加注释,自动生成测试用例,修复和优化代码等,以提升研发效率。站长网2023-09-11 09:08:560000虎博科技发布并开源自研大模型TigerBot
虎博科技发布并开源自研大模型TigerBot。据介绍,在经典公开NLP语料测试中,TigerBot表现逼近OpenAI同等大小模型的96%,并在推理式问答等个别领域超越。TigerBot主要功能包括了内容生成、开放问答、总结概要、代码生成、数学题、信息抽取、图片生成等。开源地址:https://github.com/TigerResearch/TigerBot站长网2023-06-08 13:35:470000Anthropic AI 团队研究显示:人工智能倾向于产生迎合用户的奉承性回应而非事实真相
站长之家(ChinaZ.com)10月25日消息:Anthropic是一家美国的人工智能初创企业和公益公司,由OpenAI的前成员创立。Anthropic专注于开发通用AI系统和语言模型,并秉持负责任的AI使用理念。Anthropic开发的Claude2于2023年七月推出。站长网2023-10-25 19:57:390000