AI厂商拿Robots协议当草纸,互联网秩序“礼乐崩坏”
就在一众AI大模型厂商还在为盈利发愁时,英伟达靠卖算力已成功登顶全球市值第一公司的宝座,再次证明了当淘金热汹涌时候、只有卖铁铲的最赚钱。但训练大模型不仅要算力、还要有数据,以至于Reddit、X等内容平台纷纷做起了数据买卖这个生意。只不过,如今这个生意也越来越不好做了。
近日根据路透社报道,内容授权初创公司TollBit近日向出版商发出警告称,多家人工智能公司正在规避他们用于阻止抓取内容的通用网络标准,并将抓取的内容用于训练生成式AI系统。几乎在同一时间,知名科技杂志《Wired》也发文称,AI搜索公司Perplexity存在绕过机器人排除协议(Robots Exclusion Protocol),以获取受限网络内容的行为。
![](https://i.zz5.net/images/article/2024/06/29/221432193.jpg)
再算上此前OpenAI使用YouTube上的视频内容训练打模型,谷歌也曾被曝出修改用户协议、以免费获取旗下平台用户数据的消息。似乎上至一线巨头、下至初创企业,AI行业俨然集体化身为了“数据小偷”。
一直以来,数据无疑是训练AI大模型的基础,而高质量数据更是决定了大模型的性能上限,这也正是AI厂商如同饕餮般吞噬数据的真相。为此他们可谓是满世界买数据,但现实却是可供交易的数据已经满足不了大模型的胃口了。
当正常买卖数据这条路不好走了之后,“偷数据”似乎就变成了AI厂商心照不宣的操作。比如这次被部分AI厂商无视的Robots Exclusion Protocol(以下简称Robots协议),其实是一个存放于网站根目录下的ASCII编码文本文件,它是控制网站被搜索内容的一种策略,也就是/Robots.txt。
Robots协议的唯一作用,就是告诉user-agent(网络爬虫)网站中的哪些内容允许被爬取、哪些内容又不能抓取。以2008年9月宣布屏蔽百度搜索引擎的淘宝为例,当时这家电商网站的Robots协议非常简单,直接就禁止了“Baiduspider”、即百度蜘蛛访问网站的任何部分。依靠这样的Robots协议,淘宝避免了流量外溢到百度,进而催生了其站内的竞价排名体系。
![](https://i.zz5.net/images/article/2024/06/29/221432194.jpg)
为什么这样简简单单的代码就能拦住了百度的爬虫呢?这是因为百度签署了《互联网搜索引擎服务自律公约》,承诺遵守Robots协议,并愿意限制搜索引擎抓取应有行业公认合理的正当理由、不利用这一协议进行不正当竞争行为。这也是后来百度起诉360违反Robots协议时,会大义凛然指责360搜索在明确承认Robots协议约束力后、又规避了这个协议的底气。
尽管Robots协议并不俱备法律层面的强制力,甚至都不是行业自律公约,实质上仅仅只是一个君子协定,可是在过去三十年里,Robots协议在事实层面成为了网站和搜索引擎共同遵守的一个有关数据抓取的规则。一个缺乏强制力的君子协定能存在、并得到不同文化背景互联网公司的认可,自然是有它的道理。
![](https://i.zz5.net/images/article/2024/06/29/221432209.jpg)
Robots协议的成功之处,就在于做到了搜索引擎和网站的双赢。其中搜索引擎抓取了网站的网页、让自己的索引库更加充实,进而满足用户对于信息的需求,而网站方则从搜索引擎处得到了流量作为回馈,进而通过流量变现赚到真金白银。
以AI搜索独角兽Perplexity为代表的一众AI厂商打破乃至无视Robots协议的趋势,如果要用一个词来形容,“礼乐崩坏”似乎是最合适的。
周朝用“礼乐”实现了人人各安其位各乐其业,长幼有序尊卑井然,上下和睦贵贱相安的秩序,而互联网的奠基人则用开放、平等、协作、快速、分享塑造了互联网世界的行为准则。互联网精神虽然并不要求每一个参与者都具备这种精神,但是Tim Berners-Lee、Marc Andreessen等早期互联网的缔造者,却在顶层设计中用“无形的大手”促使每一个参与者需要遵循互联网精神。
![](https://i.zz5.net/images/article/2024/06/29/221432224.jpg)
一个很简单的例子,就是如果大家曾经不相信互联网精神,那么Copy to China根本就不会发生。所以问题就来了,为什么互联网世界如今会“礼乐崩坏”呢?韩非子有言,“事异则备变。上古竞于道德,中世逐于智谋,当今争于气力”。早期的互联网世界“竞于道德”,是因为彼时的互联网还是蛮荒之地,大片的处女地等待着参与者来开拓,一旦找对了赛道就能扶摇直上。
可到了移动互联网时代,随着互联网世界的拓荒时代结束,每一条赛道几乎都站满了巨头,创业者就得靠智谋才能成功,否则即使成为风口上的猪,风停了也得摔下来。
而当下随着流量红利的枯竭,互联网进入存量竞争时期后,就得刺刀见红了。这时候对于AI厂商来说,获取更多的数据以训练更强的模型、再用更强的模型拉到更多的投资才是王道,遵守Robots协议反而会让自己在市场竞争中落后。
![](https://i.zz5.net/images/article/2024/06/29/221432225.jpg)
当然,AI厂商并非就想离经叛道,而是他们拿不出让数据拥有着满意的筹码。此前网站站长愿意向Googlebot敞开大门,还不是因为谷歌搜索能回馈流量,可AI厂商并不像搜索引擎那样能用流量来作为报酬,反倒是AI厂商训练的大模型可能会代替网站。所以指望网站像接纳搜索引擎一样接纳AI厂商,无异于难如登天。
所以当数据拥有者不想给、可AI厂商偏偏又很想要的情况下,“礼乐崩坏”也就来了
头部主播的好日子快到头了
直播电商行业,正陷入前所未有的危机。新规拟出台,全面禁止“最低价协议”没想到,今年双11最热闹的战场,居然是“舆论场”。先是10月24日天猫双11预售首日,#京东采销喊话李佳琦#事件冲上热搜,引发外界猜测李佳琦直播间是否和品牌方存在“底价协议”;当天在美ONE方面否认后,主播大杨哥又在“疯狂小杨哥”直播间称李佳琦控价控库存,挟持商家;站长网2023-11-03 13:57:440000突发!刚刚,OpenAI裂变成了两块:一块营利,一块非营利
鱼上了岸,就不再是鱼?本周五晚间,OpenAI突然宣布了公司重组的消息,不仅让马斯克,也让我们有些措手不及。根据OpenAI的最新声明,新一轮组织结构调整是围绕营利与非营利的矛盾展开的。0000扎克伯格宣布大胆计划:将 AI 融入Meta 的每一个产品
Meta前Facebook首席执行官马克·扎克伯格(MarkZuckerberg)有一个大胆的新计划,目的是为Meta拥有的产品增加一些吸引力,也就是将在每一个产品中都加入一些生成人工智能功能。据Axios报道,在上周四的全体会议上,扎克伯格公布了一系列生成性人工智能工具和集成,这些工具将融入Meta的内部和面向消费者的产品中,包括Facebook和Instagram。站长网2023-06-12 17:12:560001做小工具,4个人,400万/年收入。
各位村民好,我是村长。这几年大家都挺迷茫的。想要去创业,看起来外面有各种各样的项目,听每个人分享起来都是年入几千万、几个亿的。但是当自己看了一圈想要去做的时候,又感觉无从下手,感觉每个人项目都有人做了。这几年,除了在做传统的电商、短视频外,也在尝试做一些小项目。个人觉得小工具对于普通创业者来说,还算是一个不错的赚钱赛道,是有机会猥琐(闷声)发育,活下来赚到钱的。01信息差永远存在0000一夜涨出1个可口可乐,英伟达无愧为AI时代的领航者
地球上最重要的一支股票——英伟达。想象一下,如果在十年之前,你手里有1000美元,你会选择投资什么呢?老牌媒体CNBC给出了最新的回答,那就是去买英伟达股票。正如AJBell投资总监说的那样,「在十九世纪中期的淘金热中赚到最多钱的人是那些提供工具的人,而不是那些寻找金矿的人。今天,英伟达在这场技术革命中实际上扮演着同样的角色。」站长网2024-02-24 10:31:450000