谷歌搜索下线快照,互联网似乎真的要没有记忆了
刻在石头上的碑文会风化、写在纸上的文字会腐朽,数千年以来,如何保存知识始终是人类文明的一大关键课题。直到互联网的出现,它成为了一个被认为保存信息的绝妙载体,“互联网是有记忆的”这句话在多年以前更是被奉为圭臬。然而时过境迁,随处可见的“404Not found”让“互联网没有记忆”已然成为大家公认的事实,如今谷歌的新动作,则又加深了这一刻板印象。
近期,谷歌搜索公共联络人Danny Sullivan确认,谷歌方面将删除所有搜索结果中的网页快照/缓存链接,未来用户将无法在搜索结果里点击缓存来查看网页被谷歌爬虫索引时生成的网页快照。并且Danny Sullivan还透露,缓存操作符“cache:”预计也将会被移除。为此谷歌给出的解决方案,是在搜索结果中添加互联网档案馆(The Internet Archive)的链接,以取代“关于本结果”部分的谷歌缓存链接。
但作为一家非营利性组织,如今互联网档案馆的日子也不太好过,它在去年就先后面临美国图书出版商、唱片公司总计3.72亿美元的天价索赔。更何况作为全球最受欢迎的搜索引擎,谷歌搜索的用户规模极为庞大。按照去年谷歌方面在数字服务法(DSA)要求下向欧盟报告的数据显示,谷歌搜索仅仅在欧盟地区的月活就高达3.32亿。所以显而易见,互联网档案馆的服务器不太可能及时缓存来自谷歌搜索抓取的网页。
如此一来,继国内市场的百度、搜狗、360之后,谷歌搜索也实质上放弃了快照功能。关于为什么会突然不再提供搜索结果中的网页快照、缓存,谷歌的说法是其最初提供缓存链接选项主要为了帮助用户可靠地访问网页,比如面对网页无法加载时,现在随着网络技术的发展,许多网站已经可以提供很好的可靠性,所以为了防止网页打不开而进行的缓存,已经没有必要。
网页缓存或者说快照,其实可以理解为是一份网页的副本,早期由于技术条件的限制,有相当多的网站存在访问不稳定的问题,以至于会出现用户通过搜索引擎的结果访问时,发现网站无法打开,这时候快照的作用就出现了,它就好比给网页拍了一张照片,让用户能够从快照中找出网页上的有用信息。
同时,网页通常并不是一成不变的,而是不断增加、删除、改动,为了保证用户使用搜索引擎时总能找到需求的信息,搜索引擎的数据库定时更新抓取的网页,就意味着当某个网站删除一个网页后,数据库里的网页快照并不会立刻被删除,而是要到下一次更新时才会同步。此外网页快照还可以避免由于内容太多,想要完整大量储存网页内容时带宽不够的问题,抓取快照可以以最少的带宽就将其保存下来。
早期网络基础建设不建全、网速慢是常态,再加上网站建设水平良莠不齐,技术不规范、不成熟等问题,先不说网站本身的体验如何,很多网站可能单单是打开页面都费劲,于是搜索引擎为了保障用户体验,就搞出了快照这个功能。但随着时间的推移,特别是云服务相关技术的跨越式发展,网站访问不稳定的现象几乎已经成为了传说,网页无法打开的情况也愈发罕见,就使得快照功能存在的意义就没有了。
要知道,互联网上有数以百亿计的网页,为了保存快照信息,即使百度、谷歌将搜索引擎收录的网页以纯文本的形式备份,其他资源,如样式表和图片等内容不会被缓存。在聚沙成塔的情况下,过去二十余年间积累的快照对于服务器显然已经成为了一个不小的负担。毕竟快照的存储必然会产生服务器资源的占用,清空快照页面就可以将释放出来的空间挪至其它用途,从而达到“降本”的作用。
在如今全球互联网厂商都采取“降本增效”的背景下,砍掉不影响核心体验的功能已经是大趋势。再加上AI搜索已然成为了趋势,当用户看到的是AI对于用户需求信息的总结,被索引的网页主要起到类似“文献”的作用,以佐证AI总结内容的可靠性时,当用户在使用搜索引擎时不再需要打开网页,保存网页快照又有何用呢?
除了以上两点外,快照功能最近几年也逐渐被SEO从业者滥用。比如可以通过投诉快照来做排名,通过快照做收录等,SEO从业者利用模拟点击来绕开算法,借助快照功能将随意采集拼凑的垃圾站点快速排到首页。于是乎,搜索结果页的内容质量每况愈下,就逼得搜索引擎不得不将其权重降低。
甚至有些黑灰产团队,还会使用SEO快照劫持来影响搜索引擎的正常排名。通过网站存在的漏洞或其它违规方式获取网站后台权限,再通过注入恶意代码从而实现快照替换的目的。通常来说,黑灰产会给目标网页挂上一段加密的JavaScript代码,该代码的功能则是判断访问网页的是不是搜索引擎的爬虫,如果是爬虫程序则不做任何操作,让搜索引擎正常抓取;如果判断是用户,则会执行JS跳转代码,将网站的正常页面替换为恶意网页。
所以当一个功能用户不再经常使用、且需要消耗大量服务器资源,同时还可能会被黑灰产利用时,百度、谷歌等搜索引擎将其关闭就再正常不过了。只可惜在没有了快照后,注定就会有一大批网页因为缺乏维护或内容更新,而遗失在互联网庞大的信息海洋里。
第四范式向港交所提交上市申请书 宣布推出SageGPT
据港交所文件显示,人工智能技术与服务提供商北京第四范式智能技术股份有限公司向港交所提交上市申请书。第四范式在招股书透露,于今年3月推出了一个专为业务场景设计的企业级生成式人工智能产品SageGPT。这款产品具备多模态互动能力和企业级人工智能工具的特性。站长网2023-04-25 10:05:160000电商平台进入“仅退款”时代,阿里被拼多多卷入“巷战”?
今年这个年,阿里不好过。12月29日,北京市高级人民法院对京东诉浙江天猫网络有限公司、浙江天猫技术有限公司、阿里巴巴集团控股有限公司“二选一”案做出一审判决,认定其滥用市场支配地位实施“二选一”的垄断行为成立,对京东造成严重损害,并判决向京东赔偿10亿元。在此之前,阿里刚刚经历了一轮密集的调整,从人员架构到平台规则,阿里正在积极求变。0000公众号阅读页面又要更新了!
最近微信又在测试好玩的了!见实持续关注最近的微信测试版更新时,发现一个有趣的小变化:公众号文章页改版啦,读者可以直接在页面底部看到该篇文章的公众号名称图标、在看数量、转发数量、点赞数量和留言数量。这个小功能的更新或将让人们更加关注文章质量,观点鲜明,立场坚定的文章会更加有市场与传播力。就跟着见实一起来了解一下吧。如下,Enjoy:01公众号文章页改版站长网2023-12-25 17:31:510000每周AI大事件 | OpenAI API重磅更新、360AI数字人广场、「百川智能」亮相
欢迎来到站长之家的[每周AI大事件],这里记录了过去一周值得关注的AI领域热点内容,帮助大家更好地了解人工智能领域的动态和发展风向。Part1动态[国内要闻]王小川大模型「百川智能」首亮相王小川组建的「百川智能」在6月15日正式推出首个70亿参数中英文预训练大模型——baichuan-7B,大模型已在HuggingFace、Github以及ModelScope平台发布。站长网2023-06-16 20:15:040000专家预测:人工智能将是人类灭绝的首要原因,其次是核战争和病毒
本文概要:1.专家预测人工智能将是人类灭绝的首要原因。2.核战争和病毒将是人类继人工智能后可能导致灭绝的原因。据印度媒体indianexpress报道,在“生活、科学与一切事物”系列讲座中,科学家兼前印度科学与工业研究理事会总干事谢卡尔·曼德博士谈到了人类灭绝的问题,以及其他相关议题。站长网2023-08-15 11:26:230000