Illyes在Google官方博客上发了一篇帖子,Spider会优先抓取处理

  • 栏目:软件 时间:2020-05-06 09:43
<返回列表

首先当然是网站反应速度越快越好了,如果网站都打不开更不要说越好体验了。

一月份时,Google新的SEO代言人Gary Illyes在Google官方博客上发了一篇帖子:What Crawl Budget Means for Googlebot,讨论了搜索引擎蜘蛛抓取份额相关问题。对大中型网站来说,这是个颇为重要的SEO问题,有时候会成为网站自然流量的瓶颈。

百度spider3.0功能介绍 收录抓取速度提升

来源:乐游整理 日期:2016/6/22 11:48:50 作者:乐游 962乐游网 → 首页 → 游戏资讯 → 业界动态 → 百度spider3.0功能介绍 收录抓取速度提升

[韦德体育 ,乐游网导读]百度spider上一次升级在2010年,这一次百度spider3.0升级会带来什么不一样的新内容呢?对于站长们来说这一升级的意义重大,新的搜索引擎将极大提高收录速度,优质的内容也将更容易被收录和推送。想知道更多内容一起来看看百度spider3.0的新功能介绍吧。

百度spider上一次升级在2010年,这一次百度spider3.0升级会带来什么不一样的新内容呢?对于站长们来说这一升级的意义重大,新的搜索引擎将极大提高收录速度,优质的内容也将更容易被收录和推送。想知道更多内容一起来看看百度spider3.0的新功能介绍吧。

韦德体育 1

伴随雨水冲刷着深圳的大地,百度站长平台深圳站VIP大讲堂&沙龙于6月16日隆重举行,新搜索时代在洗礼中拉开帷幕。下面,我们一起来揭开其神秘的面纱!

看点一:百度升级Spider3.0

百度Spider从2.0升级到3.0,以“用户至上”为中心,大幅提高互联网资源收录速度,为用户展现最新的优质内容,代表了互联网步入新搜索的起点。

韦德体育 2

百度朱勇博士引导站长探寻新搜索的起点

继2010年升级后,本次BaiduSpider再度升级,将离线、全量计算为主的系统,改造成实时、增量计算的全实时系统,达到的效果是:90%的有价值的页面可以在一天之内发现和抓取,每天收录的时效性资源达到原来的3倍,同时其全新的死链识别模型使得百度搜索结果中的死链点击率降低90%。

看点二:百度站长平台助力搜索新生态

在搜索新生态之下,内容质量和时效性是用户关注的重点。在Spider2.0时代,可能很多站长都会有这样的感受:百度对大站的内容更加青睐,小站难以受到认可,中小型网站越来越难生存。一个比较简单的例子:小站原创的一篇文章,一直没有被百度收录,但是这篇文章被大站转载后,对方的转载页面反而迅速被百度收录了。

在Spider3.0问世后,上述情况肯定可以较好的改善,因为3.0蜘蛛的抓取能力和效率大大加强,对原创、优质内容的“嗅觉”更加敏锐,能够以最快的速度发现原创的、有价值的资源。换言之,BaiduSpider将会从对大型网站抓取收录更多的大趋势,转变为对优质内容抓取收录更多更快,中小型网站的高质量内容会更容易的展示在用户眼前,这就是一个更加健康的互联网生态。

百度站长工具中的自动推送、主动推送、搜索引擎提交、sitemap功能可以让优质内容,尤其是中小型网站的页面,第一时间“喂”给百度3.0蜘蛛,使BaiduSpider3.0的抓取收录更高效、更及时。看来,推送提交工具与Spider3.0更配哦!

韦德体育 3

百度站长工具推送提交功能的特点

看点三:弱化商业推广后的SEO春天?

在百度商业推广进行弱化调整后,各大站长纷纷表示SEO将迎来又一个春天,除了自然排名点击率提高了,还体现在什么地方?从本次BaiduSpider升级3.0的重要变化,体现了百度正在着力营造更健康更合理的互联网搜索生态。大小站之间“不平等”的现象将会越来越少,中小型网站只要是内容具有价值,同样可以在搜索市场分一杯羹,这是SEO迎来春天的一个重要体现。

Spider3.0提升了对有价值内容的抓取收录效率,一大好处是可以使搜索结果的内容多样化,而原有的情况是:搜索一个关键词,第一页的结果基本都是类似的甚至互相转载的内容,而小站原创的特色内容反而无法得到展示,用户获取的信息丰富度大打折扣。可以想象,未来在搜索引擎中,对于某一行业的关键词出现百家争鸣的情况,广大站长朋友都能从高效SEO工作中获得乐趣,收获回报,用户也能从搜索引擎中获得不同的资源和素材,为创造、升华更高层次的内容形成良性循环。

韦德体育 4

VIP大讲堂活动现场

新搜索时代已经来临,相信在百度站长平台及技术团队的助力之下,互联网搜索生态将会更合理、更健康,站长与用户将会在曙光中共同谱写互联网的新篇章!

百度官方和各知名SEO大拿们都在不断强调一个词:速度!最重要的莫过于,从用户点击搜索结果到页面完全加载完毕,不可超过3秒,否则有可能被限制展现(因为百度做过测试,当页面在3秒以上还无法打开的话,用户会选择关闭该网页)。于是大家各种针对速度的问题也多了起来,在深圳VIP大讲堂中,我们看到了这样一个简单的对话:

今天的帖子总结一下Gary Illyes帖子里的以及后续跟进的很多博客、论坛帖子的主要内容,以及我自己的一些案例和理解。

同学问:站点遇到百度蜘蛛抓取,应该在多长时间内给出反馈?时间太长会不会被惩罚?

强调一下,以下这些概念对百度同样适用。

工程师答:1秒是最好,最多4至5秒也可以接受,如果时间再长,恐怕蜘蛛会过段时间再来了。当然如果这种情况经常发生,对你站点的抓取是非常不利的。

一、什么是搜索引擎蜘蛛抓取份额?

顾名思义,抓取份额是搜索引擎蜘蛛花在一个网站上的抓取页面的总的时间上限。对于特定网站,搜索引擎蜘蛛花在这个网站上的总时间是相对固定的,不会无限制地抓取网站所有页面。

抓取份额的英文Google用的是crawl budget,直译是爬行预算,我觉得不太能说明是什么意思,所以用抓取份额表达这个概念。

抓取份额是由什么决定的呢?这牵扯到抓取需求和抓取速度限制。

在深圳Baiduspider3.0主题的高端沙龙中,我们的高级工程师也有这样一页PPT,其中提到历史抓取效果好和服务器稳定的站点,Spider会优先抓取处理。

二、抓取需求

抓取需求,crawl demand,指的是搜索引擎“想”抓取特定网站多少页面。

决定抓取需求的主要有两个因素。一是页面权重,网站上有多少页面达到了基本页面权重,搜索引擎就想抓取多少页面。二是索引库里页面是否太久没更新了。说到底还是页面权重,权重高的页面就不会太久不更新。

页面权重和网站权重又是息息相关的,提高网站权重,就能使搜索引擎愿意多抓取页面。

韦德体育 5

三、抓取速度限制

搜索引擎蜘蛛不会为了抓取更多页面,把人家网站服务器拖垮,所以对某个网站都会设定一个抓取速度的上限,crawl rate limit,也就是服务器能承受的上限,在这个速度限制内,蜘蛛抓取不会拖慢服务器、影响用户访问。

服务器反应速度够快,这个速度限制就上调一点,抓取加快,服务器反应速度下降,速度限制跟着下降,抓取减慢,甚至停止抓取。

所以,抓取速度限制是搜索引擎“能”抓取的页面数。

四、抓取份额是由什么决定的?

抓取份额是考虑抓取需求和抓取速度限制两者之后的结果,也就是搜索引擎“想”抓,同时又“能”抓的页面数。

网站权重高,页面内容质量高,页面够多,服务器速度够快,抓取份额就大。

五、小网站没必要担心抓取份额

小网站页面数少,即使网站权重再低,服务器再慢,每天搜索引擎蜘蛛抓取的再少,通常至少也能抓个几百页,十几天怎么也全站抓取一遍了,所以几千个页面的网站根本不用担心抓取份额的事。数万个页面的网站一般也不是什么大事。每天几百个访问要是能拖慢服务器,SEO就不是主要需要考虑的事了。

六、大中型网站经常需要考虑抓取份额

几十万页以上的大中型网站,可能要考虑抓取份额够不够的问题。

抓取份额不够,比如网站有1千万页面,搜索引擎每天只能抓几万个页面,那么把网站抓一遍可能需要几个月,甚至一年,也可能意味着一些重要页面没办法被抓取,所以也就没排名,或者重要页面不能及时被更新。

要想网站页面被及时、充分抓取,首先要保证服务器够快,页面够小。如果网站有海量高质量数据,抓取份额将受限于抓取速度,提高页面速度直接提高抓取速度限制,因而提高抓取份额。

百度站长平台和Google Search Console都有抓取数据。如下图某网站百度抓取频次:

韦德体育 6

上图是SEO每天一贴这种级别的小网站,页面抓取频次和抓取时间(取决于服务器速度和页面大小)没有什么大关系,说明没有用完抓取份额,不用担心。

有的时候,抓取频次和抓取时间是有某种对应关系的,如下图另一个大些的网站:

韦德体育 7

可以看到,抓取时间改善(减小页面尺寸、提高服务器速度、优化数据库),明显导致抓取频次上升,使更多页面被抓取收录,遍历一遍网站更快速。

Google Search Console里更大点站的例子:

韦德体育 8

最上面的是抓取页面数,中间的是抓取数据量,除非服务器出错,这两个应该是对应的。最下面的是页面抓取时间。可以看到,页面下载速度够快,每天抓取上百万页是没有问题的。

当然,像前面说的,能抓上百万页是一方面,搜索引擎想不想抓是另一方面。

大型网站另一个经常需要考虑抓取份额的原因是,不要把有限的抓取份额浪费在无意义的页面抓取上,导致应该被抓取的重要页面却没有机会被抓取。

浪费抓取份额的典型页面有:

大量过滤筛选页面。这一点,几年前关于无效URL爬行索引的帖子里有详细讨论。

站内复制内容

低质、垃圾内容

日历之类的无限个页面

上面这些页面被大量抓取,可能用完抓取份额,该抓的页面却没抓。

七、怎样节省抓取份额?

当然首先是降低页面文件大小,提高服务器速度,优化数据库,降低抓取时间。

然后,尽量避免上面列出的浪费抓取份额的东西。有的是内容质量问题,有的是网站结构问题,如果是结构问题,最简单的办法是robots文件禁止抓取,但多少会浪费些页面权重,因为权重只进不出。

某些情况下使用链接nofollow属性可以节省抓取份额。小网站,由于抓取份额用不完,加nofollow是没有意义的。大网站,nofollow是可以在一定程度上控制权重流动和分配的,精心设计的nofollow会使无意义页面权重降低,提升重要页面权重。搜索引擎抓取时会使用一个URL抓取列表,里面待抓URL是按页面权重排序的,重要页面权重提升,会先被抓取,无意义页面权重可能低到搜索引擎不想抓取。

最后几个说明:

链接加nofollow不会浪费抓取份额。但在Google是会浪费权重的。

noindex标签不能节省抓取份额。搜索引擎要知道页面上有noindex标签,就得先抓取这个页面,所以并不节省抓取份额。

canonical标签有时候能节省一点抓取份额。和noindex标签一样,搜索引擎要知道页面上有canonical标签,就得先抓取这个页面,所以并不直接节省抓取份额。但有canonical标签的页面被抓取频率经常会降低,所以会节省一点抓取份额。

抓取速度和抓取份额不是排名因素。但没被抓取的页面也谈不上排名。

作者: Zac@SEO每天一贴

搜索引擎蜘蛛抓取配额是什么? - 推荐阅读:

如何让百度蜘蛛每天抓取你网站的内容

如何养好蜘蛛定时抓取网站页面

HTTPS站点如何做才能让百度蜘蛛抓取

什么是抓取异常?

百度蜘蛛抓取规则分析(一招让百度蜘蛛迷路)

转载请注明来源:申永祥博客,(QQ/微信:790799899)原文地址:http://www.shenyongxiang.com/seo-da/2412.html

上一篇:就是一味的为了创造内容而创造内容 下一篇:将针对发布恶劣诱导类广告的页面进行打击,《秀丽江山之长歌行》全集

更多阅读

将针对发布恶劣诱导类广告的页面进行打

软件 2020-05-06
吸引眼球的形态诱导用户点击非法广告,为了改善用户体验以及引导行业生态向积极健康的方...
查看全文

Illyes在Google官方博客上发了一篇帖子,

软件 2020-05-06
首先当然是网站反应速度越快越好了,如果网站都打不开更不要说越好体验了。 一月份时,...
查看全文

1、网站换域名的定义,1、HTTP站点建议至

软件 2020-05-04
要求做了HTTPS的网站,建议保留HTTP站点48小时,且将HTTP站点301到HTTPS站中,而且是必须301才可以...
查看全文

友情链接: 网站地图

Copyright © 2015-2019 http://www.koi-bumi.com. 韦德体育有限公司 版权所有