3】更新率
通常比较好的网站的爬虫能够在合适的时间进行爬网,因为很容易可以从IP上判断一个主机的实际地址,一般的爬虫都安排在当地时间的凌晨2-5点爬主要的网页。
对于一个经常更新的网站,设计良好的爬虫会定期来爬,时间间隔不会超过两天。在这里面有一个定义:[更新率],是[月更新的网页/全部的网页],如果这个数字比较大,则表明这个网站维护和更新比较快,会受到爬虫很好的重视。
在搜索引擎的竞争中,爬虫占很大的比重。因为爬虫是搜索引擎最直接的信息来源。但是过渡的爬虫则会影响到主机的性能,也会造成网路阻塞。Googbot宣称不会在15秒钟送出两只以上的爬虫,而Baidu则丝毫没有顾及这个,Baidu的爬虫常常是一分钟内往一个网站送交几百,甚至上千只,对于多域名Hosting的主机,常造成主机瘫痪。因此有网站在/robot.txt 里限制了爬虫的范围。
比较好的一个例子是一个中等网站的爬虫与访问量的关系是1/50的关系。
那么什么会影响到爬虫访问的次数呢?除了上面谈到的[更新率]和以后要谈到的Pageranking外,还有一个不为大家重视的就是主机的反应速度网站的稳定性。
主机的反应速度直接影响到爬虫的效率,如果反应过慢,爬虫没有拿到数据,爬虫会认为这个网页的参考价值不高,并短时间内不会更新。
稳定性更可怕,如果一个网站down一天,这一天里爬虫都没有access host,那么接下来的几天里爬虫数目会骤减,因为任何一个搜索引擎不希望将用户导向到一个联接不上的网站。爬虫未来也会送一两只过来探测网站是否正常,如果一切恢复了,仍然需要一段时间才能和爬虫建立友好关系,大约要1,2周德时间才能完全在搜索引擎上恢复到原来的位置。