我们经常会发现搜索引擎优化爬虫都非常喜欢爬取首页,以前认为大量爬取首页是好事,因为更新的文章经常在首页出现,可以被快速收录。现在看来,从局部上看是好事,但是从整体上看,爬虫每次爬取量都是有限的,抓到一定数据量就会离开。所以许多有价值的页面反而没被抓取到。
在这种情况下,在站内的某个页面被链接次数越多,它被爬虫抓取的频率就越高,最典型的例子就是首页。因此我们根据数据,把爬虫大量链接的页面,在站内许多地方都给nofollow掉,只留个别链接,保证爬虫以前抓取它一两次即可。这样在被抓取数据量一定的情况下,减少了单一页面浪费的爬虫流量,自然增大了爬虫爬取的页面数量。这样你的网站更新频率自然提高。