問:搜索引擎在高峰時段大量抓取頁面,導致服務器出現(xiàn)負載問題。但是我不希望屏蔽它的抓取,應該如何處理?能否在高峰時段對spider返回 202 狀態(tài)碼,告知spider“服務器已接受請求,但尚未處理。”?這會對網站造成什么影響?
答:會延遲百度對新網頁的收錄速度。
正常情況下,Baiduspider的抓取頻率大致上和網站新資源產生的速度相符,并不會給網站帶來很大的壓力。但現(xiàn)在網站結構通常都比較復雜,多種url形式指向的可能是相同的內容,或者會自動產生大量無檢索價值的網頁。
我們目前發(fā)現(xiàn)的問題,主要來源于此,建議先分析一下spider的抓取日志,看看是否抓取了你不希望搜索引擎收錄的形式,如果有,robots掉它們可以節(jié)省大量的資源。