閱讀311 返回首頁    go 百度 go 站長平台


抓取異常問答

1、什麼是抓取異常

    對於互聯網中可正常訪問的頁麵,百度蜘蛛抓取的內容應與普通用戶訪問到的內容是一致的,除此以外的情況,就是抓取異常。 


2、抓取異常對網站的影響有哪些

    若網站中有大量抓取異常的網頁存在,搜索引擎會認為網站存在用戶體驗上的缺陷,並降低對網站的評價,最終影響到網站在百度搜索引擎中的表現。 


3、什麼是死鏈

    頁麵已經無效,無法對用戶提供任何有價值信息的頁麵就是死鏈接,包括協議死鏈和內容死鏈兩種形式。

    協議死鏈:頁麵的TCP協議狀態/HTTP協議狀態明確表示的死鏈,常見的如404、403、503狀態等。

    內容死鏈:服務器返回狀態是正常的,但內容已經變更為不存在、已刪除或需要權限等與原內容無關的信息頁麵。

    對於死鏈,建議及時修複死鏈數據,或進行死鏈數據推送,以便搜索引擎更快地發現死鏈,減少死鏈對用戶以及搜索引擎的影響。 


4、什麼是IP禁封

    限製網絡的出口IP地址,禁止該IP段的使用者進行內容訪問,即為IP禁封。 


5、什麼是UA禁封

     UA即為用戶代理(User-Agent),服務器通過UA識別訪問者的身份。當網站針對指定UA的訪問,返回異常頁麵(如403,500)或跳轉到其他頁麵的情況,即為UA禁封。  


6、什麼是異常重定向

     將網絡請求重新指向其他位置即為重定向。常見的重定向有兩種:永久重定向(301跳轉協議)和暫時重定向(302跳轉協議),目前百度都可以識別和支持。

     對於長時間跳轉到其他域名的情況,如網站更換域名,建議您使用301跳轉協議。 


7、還有哪些其他異常

     針對百度refer的作弊:網頁針對來自百度的refer返回不同於正常內容的行為。

     針對百度ua的作弊:網頁對百度UA返回不同於頁麵原內容的行為。

     JS跳轉作弊:網頁加載了百度無法識別的JS跳轉代碼,使得用戶通過搜索結果進入頁麵後發生了跳轉的情況。

     壓力過大引起的偶然禁封:百度會根據站點的規模,訪問量等信息,自動設定一個合理的抓取壓力。但是在異常情況下,如壓力控製失常時,服務器會根據自身負荷進行保護性的偶然封禁。這種情況下,請在返回碼中返回503(其含義是  “Service Unavailable”),百度蜘蛛會過段時間再來嚐試抓取這個鏈接,如果網站已空閑,則會被成功抓取。


最後更新:2013-07-18 11:31:43

  上一篇:go 站點抓取報錯中404頁麵與死鏈工具數據處理的關係說明
  下一篇:go 互聯網行業網站運營公約