閱讀145 返回首頁    go 人物


網站優化利器:robots協議規範書寫

Robots文件是網站和蜘蛛程序之間的“君子協議”——robots文件不僅僅可以節省網站的資源,還可以幫助蜘蛛更加有效的抓取網,從而提高排名。

1:隻允許穀歌bot

如果要攔截除穀歌bot之外的所有爬蟲:

User-agent:*

disallow:/

Uer-agent:允許的蜘蛛名

Disallow:

2:“/folder/”和“/folder”的區別

舉個例子:

User-agent:*

Disallow:/folder/

Disallow:/folder

“Disallow:folder/”表示攔截的是一個目錄,該目錄文件下的所有文件不允許被抓取,但是允許抓取folder.hlml。

“Disallow:/folder”:對/folder/下的所有文件和folder.html都不能被抓取。

3:“*”匹配任意字符

User-agent:*

表示屏蔽所有的蜘蛛。當我們做了偽靜態處理之後,會同時又動態網頁和靜態網頁,網頁內容一模一樣,視為鏡態頁麵,所以我們要屏蔽掉動態的網頁,可以用*號來屏蔽動態的網頁

User-agent:*

Disallow:/?*?/

4:$匹配網址結束

如果要攔截以某個字符串結束的網址,就可以使用$,例如,要攔截以.asp結束的網址:

User-agent:*

Disallow:/*.asp$

也可以打開比較優秀的網站,看他們的robots文件是如何書寫的,然後根據自己的需求進行相應的修改。Robots文件可以讓蜘蛛把更多的時間花在要抓取的內容上,所以優化robots文件是很有必要的。

本文來自東陽高複:https://mygaofu.com,轉載請注明鏈接

最後更新:2017-01-04 22:34:39

  上一篇:go 用php實現將兩個表格的數據差集取出來放到一個新的excel裏
  下一篇:go 如何恢複被降權和被K的網站